我可以用下面的代码在Python (2.7)的Sqlite3中进行非常高效的批量插入:
cur.executemany("INSERT INTO " + tableName + " VALUES (?, ?, ?, ?);", data)
但是我不能让更新有效地工作。我认为这可能是数据库结构/索引的问题,但即使在只有一个100行的表的测试数据库上,更新仍然需要大约2-3秒。
我尝试过不同的代码变体。我最新的代码来自this answer,回答了之前关于更新和执行的问题,但它对我来说就像我做过的任何其他尝试一样慢:
data = []
for s in sources:
source_id = s['source_id']
val = get_value(s['source_attr'])
x=[val, source_id]
data.append(x)
cur.executemany("UPDATE sources SET source_attr = ? WHERE source_id = ?", data)
con.commit()
我如何改进这段代码才能高效地进行大批量更新?
发布于 2016-04-22 16:01:51
当插入一条记录时,数据库只需要在表的末尾写一行(除非您有像UNIQUE约束这样的东西)。
更新记录时,数据库需要查找行。这需要扫描整个表(对于每个命令),除非您在搜索列上有索引:
CREATE INDEX whatever ON sources(source_id);
但是如果source_id
是primary key,那么您应该这样声明它(这会创建一个隐式索引):
CREATE TABLE sources(
source_id INTEGER PRIMARY KEY,
source_attr TEXT,
[...]
);
https://stackoverflow.com/questions/36783579
复制相似问题