某些场景下,开发者希望能够大批量地把实体的数据导入到数据库中。虽然使用实体仓库保存实体列表非常方便,但是其内部实现机制是一条一条的保存到数据库,当实体的个数较多时,效率就会很低。所以 Rafy 设计了批量导入插件程序,其内部使用 ADO.NET 及 ODP.NET 中的批量导入机制来把大量数据一次性导入到数据库中。
使用方法
var books = new BookList();
for (int i = 0; i < 1000000; i++)
{
var book = new Book
{
ChapterList =
{
new Chapter(),
new Chapter(),
}
};
books.Add(book);
}
//直接使用实体仓库进行保存。
repo.Save(books);
需要把最后一行使用仓库保存实体列表,修改为创建导入器来保存实体列表:
//创建一个批量导入器进行保存。
repo.CreateImporter().Save(books);
注意
Rafy.Domain.ORM.BatchSubmit.Oracle.OracleBatchImporter.EnableBatchSequence(
RF.Concrete<OriginalDataRepository>()
);
实现原理
下面简要介绍批量导入的原理。
对于 Sql Server 数据库的批量保存:
DELETE FROM Books WHERE Id IN (1,3,5,7......);
对于 Oracle 数据库的批量保存:
一般情况下,使用仓库保存一个新增的实体时,仓库会使用数据库本身的机制来为实体生成 Id,在 SQLServer 中是使用 IDENTITY 列,在 ORACLE 中则是使用每个表对应的 SEQUENCE 来生成。但是,批量导入大量新实体时,为了性能上的考虑,则需要一次性为需要保存的所有新实体统一生成 Id。
在 SQLServer 中,可以方便地使用 SQL 语句调整表中 IDENTITY 下一次的值,所以实现比较简单。只需要设置 IDENTITY 下一次的值 + 100000,并使用中间跳过的这些值来作为实体的 Id 即可。
但是在 ORACLE 中,如果去调整 SEQUENCE 的值,则属于 DDL 语句,会隐式自动提交事务,会造成数据的错误。所以我们最终决定:如果在 ORACLE 中要使用批量导入功能,数据表对应的 SEQUENCE 必须以较大的数字为步距(如 ALTER SEQUENCE "SEQ_TABLE_ID" INCREMENT BY 100000 NOCACHE)。这样,在批量导入时,就不再需要增修改 SEQUENCE 的步距,而直接使用中间跳过的这些值作为实体的 Id。这样做也比较方便,但是负面效果则是使用仓库保存单一实体时,两次保存不同实体生成的 Id 会相差 100000,不再是连续的。
PS:该文已经纳入《 Rafy 用户手册》中。