首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >读取文件并写入数据库

读取文件并写入数据库
EN

Stack Overflow用户
提问于 2011-06-01 10:59:20
回答 3查看 175关注 0票数 1

昨天在一次面试中,我被问到这个问题,我提供的答案似乎没有给面试官留下深刻的印象。:(

这是一个场景。文件在新行分隔的记录中具有逗号分隔的属性值。要求此文件必须进入具有匹配的列序列的数据库表中。该文件有一个自引用列,即一列" id“保存该记录的唯一非空id,另一列"LinkId”包含其他记录的id。该值可以为空。

要求:该文件必须插入到数据库中的相同顺序,但所有的一次!这意味着没有多个插入。

问:如何在.Net框架中最好地实现这一点(您可以使用最新的4.0框架)

我给出的解决方案是:逐行读取文件并将其解析为所需的XML。然后使用DataTable.ReadXML()调用将文件立即加载到数据表中,并提交保存数据表的数据集。

挑战:

一个100 GB的文本文件怎么样?它会这样工作吗?功能会变得多慢?如果我们必须在内存中存储100 GB的数据,那么系统的虚拟地址空间会支持它吗?页面交换不会导致问题和变慢吗?

DataTable.ReadXML()能处理这么大的XML吗?数据集是否能够提交?

我的回答是:

有什么想法吗,伙计们?

谢谢哈里什。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-06-01 11:30:52

如果使用的是SQL Server,则可以使用BULK INSERT命令

http://msdn.microsoft.com/en-us/library/ms188365.aspx

基本上,您设置了一个SQLCommand对象,将CommandText设置为如下所示:

代码语言:javascript
复制
sqlCommand.CommandText = "BULK INSERT " & tableName & " FROM '" & file & "' WITH(TABLOCK, FIELDTERMINATOR=',')
sqlCommand.ExecuteNonQuery()

tableName -是要插入的表格的名称。

文件-是希望SQL Server读取的文件的名称。您需要确保SQL Server可以到达存储文件的位置。这包括ACL权限和网络连接。

BULK INSERT命令有很多选项,我以前用过它,它工作得很好。

票数 2
EN

Stack Overflow用户

发布于 2011-06-01 11:42:27

不管怎样,你都会有多个插入。如果文件不太大,最简单的方法是首先创建一个数据库事务,然后逐行读取并为每行创建一个insert命令。一旦所有行都被读取,您就可以提交事务。

对于一个100 up的文本文件,我会首先将其拆分成小得多的块,以便插入。也许每1000行提交一次事务?

对我来说,"Id“和"LinkId”字段看起来就像一个经典的父>子关系。因此,只要先插入父对象,就不会有问题。

您没有提到这将是哪种类型的数据库,但是如果它是MSSQL,那么您还可以使用Linq to Sql每行创建一个新对象并将其添加到列表中。假设你使用的是C#,你可以使用:

代码语言:javascript
复制
List<YourObject> YourList = new List<YourObject>();

using(System.IO.StreamReader file = new System.IO.StreamReader("C:\yourstorage.txt")) {
    while((line = file.ReadLine()) != null) {
        string[] fields = line.Split(',');

        YourObject obj = new YourObject();
        obj.FieldX = fields[0];
        obj.FieldY = fields[1];
        obj.FieldZ = fields[2];

        YourList.Add(obj);
    }
}

using(YourDataContext db = new YourDataContext()) {
    db.YourObjects.InsertAllOnSubmit(YourList);
    db.SubmitChanges();
}

其中YourObject是已经添加到项目中的Linq to Sql模型,YourObjects是数据库中的实际表名。但是对于一个巨大的文件来说,这可能会占用大量的内存。

票数 1
EN

Stack Overflow用户

发布于 2011-06-01 11:16:58

显然,您可以使用OLEDB打开CSV文件see this for example,从那里将数据从一个数据库获取到另一个数据库应该很容易。

我不确定它是否真的解决了内存问题,但它比在内存中构造XML副本要好得多。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/6195796

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档