我在考虑一个系统,将word -> count的散列映射链接到当前分钟、小时和天的3个分钟堆。每一条传入的消息都会被标记化、清理,并在散列映射中更新单词计数(如果单词已经存在,还会增加堆中的键)
如果有任何单词在堆中不存在(以及堆大小为100),检查它们的frequency > min value是否在堆中,如果是,则使用frequency > min value-min并插入到堆
我使用Lumenworks.Framework.IO.Csv.CsvReader读取Csv文件,并希望检测格式不良的文件。如果一行的列比标题少,那么它将抛出LumenWorks.Framework.IO.Csv.MissingFieldCsvException。但是,如果一行的列比标题多,那么在解析行时它只会截断行。有什么我可以设置的属性让它抛出吗?或者另一个CSV解析器,它高效、易用,并且会检测到这个问题吗?我的测试文件看起来
Field 1,Field 2,Fiel