请评论和评论该方法。。
场景:我在一个平面文件中有一个大型数据集(2亿条目)。数据是表格-一个10位数的电话号码,后面是5-6个二进制字段.每周我都会得到一个Delta文件,它只包含对数据的更改。
Problem:给出一个项目列表,我需要知道每个项目(这将是10位数)是否存在于数据集中。
我计划的方法是:
将使用此功能作为REST 的后端。
:我最喜欢的语言是。
发布于 2012-02-22 22:32:09
快速查找的几个注意事项:
如果您想一次检查一组数字,可以使用执行set intersection.
SINTER,通过在某些哈希函数(例如电话号码的第一位数)上分配数字范围(可能有更好的数字,您必须进行实验),这将使每个节点的大小在使用最优散列时减少到近2000万个条目。如果您期望重复请求,则
https://stackoverflow.com/questions/9398951
复制相似问题