首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何从 100 亿 URL 中找出相同的 URL?

思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b 中的 URL 分别存储到文件 b0, b1, b2, ..., b999 中。...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件中相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合中。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

2.9K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    面试:如何从 100 亿 URL 中找出相同的 URL?

    思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b 中的 URL 分别存储到文件 b0, b1, b2, ..., b999 中。...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件中相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合中。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    4.6K10

    面试:如何从 100 亿 URL 中找出相同的 URL?

    思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b 中的 URL 分别存储到文件 b0, b1, b2, ..., b999 中。...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件中相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合中。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    2.3K20

    面试经历:如何从 100 亿 URL 中找出相同的 URL?

    思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b 中的 URL 分别存储到文件 b0, b1, b2, ..., b999 中。...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件中相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合中。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

    1.9K00

    在ASP.NET MVC中如何应用多个相同类型的ValidationAttribute?

    [源代码从这里下载] 一、一个自定义ValidationAttribute:RangeIfAttribute 为了演示在相同的目标元素(类、属性或者字段)应用多个同类的ValidationAttribute...具体的验证逻辑定义在重写的IsValid方法中。...在HttpPost的Index操作中,如果验证成功我们将“验证成功”字样作为ModelError添加到ModelState中。...在默认的情况下,Attribute的TypeId返回的是自身的类型,所以导致应用到相同目标元素的同类ValidationAttribute只能有一个。...幸好Attribute的TypeId属性是可以被重写的,县在我们在RangeIfAttribute中按照如下的方式对这个属性进行重写: 1: [AttributeUsage( AttributeTargets.Field

    2.1K60

    Excel公式技巧05: IFERROR函数,从结果中剔除不需要的值

    学习Excel技术,关注微信公众号: excelperfect 在使用公式时,我们经常遇到将某个值从结果数组中剔除,然后将该数组传递给另一个函数的情形。...:E13,">="&DATEVALUE("2019/8/27"),E2:E13,"<="& DATEVALUE("2019/8/29"))) 用来计算Mike、John和Alison在满足条件时的销售量中的最小值...并且,这样的公式对于很小的数据量来说可能算不了什么,但是如果数据量很大且有很多相同的公式,将公式的主要部分计算两次将占用双倍的资源。如果有一个与IFERROR函数类似的IFZERO函数就好了!...,4},"")) 可以看到,Excel将1/#DIV/0!的结果仍返回为#DIV/0!。转换为: =MIN({5,””,4}) 结果为: 4 因此,可以使用这项技术来避免重复非常长的公式子句的情形。...也可以使用这项技术处理在公式中包含重复的单元格路径引用的情形。

    5.9K20

    在Bash中如何从字符串中删除固定的前缀后缀

    更多好文请关注↑ 问: 我想从字符串中删除前缀/后缀。例如,给定: string="hello-world" prefix="hell" suffix="ld" 如何获得以下结果?...如果模式与 parameter 扩展后的值的开始部分匹配,则扩展的结果是从 parameter 扩展后的值中删除最短匹配模式(一个 # 的情况)或最长匹配模式(## 的情况)的值 ${parameter...如果模式与 parameter 扩展后的值的末尾部分匹配,则扩展的结果是从 parameter 扩展后的值中删除最短匹配模式(一个 % 的情况)或最长匹配模式(%% 的情况)的值。...e "s/$suffix$//" o-wor 在sed命令中,^ 字符匹配以 prefix 开头的文本,而结尾的 匹配以 参考文档: stackoverflow question 16623835...在Bash中如何将字符串转换为小写 在shell编程中$(cmd) 和 `cmd` 之间有什么区别 如何从Bash变量中删除空白字符 更多好文请关注↓

    53410

    函数表达式在JavaScript中是如何工作的?

    在JavaScript中,函数表达式是一种将函数赋值给变量的方法。函数表达式可以出现在代码的任何位置,而不仅仅是函数声明可以出现的位置。...函数表达式的语法如下: var myFunction = function() { // 函数体 }; 上述代码中,将一个匿名函数赋值给变量myFunction。...函数表达式的特点: 1:匿名函数:函数表达式可以是匿名函数,即没有函数名。在这种情况下,函数只能通过变量名来调用。...这样的函数在函数内部和外部都可以通过函数名来调用自身。...函数声明会被提升到作用域的顶部,而函数表达式不会被提升。因此,在使用函数表达式之前,需要确保该表达式已经被赋值。此外,函数表达式还可以根据需要在运行时动态创建函数,具有更大的灵活性。

    22050

    C语言在ARM中函数调用时,栈是如何变化的?

    今天和大家一起看下面对 crash 日志的时候,如何利用 stack 来分析其变化的来龙去脉。 Arm指令集介绍 崇尚简单粗暴的介绍方式,我们直接来看各个寄存器的大体用法,详细用法可百度,不,谷歌。...r0-r3 用作传入函数参数,传出函数返回值。在子程序调用之间,可以将 r0-r3 用于任何用途。被调用函数在返回之前不必恢复 r0-r3。...被调用函数在返回之前不必恢复 r12。 4. 寄存器 r13 是栈指针 sp。它不能用于任何其它用途。sp 中存放的值在退出被调用函数时必须与进入时的值相同。 5....如何能让读者接受吸收的更快,我一直觉得按照学习效率来讲的话顺序应该是视频,图文,文字。...fun代码 13.c入栈 14.可以看到函数fun的数据 形参a,b 在上一层函数的栈中.

    14.2K84

    如何使用FindFunc在IDA Pro中寻找包含指定代码模式的函数代码

    关于FindFunc  FindFunc是一款功能强大的IDA Pro插件,可以帮助广大研究人员轻松查找包含了特定程序集、代码字节模式、特定命名、字符串或符合其他各种约束条件的代码函数。...简而言之,FindFunc的主要目的就是在二进制文件中寻找已知函数。  使用规则过滤  FindFunc的主要功能是让用户指定IDA Pro中的代码函数必须满足的一组“规则”或约束。...FindFunc随后将查找并列出满足所有规则的所有函数。...格式将规则存储/加载到文件; 6、提供了用于实验的单独选项页; 7、通过剪贴板在选项页之间复制规则(格式与文件格式相同); 8、将整个会话(所有选项页)保存到文件; 9、指令字节的高级复制;  工具要求...文件拷贝到IDA Pro的插件目录中即可。

    4.2K30

    在 TypeScript 中,如何导入一个默认导出的变量、函数或类?

    在 TypeScript 中,如何导入一个默认导出的变量、函数或类?...在 TypeScript 中,如果要导入一个默认导出的变量、函数或类,可以使用 import 关键字结合 default 关键字来引用默认导出的成员。...在 TypeScript 中,如何在一个文件中同时导出多个变量或函数? 在 TypeScript 中,使用 export 关键字来同时导出多个变量或函数。有几种常见的方式可以实现这一点。...方式一:逐个导出 在一个文件中逐个使用 export 关键字导出每个变量或函数。.../file'; import 语句用于从 file.ts 文件中导入指定的变量、函数或类,或者使用 * as 语法将整个模块作为单个对象导入。

    1.1K30

    如何解决在DLL的入口函数中创建或结束线程时卡死

    先看一下使用Delphi开发DLL时如何使用MAIN函数, 通常情况下并不会使用到DLL的MAIN函数,因为delphi的框架已经把Main函数隐藏起来 而工程函数的 begin end 默认就是MAIN...以上都是题外话,本文主要说明在DLL入口函数里面创建和退出线程为什么卡死和如何解决的问题。...1)在 DLL_PROCESS_ATTACH 事件中 创建线程 出现卡死的问题 通常情况下在这事件中仅仅是创建并唤醒线程,是不会卡死的,但如果同时有等待线程正式执行的代码,则会卡死,因为在该事件中...LdrpLoaderLock是系统的PE Loader的一个重要锁,保证系统资源的安全,而DLL 入口函数是在PE Loader 结束前执行的,LdrInitializeThunk等函数处理PE 映像...解决办法同样是避免在 DLL_PROCESS_DETACH事件中结束线程,那么我们可以在该事件中,创建并唤醒另外一个线程,在该新的线程里,结束需要结束的线程,并在完成后结束自身即可。

    3.8K10

    前端ES6中rest剩余参数在函数内部如何使用以及遇到的问题?

    ES6 中引入了 rest 参数(...变量名),用于获取函数内不确定的多余参数,注意只能放在所有参数的最后一个: function restFunc(...args) { console.log(...在函数内部的怎么使用剩余参数 剩余参数我们大都用在一些公共的封装里面,经常配合闭包、call、apply、bind 这些一块使用,对于这几个的使用差异很容易把人绕晕。...(args[0]) } restFunc(2) // 2 2、在闭包函数中配合 call、bind 使用 这里在函数内部用 call、bind 去改变 this 指向 function callFunc...(func) { return function(...args) { func.call(this, ...args) } } 注意 call、bind 接收的参数也是我们正常看到的函数用逗号分隔开的一个一个的参数...3、在闭包函数中配合 apply 使用 示例和上面的 call、bind 类似,不过注意 apply 接收的参数本来就是一个数组或类数组,所以这里并不需要额外用展开运算符去展开剩余参数: function

    14930

    【DB笔试面试602】在Oracle中,如何从执行计划初步判断SQL的性能问题?

    ♣ 题目部分 在Oracle中,如何从执行计划初步判断SQL的性能问题?...♣ 答案部分 从以下几点去考虑: l 执行计划关注点 l 预估返回行数 l 真实返回行与逻辑读比率 l 预估行数和真实返回行数的差异 l Predicate Information部分是否有隐式类型转换...l 递归调用(recursive calls)值是否过大 l 表的访问次数是否过大 l 注意表真实访问行数 l 查看是否在磁盘排序 l 注意A-Time时间列 l 注意Pstart、Pstop、PARTITION...此外,还有一些其它需要注意的地方,例如COST花费特别大的步骤、全表扫描的步骤、FILTER的操作等等,都是需要特别关注的地方,这里就不详细列举了,总之,看执行计划和看AWR报告一样,需要具有一双敏锐的鹰眼...,最主要的是找出SQL的性能瓶颈。

    85920
    领券