首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何 100 亿 URL 找出相同的 URL

思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同的 URL 都在对应的小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件

2.8K30
您找到你想要的搜索结果了吗?
是的
没有找到

面试:如何 100 亿 URL 找出相同的 URL

思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同的 URL 都在对应的小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件

4.4K10

面试:如何 100 亿 URL 找出相同的 URL

思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同的 URL 都在对应的小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件

2.3K20

面试经历:如何 100 亿 URL 找出相同的 URL

思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...使用同样的方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同的 URL 都在对应的小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...那么接下来,我们只需要求出这 1000 对小文件相同的 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件

1.9K00

实现PHPsession存储删除变量

而PHP session 变量就是用于存储有关用户会话的信息,或更改用户会话的设置。Session 变量保存的信息是单一用户的,并且可供应用程序的所有页面使用。...但是session会话信息是临时的,在用户离开网站后就会被删除。如果需要永久储存信息,就需要把数据存储在数据库。...那么下面我们就结合简单的代码示例,为大家介绍PHPsession的基础用法,存储变量以及删除变量。 一、session存储变量 当你需要将用户的信息存储到session时,必须先开启会话。...二、session删除变量 1、使用unset() <?...本篇文章就给关于PHPsession存储变量以及删除变量的方法介绍,也是非常简单的,希望对需要的朋友有所帮助!

2K20

如何删除Linux用户?

在本教程,我们将学习如何在Linux组删除用户。我们将使用两种方法,还将展示如何通过从“ / etc / group”文件删除来手动删除用户。...使用usermod删除用户 我们可以使用usermod命令一次从一个或多个组删除一个用户。使用usermod时,您必须指定将用户保留在哪些辅助组。让我用一个示例来解释一下。...与usermod不同,我们使用此命令指定的组删除用户。...(手动) 我们还可以通过手动编辑文件'/ etc / group'删除用户。...: $ groups testuser testuser : testuser root 结论 在本教程,我们学习了如何使用usermod、gpasswd以及“ / etc / group”文件手动删除用户来删除用户

18.9K20

Python - 字典列表删除字典

字典是python的一个非常常用的功能,用于根据用户需要在其中存储数据。另一个典型的过程涉及编辑或操作此数据。要成为一名高效且快速的程序员,您必须弄清楚如何字典列表删除字典。...有许多技术可以词典列表删除字典,本文将介绍这些技术。...字典列表删除字典的不同方法 循环方式 我们将指定要从字典列表删除的字典,然后我们将使用 if() 创建一个条件来提供一个参数以字典列表删除字典。...', 'location': 'Germany'}, {'City': 'New York', 'location': 'USA'}] 过滤功能 顾名思义,我们将简单地应用一个过滤器来指定要从字典列表删除的字典...本文详细介绍了数据源包含的词典列表删除词典的所有可能方法。使用此类方法时,您必须注意,因为可能会出现可能导致数据丢失的数据错误。因此,在对数据进行任何更改之前,必须备份数据。

14320

如何Ubuntu Linux删除Firefox Snap?

图片如果您想从Ubuntu Linux系统删除Firefox Snap,您可以按照以下步骤进行操作。步骤步骤1:打开终端在Ubuntu Linux系统,您可以使用终端来执行命令。...步骤4:检查Firefox Snap是否已删除要确认Firefox Snap是否已成功删除,请使用以下命令检查系统是否还有Firefox Snap的残留文件:snap list firefox如果没有任何输出结果...,则表示Firefox Snap已从系统完全删除。...您已成功Ubuntu Linux删除了Firefox Snap。现在您可以选择安装其他版本的Firefox浏览器,或者选择使用其他的网络浏览器。...结论通过按照上述步骤,您可以轻松地Ubuntu Linux系统删除Firefox Snap。这样可以帮助您管理您的系统并根据个人需求选择合适的浏览器。

4.6K00

使用 Python 字典键删除空格

在本文中,我们将了解字典功能以及如何使用 python 删除键之间的空格。此功能主要用于根据需要存储和检索数据,但有时字典的键值之间可能存在空格。...删除空间的不同方法 为了确保没有遇到此类问题并获得流畅的用户体验,我们可以删除字典中键之间的空格。因此,在本文中,我们将了解如何使用python字典键删除空格的不同方法?...建立新词典 删除空格的最简单方法之一是简单地创建一个全新的字典。相同的步骤是只需现有字典中选择每个值对,然后使用相同的值创建一个新字典,只需删除它们之间的空格即可。...编辑现有词典 在这种删除空格的方法下,我们不会像第一种方法那样在删除空格后创建任何新字典,而是现有字典删除键之间的空格。...在这种方法,我们字典理解创建一个新字典。键的值保持不变,但所做的唯一更改是在将数据字典理解传输到新字典时,rxemove中键之间的空格。

21840

删除或失效WordPress文章图像大小属性

媒体库插入的图像删除图像大小属性 删除图像大小属性可完全控制 CSS 属性,可将以下代码添加到主题 functions.php 文件: /*** 移除图片高度和宽度属性文章内容的图片上*/ function...salong_remove_image_size_attributes( $html ) { return preg_replace( '/(width|height)="\d*"/', '', $html ); }// 特色图像删除图片大小属性...add_filter( 'post_thumbnail_html', 'salong_remove_image_size_attributes' ); // 添加到WordPress文章的图像删除图像大小属性...,此代码将从图像中去除图像大小属性,再添加图像到文章。...通过 jQuery 删除width和height属性 对于已经添加到文章的图像,必须手动删除width和height属性,或者也可以使用一些jQuery代码来解决问题,以下代码添加到主题 js 文件

2.5K40
领券