首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

如何 100 亿 URL 中找出相同的 URL

来源 | https://doocs.github.io/advanced-java/ 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。...请找出 a、b 两个文件共同的 URL。 解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

2.8K30

面试:如何 100 亿 URL 中找出相同的 URL

---- 来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

4.4K10

如何亚马逊下载aws-SpaceNet卫星遥感图片数据集

本篇文章简单介绍该数据集的内容并说明如何awsCLi平台上下载这些数据集。 数据集介绍 总览 一共有5个地方的卫星数据,每个地点数据又分为训练集和测试集。...数据集下载 需要注意的是,亚马逊平台下载数据集需要使用命令行方式进行下载,并且你需要有一个亚马逊云平台账号和一个生成的拥有下载权限的密匙。...管理面板找到IAM这个栏目并点开。...添加到组里我们刚才创建的用户oldpan就有下载数据集的权利了。 通过命令行下载数据集 命令行不同平台的,这里介绍在linux下python3.6.1版本的下载方式。...,但是容易受到干扰造成time out从而导致下载失败,最好找个不错的网络环境进行下载

4.4K50

面试:如何 100 亿 URL 中找出相同的 URL

来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

2.3K20

Android通过URL文件下载及文件名提取

在写一个Android应用,需求也很简单就是通过接收JSON发送的数据进行解释获取URL的地址,然后根据这个地址把其文件下载。...一下开始想用okhttp通过GET来下载问题,但问题是okhttp考虑得比较多也很完善(断线续传等);但这些我没必要也不需要这么复杂啊,那好吧简单点。...就使用安卓自带的DownloadManager进行下载,不过用DownloadManager下载必须要满足API level 9以上,好在我的项目满足了,那就用呗,四行代码搞掂。...,但发现下载的文件名不是地址提供的文件名,好吧,最后用回地址给的文件名,这样方便管理和更新,于是又弄了一个提取文件名的函数。...public String GetFileName(String URL){ int start=URL.lastIndexOf("/"); int end=URL.lastIndexOf

3.9K70

如何使用Python批量下载图片

● 第三步:准备爬虫代理,用于提高爬虫采集效率,规避网站的IP限制 ● 第四步:定义一个下载图片的函数,传入图片URL和本地文件名作为参数,并使用相应的模块或库来发送HTTP请求和保存图片数据。...● 第五步:遍历URL列表,并调用下载图片的函数。如果需要提高下载速度和效率,可以考虑使用多线程或多进程来并发执行下载任务。 ● 第六步:检查下载结果,统计下载进度。...下面是代码示例: # 导入urllib.request和threading模块 import urllib.request import threading # 定义一个列表,存放要下载图片URL...URL和文件名进行下载 def download_image(index): # 根据索引获取对应的图片URL和文件名 image_url = image_urls[index]...Python批量下载图片

1.4K30

面试经历:如何 100 亿 URL 中找出相同的 URL

题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

1.9K00
领券