首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何 100 亿 URL 中找出相同的 URL

来源 | https://doocs.github.io/advanced-java/ 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。...请找出 a、b 两个文件共同的 URL。 解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

2.8K30

tensorflow速成】Tensorflow图像分类模型自定义到测试

相比之下,TensorFlow 中的数据输入接口就要复杂很多,更新也非常快,我知乎有一篇文章,说过从《 Caffe 到 TensorFlow 1,IO 操作》,有兴趣的读者可以了解一下。...这里我们不再说 TensorFlow 中有多少种数据 IO 方法,先确定好我们的数据格式,那就是跟 Caffe一样,准备好一个list,它的格式一样是 image、labelid,然后再看如何将数据读入...到此,数据接口就定义完毕了,接下来在训练代码中看如何使用迭代器进行数据读取就可以了。 关于更多 TensorFlow 的数据读取方法,请移步知乎专栏和公众号。...然后,用 restore 函数 saver 中载入参数,读取图像并准备好网络的格式,sess.run 就可以得到最终的结果了。...我们自己准备了数据集,自己设计了网络并进行了结果可视化,学习了如何使用已经训练好的模型做预测。

65850
您找到你想要的搜索结果了吗?
是的
没有找到

面试:如何 100 亿 URL 中找出相同的 URL

---- 来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

4.4K10

面试:如何 100 亿 URL 中找出相同的 URL

来源:8rr.co/FR7V 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

2.3K20

教程 | 如何TensorFlow转入PyTorch

在本文中,我会简要解释 PyTorch 的核心概念,为你转入这个框架提供一些必要的动力。其中包含了一些基础概念,以及先进的功能如学习速率调整、自定义层等等。 ? PyTorch 的易用性如何?...将张量 NumPy 转换至 PyTorch 非常容易,反之亦然。...为了支持这个功能,PyTorch 提供了变量,它是张量之上的封装。如此,我们可以构建自己的计算图,并自动计算梯度。...但是你应该可以最后一段代码中看到重点:我们仍然需要在计算新梯度之前将它手动归零。这是 PyTorch 的核心理念之一。...静态图 vs 动态图 PyTorch 和 TensorFlow 的另一个主要区别在于其不同的计算图表现形式。TensorFlow 使用静态图,这意味着我们是先定义,然后不断使用它。

5.4K161

面试经历:如何 100 亿 URL 中找出相同的 URL

题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。请找出 a、b 两个文件共同的 URL。...解答思路 每个 URL 占 64B,那么 50 亿个 URL占用的空间大小约为 320GB。...思路如下 : 首先遍历文件 a,对遍历到的 URL 求 hash(URL) % 1000 ,根据计算结果把遍历到的 URL 存储到 a0, a1, a2, ..., a999,这样每个大小约为 300MB...这样处理过后,所有可能相同的 URL 都在对应的小文件中,即 a0 对应 b0, ..., a999 对应 b999,不对应的小文件不可能有相同的 URL。...然后遍历 bi 中每个 URL,看在 HashSet 集合中是否存在,若存在,说明这就是共同的 URL,可以把这个 URL 保存到一个单独的文件中。

1.9K00

Tensorflow入门教程(三十)——如何准备图像分割数据

前面分享的文章中大都是以深度分割模型为主,有很多朋友都在问我关于训练数据是如何准备,之前我都是直接把每个案例的训练数据分享给大家,今天我将分享一个在图像分割任务中如何准备训练数据的例子给大家,希望可以给大家带来一些启发...二、分析数据集 下载好的训练数据一共有130例,首先对这些数据进行大小分析,所有数据都是张数不定的512x512大小的图像。...数据图像中有一些区域不是肝区域,这些区域不是我们感兴趣的,通过分析Mask图像来确定有肝区域的n,确定其开始值和最后值,然后再n的开始值和最后值上分别向上和向下扩充32个像素。...n0到64和nn-64到n。...,seg_liverimage是原始分割图像,i是第几个case,shape是要裁切的图像大小,numberxy是在x和y方向上裁切的次数,numberz是在z方向上裁切的次数。

86620

教程 | 如何Tensorflow.js中处理MNIST图像数据

选自freeCodeCamp 作者:Kevin Scott 机器之心编译 参与:李诗萌、路 数据清理是数据科学和机器学习中的重要组成部分,本文介绍了如何Tensorflow.js(0.11.1)中处理...MNISTData 接下来,第 38 行开始是 MnistData,该类别使用以下函数: load:负责异步加载图像和标注数据; nextTrainBatch:加载下一个训练批; nextTestBatch...Image 对象是表示内存中图像的本地 DOM 函数,在图像加载时提供可访问图像属性的回调。...canvas 是 DOM 的另一个元素,该元素可以提供访问像素数组的简单方式,还可以通过上下文对其进行处理。...TensorFlow.js 团队一直在改进 TensorFlow.js 的底层数据 API,这有助于更多地满足需求。

2.4K30

原理到代码:大牛教你如何TensorFlow 亲手搭建一套图像识别模块 | AI 研习社

比如数字识别问题,如图所示的数字图像在计算机里就是一个像素矩阵,然后每个矩阵元素里面都是各种各样的一个数字,我们把这些数字作为这个神经网络的输入层提供进来,然后通过不同结构的神经网络处理,输入层到隐藏层再到输出层...这里只是简单介绍了一个 TensorFlow 的简单用法,由于时间有限,也无法深入地去详细介绍。我们关注的是如何TensorFlow 实现一个神经网络的全连接,也就是加权和,加上激活函数的模型。...下面我们来看一下如何TensorFlow 实现一个具体的图像识别模块,即从 MNIST 数据集中识别手写数字。(完整代码见下文链接) ?...这里我认为,对于那些不搞学术研究的同学,其实没有必要去数学的角度推导每一个优化函数具体是怎么优化的,应用层的角度来看,大部分用户只需要提供学习率和目标函数,并且了解这些优化函数的优劣就可以了,这个相对来说还是比较方便...问题4:TensorFlow 在推荐系统上的运用如何? 答:TensorFlow 官方有一个 Wide & Deep 的教程,是关于谷歌 App 推荐的一些内容,可以关注一下。

1.6K80

如何失焦的图像中恢复景深并将图像变清晰?

是的,我们今天就来看看另外一种图像模糊——即失焦导致的图像模糊——应该怎么样处理。 我今天将要介绍的技术,不仅能够单张图像中同时获取到全焦图像(全焦图像的定义请参考33....此时,聪明的你一定想到如何获取全焦图像了,我猜你是这样想的: 先提前标定好各个失焦距离的PSF 对输入的模糊图像每一个点,用这些不同的PSF分别做去卷积操作,根据输出的图像的清晰程度,判断哪个是这个点对应的正确尺寸的...那么,如何解决上面这两个问题呢?我们现在才进入今天文章的核心?...2.3 完整的过程 有了前面所讲的两点作为基础,作者就进一步解释了如何来获取全焦图像。 提前标定好不同尺度的编码光圈卷积核 ? 对每个像素i,选择一个局部窗口 ? ,对应的图像为 ?...因此,不管是肉眼上观察,还是通过振铃效应导致的过大的卷积误差,我们都很容易判断哪个是正确尺度的卷积核。

3.2K30

深度 | 谷歌IO走进TensorFlow开源模型世界:图像识别到语义理解

机器之心在本文中对这一 Session 进行了整理介绍,其中部分内容也提供了机器之心文章的参考链接,希望能为你的扩展阅读提供帮助。 ?...他说过去 8 个月有三种新的医学图像应用都依赖于一种被称为 Inception 的深度学习神经网络模型,这些应用都实现了非常卓越的表现,有望在人类的生命健康方面提供方便实用的帮助。...上开源图像描述系统 业界 | 谷歌开源新的 TensorFlow 代码,如何进行文本自动摘要 谷歌的这些研究中有一些仍然是当前最佳的,但他们仍然开源了相关的代码,任何人都可以免费尝试复现这些结果。...TensorFlow for Poets 展示这样实现图像模型的方式。希望在更多领域看到这样的例子。...对此 Gordon 并未做太多介绍,感兴趣的读者可参阅《神经风格迁移研究概述:当前研究到未来方向(附论文和代码)》。

1.6K60

业界 | 谷歌正与五角大楼合作,为军用无人机图像识别提供TensorFlow API

大数据文摘作品 编译:蒋宝尚、龙牧雪 谷歌内部邮件暴露,其正在为美国国防部AI项目“Maven”提供TensorFlow API,用于分析无人机拍摄的画面。...该合作计划公布后在谷歌内部引起了广泛的讨论,有不少人表达了对TensorFlow用于军事的担忧和不赞成。...“在Maven项目之前,国防部门尚未有人知道如何恰当地购买、使用人工智能服务。”Allen表示。 Maven的任务是使用机器学习来识别无人机镜头中的车辆和其他物体,从而减轻分析人员的负担。...一名谷歌发言人声明说,谷歌向国防部提供了其用于机器学习应用的工具TensorFlow APIs,这能帮助军方分析人员识别图像中的物体。...这个提供开源TensorFlow API的项目是国防部的试点项目,可以帮助识别未分类数据上的对象,”谷歌发言人说,“用该技术标记的图像有人类审查,并且仅用于非冒犯性用途。

72420

如何TensorFlow实现基于深度学习的图像补全?看完这篇就明白了

图像补全分为三个步骤。 首先我们将图像理解为一个概率分布的样本。 基于这种理解,学习如何生成伪图片。 然后我们找到最适合填充回去的伪图片。...如果你感兴趣,绘制这幅图的代码可以 bamos/dcgan-completion.tensorflow:simple-distributions.py 下载。 从这个分布中采样,就可以得到一些数据。...理论上,当输入图像pdata中采样得到时,判别器输出一个接近1的值,当输入图像是伪图像,比如pg采样得到的图像时,判别器输出一个接近0的值。在DCGANs中,D(x)是一个传统的卷积神经网络。...然后像之前 dcgan-completion.tensorflow/your-test-data/aligned 那样排列整齐。 这里我LFW中随机抽出一些图像。...找到用于补全最好的伪图像。 我的例子是人脸,但是DCGANs也可以在其他类型的图像上使用。总体而言,GANs 训练比较困难,我们尚不清楚如何在一个特定种类的物体上进行训练,也不清楚如何在大图像上训练。

3.7K100
领券