首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何 100 亿 URL 找出相同 URL

来源 | https://doocs.github.io/advanced-java/ 题目描述 给定 a、b 两个文件,各存放 50 亿个 URL,每个 URL 各占 64B,内存限制是 4G。...使用同样方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同 URL 都在对应小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应小文件不可能有相同 URL。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同 URL,可以把这个 URL 保存到一个单独文件。...我要回去写代码,这才是我所热爱! 用谷歌搜索技术问题一定比用百度好?也未必... 好多大咖曾看他书学习Java,如今这个男人新作来了! Lombok!代码简洁神器还是代码“亚健康”元凶?

2.8K30

面试:如何 100 亿 URL 找出相同 URL

对于这种类型题目,一般采用分治策略 ,即:把一个文件 URL 按照某个特征划分为多个小文件,使得每个小文件大小不超过 4G,这样就可以把这个小文件读到内存中进行处理了。...使用同样方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同 URL 都在对应小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应小文件不可能有相同 URL。...那么接下来,我们只需要求出这 1000 对小文件相同 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同 URL,可以把这个 URL 保存到一个单独文件

4.4K10
您找到你想要的搜索结果了吗?
是的
没有找到

面试:如何 100 亿 URL 找出相同 URL

对于这种类型题目,一般采用分治策略 ,即:把一个文件 URL 按照某个特征划分为多个小文件,使得每个小文件大小不超过 4G,这样就可以把这个小文件读到内存中进行处理了。...使用同样方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同 URL 都在对应小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应小文件不可能有相同 URL。...那么接下来,我们只需要求出这 1000 对小文件相同 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同 URL,可以把这个 URL 保存到一个单独文件

2.2K20

面试经历:如何 100 亿 URL 找出相同 URL

对于这种类型题目,一般采用分治策略 ,即:把一个文件 URL 按照某个特征划分为多个小文件,使得每个小文件大小不超过 4G,这样就可以把这个小文件读到内存中进行处理了。...使用同样方法遍历文件 b,把文件 b URL 分别存储到文件 b0, b1, b2, ..., b999 。...这样处理过后,所有可能相同 URL 都在对应小文件,即 a0 对应 b0, ..., a999 对应 b999,不对应小文件不可能有相同 URL。...那么接下来,我们只需要求出这 1000 对小文件相同 URL 就好了。 接着遍历 ai( i∈[0,999] ),把 URL 存储到一个 HashSet 集合。...然后遍历 bi 每个 URL,看在 HashSet 集合是否存在,若存在,说明这就是共同 URL,可以把这个 URL 保存到一个单独文件

1.9K00

Java 类和对象如何定义Java类,如何使用Java对象,变量

参考链接: Java对象和类 1.对象概念 :万物皆对象,客观存在事物皆为对象  2.什么是面向对象:人关注一个对象,实际上是关注该对象事务信息   3.类:类是模子,确定对象将会拥有的特征(...对象是一个你能够看得到,摸得着具体实体    如何定义Java类:  1.类重要性:所有Java程序都以类class为组织单元  2.什么是类:类是模子,确定对象将会拥有的特征(属性)和行为(方法...方法n;                                           }   Java对象  使用对象步骤:  1.创建对象:      类名 对象名 = new 类名(); ...  2.局部变量      在类方法定义,在方法临时保存数据  成员变量和局部变量区别  1.作用域不同:        局部变量作用域仅限于定义他方法        成员变量作用域在整个类内部都是可见...  2.初始值不相同:          Java会给成员变量一个初始值          Java不会给局部变量赋予初始值,必要初始化  3.在同一个方法,不允许有同名局部变量;  在不同方法

6.8K00

css-in-js 探讨

Cloudinary演示云名称,以及根据指定选项为图像publicId生成URLurl方法。...这意味着我们可以更轻松地迁移CSS代码,并且我们可以使用现有的css知识,而不必熟悉在对象语法编写CSS。 请注意,我们可以在我们样式插入几乎任何东西。...此特定示例演示了如何将媒体查询保存在变量并在多个位置重用它。响应式图像是一个很好用例,因为sizes属性基本上包含CSS,所以我们可以使用JavaScript来使代码更简洁。...未来 有两个新CSS-in-JS库,Linaria和astroturf,它们通过将CSS提取到文件来管理零运行时。 它们API类似于样式组件,但它们功能和目标各不相同。...最值得注意是,通过使用CSS-in-JS,我们基本上CSS生态系统退出并使用JavaScript来解决我们问题。

5.4K20

如何Java判断对象真正“死亡”

如何Java判断对象真正“死亡”引言在Java编程对象生命周期管理是一项重要任务。当对象不再被使用时,及时释放其占用内存资源是一个有效优化手段。...而为了准确地判断对象是否真正“死亡”,我们需要理解Java垃圾回收机制以及对象引用关系。本文将详细介绍在Java如何判断对象真正“死亡”,并提供一些实例来帮助读者更好地理解。1....这种机制减轻了程序员负担,但也增加了一些判断对象“死亡”复杂性。2. 引用类型在Java对象之间关系可以通过引用来建立。...当一个对象只被虚引用指向时,对该对象引用并不能阻止其被垃圾回收器回收,也无法通过虚引用获取对该对象实际访问。判断虚引用对象是否“死亡”方法是通过判断是否虚引用队列获取到该引用。...注意不要滥用强引用,过多强引用会导致内存资源浪费和垃圾回收效率低下。结论本文介绍了在Java编程如何判断对象真正“死亡”。

12210

【学习图片】15.图像内容分发网络

了解图像内容交付网络如何具有转换和优化图像内容能力。 你可能已经熟悉内图像内容分发网络(CDN)核心概念:一个分布但相互连接服务器网络,可以快速高效地向用户提供资源。...例如,Cloudinary通过以下语法对上传图像进行动态调整大小:h_后跟数字高度(以像素为单位),w_后跟宽度,以及一个c_值,允许你指定有关如何缩放或裁剪图像详细信息。...尽管这个过程听起来很复杂,但它实现却非常简单:对于Cloudinary来说,将“q_auto”添加到图像URL即可启用此功能: <img src="https://res.<em>cloudinary</em>.com...例如,在资产<em>URL</em><em>的</em>图像转换列表<em>中</em>添加“f_auto”参数,明确告诉<em>Cloudinary</em>要提供浏览器能够理解<em>的</em>最有效<em>的</em>编码方式: <img src="https://res.cloudinary.com...该响应包括一个Content-Type头,明确告知浏览器该文件编码,而不考虑文件扩展名。

2.2K50

Java如何遍历Map对象4种方法

Java如何遍历Map对象 How to Iterate Over a Map in Javajava遍历Map有不少方法。我们看一下最常用方法及其优缺点。...5被引入所以该方法只能应用于java 5或更高版本。...如果你遍历是一个空map对象,for-each循环将抛出NullPointerException,因此在遍历前你总是应该检查空引用。...根据javadoc说明,如果在for-each遍历尝试使用此方法,结果是不可预测性能方面看,该方法类同于for-each遍历(即方法二)性能。...因为键取值是耗时操作(与方法一相比,在不同Map实现该方法慢了20%~200%)。如果你安装了FindBugs,它会做出检查并警告你关于哪些是低效率遍历。所以尽量避免使用。

1.9K10

Java如何遍历Map对象4种方法

大家好,又见面了,我是你们朋友全栈君。 在Java如何遍历Map对象 How to Iterate Over a Map in Javajava遍历Map有不少方法。...5被引入所以该方法只能应用于java 5或更高版本。...首先,在老版本java这是惟一遍历map方式。另一个好处是,你可以在遍历时调用iterator.remove()来删除entries,另两个方法则不能。...根据javadoc说明,如果在for-each遍历尝试使用此方法,结果是不可预测性能方面看,该方法类同于for-each遍历(即方法二)性能。...因为键取值是耗时操作(与方法一相比,在不同Map实现该方法慢了20%~200%)。如果你安装了FindBugs,它会做出检查并警告你关于哪些是低效率遍历。所以尽量避免使用。

1.3K20

博客图床迁移记

还好图片链接是可以访问,这就意味着图片还在,还来得及做迁移和备份。 回顾之前用了好多免(hao)费(yang)图(mao)床,最早 七牛,到 Cloudinary,再到 微博图床。...Chevernote 有个 API 接口,正好可以通过图片链接,将图片上传到图床上,通过这个接口就能搞定迁移了,前提要拿到自己 api key 。...逐行读取文件内容,然后利用正则表达式匹配 Cloudinary 和微博图床图片链接,找到该行符合条件链接。...将该行匹配图片链接替换成上传图床后得到链接,并写入文件。 读取完当前文件后,重复步骤二,继续读取文件,直到读取结束。...执行上述代码,输入正确文件地址和 api key,然后等待一段时间,就完成了上传到图床并自动转换功能。

1.2K30

Java,一个对象如何被创建?又是如何被销毁

Java,一个对象创建涉及以下步骤:内存分配:当使用关键字new调用一个类构造方法时,Java虚拟机会在堆中分配一块新内存空间来存储该对象。...Java 对象销毁在Java对象销毁是通过垃圾回收机制进行。垃圾回收器会定期检查并清理不再被引用对象,并回收它们所占用内存。...对象生命周期一般包括以下几个阶段:创建阶段:在Java,通过使用关键字new来创建一个对象。在这个阶段,对象会被分配在堆上,并初始化为默认值。...终结阶段:在Java,提供了一个finalize()方法,这个方法在对象即将被垃圾回收时被调用。开发者可以重写这个方法,定义对象在被销毁之前需要执行清理操作。...总结:对象Java通过垃圾回收机制进行销毁,对象生命周期包括创建、使用、不可达、终结和垃圾回收阶段。可以通过重写finalize()方法来定义对象在销毁之前需要执行清理操作。

35151

Java 代码如何运行聊到 JVM 和对象创建-分配-定位-布局-垃圾回收

Java 代码到底是如何运行呢?...看下图理解 Java 代码如何运行: 概括一下:程序员小张编写好 Java 源代码文件经过 Java 编译器编译成字节码文件后,通过类加载器加载到内存,才能被实例化,然后到 Java 虚拟机解释执行...JVM 虚拟机如何创建,在什么地方分配内存,又是如何分配对象如何定位,以及对象内存布局,最后又是如何回收。...1)对象创建 先在虚拟机栈创建栈帧,栈帧内创建对象引用,在方法区进行类加载,然后去 Java 堆区进行分配内存并内存初始化,再回到栈帧初始化对象数据,完成对象创建。...输出时间戳 -XX:+PrintGCDateStamps # GC日志输出指定文件 -Xloggc:/log/gc.log 小结 Java 代码如何运行,聊到 JVM 内存布局,虚拟机参数配置说明

2.8K20

Java类加载机制谈起:聊聊Java如何实现热部署(热加载)

Sun在Java 1.4JVM引入了一种新被称作HotSwap实验性技术,这一技术被合成到了Debugger API内部,其允许调试者使用同一个类标识来更新类字节码。...所有新式IDE(包括Eclipse、IDEA和NetBeans)都支持这一技术,Java 5开始,这一功能还通过Instrumentation API直接提供给Java应用使用。...这意味着JRuby对象与Map没有什么两样,有着方法名字到方法实现映射,以及域名到其值映射。这些方法实现被包含在匿名,在遇到方法时这些类就会被生成。...Java EE标准制定并未怎么关注开发周转期(Turnaround)(指的是对代码做修改到观察到改变在应用造成影响这一过程所花费时间)。...JRebel与应用服务器整合在一起,当某个类或是资源被更新时,其被工作区而不是归档文件读入。

2.9K20

Java如何保证一个类在内存对象唯一性

Java如何保证一个类在内存对象唯一性,讲解如下: /** * 设计模式:对问题行之有效解决方式。其实它是一种思想。 1,单例设计模式。...解决问题:就是可以保证一个类在内存对象唯一性。 对于多个程序使用同一个配置信息对象时,就需要保证该对象唯一性。 如何保证对象唯一性呢?...1,不允许其他程序用new创建该类对象。 2,在该类创建一个本类实例。 3,对外提供一个方法让其他程序可以获取该对象。 步骤: 1,私有化该类构造函数。...2,通过new在本类创建一个本类对象。 3,定义一个公有的方法,将创建对象返回。...*/ package classdemo; /** * @author lizhongfeng_李忠峰 * @fileinfo Test classdemo SingleDemo.java *

25610

Java如何保证一个类在内存对象唯一性

Java如何保证一个类在内存对象唯一性,讲解如下: /** * 设计模式:对问题行之有效解决方式。其实它是一种思想。 1,单例设计模式。...解决问题:就是可以保证一个类在内存对象唯一性。 对于多个程序使用同一个配置信息对象时,就需要保证该对象唯一性。 如何保证对象唯一性呢?...1,不允许其他程序用new创建该类对象。 2,在该类创建一个本类实例。 3,对外提供一个方法让其他程序可以获取该对象。 步骤: 1,私有化该类构造函数。...2,通过new在本类创建一个本类对象。 3,定义一个公有的方法,将创建对象返回。...*/ package classdemo; /** * @author lizhongfeng_李忠峰 * @fileinfo Test classdemo SingleDemo.java *

2.2K40
领券