首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

海量数据相似度计算之simhash和海明距离

通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单,我们来做个测试,就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代码结果如下:

02

EKT多链技术谈 | 起源——区块链中的密码学

前言:谈区块链离不开密码学。通常来讲,区块链技术是利用块链式数据结构来验证与存储数据、利用分布式节点公式算法来生成和更新数据、利用密码学的方式保证数据传输和访问的安全、利用由自动化脚本代码组成的智能合约来编程和操作数据的一种全新的分布式基础架构与计算范式。区块链的核心是它按照时间顺序将数据区块以顺序相连的方式组合成的一种链式数据结构,并以密码学方式保证的不可篡改和不可伪造的分布式账本。我们对此做一个总结,可以发现区块链中有四项不可缺的核心技术,分别是分布式存储、共识机制、密码学原理和智能合约。而今天我们将主要从密码学的角度聊一聊区块链的起源问题。

03

如何高效学习

我们国家从1977年的9月开始恢复高考,这也改变了几代人的命运,从1996年开始施行不包分配,1998年开始大规模施行到2000年全面停止了包分配制度,在同一时期1999年大学开始扩招,所以在我小时听到家人说最多的就是好好学习长大能考上大学才能有出息,1999年大学开始扩招80后是收益的一代,但带来另一个问题就是大学生太普遍,但大学中也有更好的学府如985/211,进入工作后特别是互联网公司身边基本都是大学毕业,甚至本科都是最低配置很多是研究生和博士,所以在工作中如何高效学习掌握技能满足当下的环境,在众多的优秀人中不被落后就成为一个问题,所以本文也主要介绍在职场工作中如何的高效学习。

03
领券