smy-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

smy

专栏成员

109

文章

344059

阅读量

41

订阅数

linux下.bashrc文件修改和生效

编程算法 shell

在linux系统普通用户目录（cd /home/xxx）或root用户目录（cd /root）下，用指令ls -al可以看到4个隐藏文件，

2019-08-12

12.3K0

Base64编码原理分析

Base64是网络上最常见的用于传输8Bit字节代码的编码方式之一，在了解Base64编码之前，先了解几个基本概念：位、字节。

2019-02-28

2.1K0

海量数据相似度计算之simhash和海明距离

hashmap 编程算法

通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用，如果我们的爬虫每天采集的数据以千万计算，我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本和数据库中所有的文本比较一遍如果是重复的数据就标示为重复。看起来很简单，我们来做个测试，就拿最简单的两个数据使用Apache提供的 Levenshtein for 循环100w次计算这两个数据的相似度。代码结果如下：

2019-02-13

2.7K0

webpack打包速度和性能再次优化

webpack html javascript 编程算法打包

一. 改单dll为双dll 因为上图原因，使用CommonsChunkPlugin时，导致其打包出来的vendors.js内的模块ID会因为其他文件引用模块数量的变化而变化。所以现利用DllPlug

2018-04-03

2.1K0

插入排序算法

插入排序算法演示：对数列9、1、5、3、8按从小到大排序：对第2个数排序 9 1 5 3 8 9 5 3 8 9 5 3 8 1 9 5 3 8 对第3个数排序 1 9 3 8 1 9 3 8 1 5 9 3

2018-04-03

6790

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态