python url去重方法和字符串编码

url去重方法

1.将访问过的url保存到数据库中

应用简单,效率低

2.将访问过的url保存到set中,只需o(1)的代价就可以查询url

效率高,但是随着数据的增加,内存会出现占用过大。

100000000*2byte*50字符/1024/1024/1024=9G

3.url经过md5编码等方法哈希后保存到set中

固定编码,压缩url,节省了内存

4.用bitmap方法,将访问过的url通过hash函数映射到某一位

5.boomfilter方法对bitmap进行改进,多重hash函数降低冲突

字符串编码

1.计算机只能处理数字,文本转换为数字才能处理。计算机中8个bit作为一个字节,所以一个字节可以表示最大的数字就是255。

2.计算机是美国人发明的,所以一个字节可以表示所有的字符,所以ASCII(一个字节)编码就成为美国人的标准编码。

3.中国指定了GB2312编码,用两个字节表示一个汉字。GB2312还把ASCII包含进去了。多国标准语言混合显示必然会导致乱码的出现。

4.unicode的出现,将所有的语言统一到一套编码里。

5.ASCII和unicode编码的区别

ASCII和unicode编码的区别

字母A用ASCII编码十进制是65,二进制是0100 0001。汉字“中”超出了ASCII编码的范围,用unicode编码是20013,二进制是01001110 00101101,A用unicode编码只需要前面补0就可以了,二进制是0000 0000 0100 0001。

6.解决了乱码问题,但是内容全是英文,unicode编码比ASCII需要多一倍的存储空间,传输需要多一倍的传输。

7.出现了“UTF-8”把英文变长一个字节,汉字3个字节,特别生僻的变成4-8字节,如果传输大量英文,utf8作用就非常明显。

编码格式演示

UTF-8

python2

python3

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181130A1HC2O00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券