Python 第7 8天

ok,昨天没写。

模块。python组织代码的基本方式。python的脚本都是以拓展名,py结尾,一个脚本可以独自运行,也可以导入另一个脚本中运行,当一个脚本被导入运行时,成为模块。

用import导入。

模块的查找顺序:首先在当前目录下查找,然后再lib下查找,然后再在site中查找。

包。python的模块可以按目录组织为包。包中必须包含__init__.py

文件。

同样,用import来导入包。

正则表达式。一种小型的,高度专业化的编程语言。内嵌在python中,通过模块实现。它可以为想要匹配的字符定义规则,对字符串处理,对数字处理,是做简单爬虫的重要实现方式,

元字符。

【】:制定一个字符集

^:匹配行首

$:匹配行尾

\:很多很多。。。

\d:十进制数字

\w:任何字母数字字符

\W:任何非字母数字字符

\s:空白字符

\S:非空白字符

*:指定一个字符重复一次或者更多次,至少一次。

{}:指定重复次数

+:至少匹配一次

?:匹配最少次数

编译标志:

re.S:使.匹配包括换行符在内的所有字符

re.I:使匹配对大小写不敏感

re.L:做本地化识别

re.M:多行识别

无视字符大小写可以用来破解验证码。

爬虫。。。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180331G02P1J00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

同媒体快讯

扫码关注云+社区

领取腾讯云代金券