ok,昨天没写。
模块。python组织代码的基本方式。python的脚本都是以拓展名,py结尾,一个脚本可以独自运行,也可以导入另一个脚本中运行,当一个脚本被导入运行时,成为模块。
用import导入。
模块的查找顺序:首先在当前目录下查找,然后再lib下查找,然后再在site中查找。
包。python的模块可以按目录组织为包。包中必须包含__init__.py
文件。
同样,用import来导入包。
正则表达式。一种小型的,高度专业化的编程语言。内嵌在python中,通过模块实现。它可以为想要匹配的字符定义规则,对字符串处理,对数字处理,是做简单爬虫的重要实现方式,
元字符。
【】:制定一个字符集
^:匹配行首
$:匹配行尾
\:很多很多。。。
\d:十进制数字
\w:任何字母数字字符
\W:任何非字母数字字符
\s:空白字符
\S:非空白字符
*:指定一个字符重复一次或者更多次,至少一次。
{}:指定重复次数
+:至少匹配一次
?:匹配最少次数
编译标志:
re.S:使.匹配包括换行符在内的所有字符
re.I:使匹配对大小写不敏感
re.L:做本地化识别
re.M:多行识别
无视字符大小写可以用来破解验证码。
爬虫。。。