首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

python,详说正则表达式(对常用的关键字符的讲解)

官方网址 模块re { re模块提供了一个正则表达式引擎的接口,可以让你将REstring编译在对象并用它们来进行匹配 } 疑问:字符串前r的作用,反斜杠就不会被任何特殊处理 { 编译标志...-反斜杠排布可以不同的字符以表示不同特殊意义 -也可以用于出污泥而不染所有的元字符:[或\ ⑴\d匹配任何十进制数,它相当于类[0-9] ⑵\D匹配任何非数字字符,它相当于类[^0-9] ⑶\...\w*.com' #两个.之间想匹配多个字母或数字 li=re.findall(r,s) for i in li: print i 9.+ 这和*的区别就是,这个最少一次也就是,匹配前面的字符...\w+.com' #两个.之间不会出现0次 li=re.findall(r,s) for i in li: print i 10.?...print re.findall(r,s) 还有一个作用: import re r=r'(?

38620

爬虫解析

' img_src_list = re.findall(ex, page_text, re.S) 这是一个正则表达式的一个解析式 中间的(.*?)就是用来匹配你所要的内容。...主要就是是用python所提供的re模块用于实现正则表达式的操作,在操作的时候可以使用re提供的方法(search(),match(),findall())进行字符串处理; 他们三个都有共同的参数 pattern...),'\n')#某种选择器(id,class,标签...选择器),返回的是一个列表 只要符合选择器的要求 #层级选择器 print(soup.select('.tang > ul > li...find_all是返回查找到的所有值以列表形式返回 select 某种选择器(id,class,标签…选择器),返回的是一个列表 只要符合选择器的要求 他在进行网页查找的时候要记得在他div的标签属性下....并且被解析的源码也加载到了该对象中 tree=etree.parse('text.html') #调用xpath r=tree.xpath('/html/body/div/text()')#在HTML前边一个

57130

python(三)

= s.split(',') # 把字符串按指定分隔符分割,变成列表 print(li) li = s.partition(',') # 将字符串按指定的分隔符分割成三部分,分隔符前的字符串...,分隔符,和分割符后的字符串,以元组形式 print(li) li = s.rpartition(',') print(li) # split()和rsplit()方法,如果不指定分隔符,则字符串中的任何空白符号...即分隔符会是所有的空白字符 **join()**:效率比直接使用’+’拼接高 # join()方法是将列表或其他可迭代对象中的字符串以指定的字符串连接, 如果当中含有非字符串的元素,则会抛出异常 li...(re.findall(r'^.+$', text, re.S)) # 单行模式,此时.可以匹配换行符,会把换行符变为\n print(re.findall(r'^.+$', text, re.M...)', 然后是粘贴工作–反斜线要粘贴的内容是第几个子模式, pattern = r'((.).\2)',这里是 2 的原因就是上面说的重点了,使用括号表示一个子模式,我们要把第二个括号里的东西复制粘贴

57820

python实现简单爬虫功能

图片链接就在li这个标签下地img标签里.现在我们需要做的就是尝试着把这种类型的li从所有html中分离出来.我们可以看到li这个标签有个属性叫做class,这个属性的值是class=”span3”,我们把这段话...://www.pcpop.com/doc/1/1279/1279531.shtml').read() 这句很简单,就是读取网页的html.然后把值赋给html这个变量.python里声明变量前面不用任何东西...,不用声明语句和变量类型,就连JavaScript声明变量还要加个var呢....我们获取了网页的html之后呢,声明了一个Beautifulsoup变量soup,用来准备解析html. liResult = soup.findAll('img',attrs={"width":"175...注意这个findAll函数,有点常识的话你应该清楚,凡是带all的函数基本上返回的都是一个数组,所以我们liResult这个变量实际上是一个数组. for image in liResult: 这句话基本和

87570
领券