前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Python笔记从html中提取字段

Python笔记从html中提取字段

作者头像
学到老
发布于 2018-03-16 08:44:57
发布于 2018-03-16 08:44:57
1.2K00
代码可运行
举报
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def fun():
    # url = 'http://quote.eastmoney.com/sh600010.html?from=BaiduAladdin'
    url_total = 'http://api.map.baidu.com/place/v2/search?q=景区&page_size=20&page_num=1&region=白山市&scope=2&output=json&ak=秘钥'
    response = requests.get(url_total)
    url_total_html = response.text
    # print(html)
    # print(type(html),type(response),html[10:15])
    # test1=html["total:[]"]
    # print(test1)
    # test2 ='total'
    # print(html.find(test2))
    total_0=r'[\d]+'   #提取所有数字,构成list
    result=re.compile(total_0)    #将正则表达式编译成对象 其等价于result=re.compile(r'[\d]+')
    total_1=re.findall(result,url_total_html)    # 匹配对象,其等价total_1=result.findall(url_total_html)
    # print('\n',total_0,type(total_0),len(total_0))
    # print(total_1[1],type(total_0[1]))
    # print(int(total_1[1]),type(int(total_1[1])))
    total_2=int(total_1[1])#提取后其为List,找到对应索引,将str转int
    print(total_2)
    #f = open('total—city', 'w')
    #f.writelines(total_2)
    #f.close()
if __name__=='__main__':
    fun()  
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python3 爬虫之爬取糗事百科
python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误
py3study
2020/01/03
5980
zabbix实现Python邮件报警
zabbix是个非常强大的监控工具,可以监控linux和windows的服务器数据,也可以通过自定义key来扩展默认的监控项,但是自带的邮件报警提供的信息却不太友善。本文想通过自定脚本的方式,实现在报警邮件的同时发送对应的图像和url连接。
py3study
2020/01/07
8240
Python爬虫(全)
里面的parse方法,这个方法有两个作用 1.负责解析start_url下载的Response 对象,根据item提取数据(解析item数据的前提是parse里全部requests请求都被加入了爬取队列) 2.如果有新的url则加入爬取队列,负责进一步处理,URL的Request 对象 这两点简单来说就是编写爬虫的主要部分
yuanshuai
2022/08/22
13.2K0
Python爬虫(全)
教你用Python爬虫股票评论,简单分析股民用户情绪
来源:大数据挖掘DT数据分析 本文长度为1500字,建议阅读7分钟 本文为你分享如何爬取分析股民评论数据,预测用户情绪走势。 一、背景 股民是网络用户的一大群体,他们的网络情绪在一定程度上反映了该股票的情况,也反映了股市市场的波动情况。作为一只时间充裕的研究僧,我课余时间准备写个小代码get一下股民的评论数据,分析用户情绪的走势。代码还会修改,因为结果不准确,哈哈! 二、数据来源 本次项目不用于商用,数据来源于东方财富网,由于物理条件,我只获取了一只股票的部分评论,没有爬取官方的帖子,都是获取的散户的评
数据派THU
2018/01/30
5.3K0
教你用Python爬虫股票评论,简单分析股民用户情绪
Python网络爬虫与信息提取
​ 需要注意的是,淘宝网站本身有反爬虫机制,所以在使用requests库的get()方法爬取网页信息时,需要加入本地的cookie信息,否则淘宝返回的是一个错误页面,无法获取数据。
py3study
2020/01/15
2.3K0
Python网络爬虫与信息提取
初学者的20个爬虫经典案例视频_李昌钰水门事件20集大经典案例
链接:aHR0cHM6Ly9iai5mYW5nLmxpYW5qaWEuY29tL2xvdXBhbi8=
全栈程序员站长
2022/11/07
1.2K0
初学者的20个爬虫经典案例视频_李昌钰水门事件20集大经典案例
Python基础学习笔记之(二)(华工大神)
         Python中每一个.py脚本定义一个模块,所以我们可以在一个.py脚本中定义一个实现某个功能的函数或者脚本,这样其他的.py脚本就可以调用这个模块了。调用的方式有三种,如下:
bear_fish
2018/09/20
4940
Python 正则表达式
简介 正则表达式(regular expression)是可以匹配文本片段的模式。最简单的正则表达式就是普通字符串,可以匹配其自身。比如,正则表达式 ‘hello’ 可以匹配字符串 ‘hello’。
小莹莹
2018/04/18
8390
Python 正则表达式
python正则表达式
本篇将介绍python正则表达式,更多内容请参考:【python正则表达式】 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一些过滤逻辑。 给定一个正则表达式和另一个字符串,我们可以达到如下的目的: 给定的字符串是否符合正则表达式的过滤逻辑(“匹配”) 通过正则表达式,从文本字符串中获取到我们
用户1174963
2018/01/17
1.1K0
python正则表达式
Python:正则表达式re模块
我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。
Lansonli
2021/10/09
4310
技术| Python的从零开始系列连载(三十一)
为了解答大家学习Python时遇到各种常见问题,小灯塔特地整理了一系列从零开始的入门到熟练的系列连载,每周五准时推出,欢迎大家学积极学习转载~
灯塔大数据
2018/12/21
8010
技术| Python的从零开始系列连载(三十一)
爬虫实战-豆瓣电影Top250
首先是对书上案例进行学习,了解如何定位网站中我们需要的信息,并使用re提供的正则表达式匹配我们的信息。然后为了加快爬虫速度,我们使用了多进程multiprocessing。最后进入实战,对真实的网站进行爬取。在实战中,我们遇到了一些新问题,需要处理网站的反爬虫机制。
一只大鸽子
2022/12/06
6340
爬虫实战-豆瓣电影Top250
python通用论坛正文提取\pytho
首先因为网站很多是动态的,直接用bs4是获取不到有些信息的,所以我们使用selenium和phantomjs将文件保存在本地,然后再处理。
py3study
2020/01/06
8060
Python爬虫-爬取彼岸图库图片案例
说明 不得使用本软件发布违反国家法律的非法广告信息,如色情,赌博等,其造成的一切后果与本作者无关 请自觉营造和谐良性的网络营销环境 违法行为一经发现 ,本作者有权终止服务并追究法律责任 本工具仅用于测试学习使用 本网站有部分内容来自互联网,如无意中侵犯了哪个媒体 、公司 、企业或个人等的知识产权,请来电或致函告之,本网站将在规定时间内给予删除等相关处理,若有涉及版权费等问题,请及时提供相关证明等材料并与我们联系,通过友好协商公平公正原则处理纠纷。 import re import reques
Reset
2022/12/27
5480
股票交易日定时爬取上交所/深交所所有股票行情数据存储到数据库
远程ssh配置,配置定时任务(tip:建议晚上进行采集(或闭市时间),因为交易时间,股票的数据在动态变化)
互联网金融打杂
2018/08/02
1.7K0
股票交易日定时爬取上交所/深交所所有股票行情数据存储到数据库
Python 爬虫 2 爬取多页网页
参考资料:极客学院: Python单线程爬虫 代码:2.Single-thread-crawler.ipynb 本文内容: Requests.get 爬取多个页码的网页 例:爬取极客学院课程列表 爬虫步骤 打开目标网页,先查看网页源代码 get网页源码 找到想要的内容,找到规律,用正则表达式匹配,存储结果 Requests 收录了 python 的第三方http库 完美地替代了 python 的 urllib2 模块 更多的自动化,更友好的用户体验,更完善的功能 1. Requests.get import
杨熹
2018/04/02
2.1K0
利用requests和正则表达式爬取虎扑
正则表达式 解释:符合某个模式(规则)的文本 在线测试工具:https://tool.oschina.net/regex 详细的正则表达式规则,可见:http://www.runoob.com/python3/python3-reg-expressions.html ---- re模块 概述:re为正则表达式提供了很多api,对正则表达式的使用提供了便利。 修饰符:  1、re.I:忽略大小写  2、re.M:多行匹配  3、re.S:是.匹配包括换行在内的所有字符 方法:match() 参数:正
py3study
2020/01/10
7630
Python网络——Urllib&Requests
Urllib 库,它是 Python 内置的 HTTP 请求库.不需要额外安装即可使用,在 Python中,有 Urllib 和 Urlib2 两个库可以用来实现Request的发送。而在 Python3 中,已经 没有Urllib2 ,统一为 Urllib
羊羽shine
2019/05/28
4280
Python:爬虫系列笔记(8) -- 爬去MM图片
转载于:静觅 » Python爬虫实战四之抓取淘宝MM照片 链接:http://cuiqingcai.com/1001.html 1.抓取淘宝MM的姓名,头像,年龄 2.抓取每一个MM的资料简介以及写
昱良
2018/04/04
8720
Python:爬虫系列笔记(8)  -- 爬去MM图片
Python爬虫基础知识:百度贴吧网络爬虫及源码分享
糖豆贴心提醒,本文阅读时间6分钟 百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。 项目内容: 用Python写的百度贴吧的网络爬虫。 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地。 原理解释: 首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了: http://tieba.baidu.com/p/22967124
小小科
2018/05/03
9780
Python爬虫基础知识:百度贴吧网络爬虫及源码分享
相关推荐
python3 爬虫之爬取糗事百科
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文