开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >Python笔记从html中提取字段

Python笔记从html中提取字段

学到老

发布于 2018-03-16 08:44:57

发布于 2018-03-16 08:44:57

1.2K00

代码可运行

举报

文章被收录于专栏：深度学习之tensorflow实战篇深度学习之tensorflow实战篇

运行总次数：0

代码可运行

def fun():
    # url = 'http://quote.eastmoney.com/sh600010.html?from=BaiduAladdin'
    url_total = 'http://api.map.baidu.com/place/v2/search?q=景区&page_size=20&page_num=1&region=白山市&scope=2&output=json&ak=秘钥'
    response = requests.get(url_total)
    url_total_html = response.text
    # print(html)
    # print(type(html),type(response),html[10:15])
    # test1=html["total:[]"]
    # print(test1)
    # test2 ='total'
    # print(html.find(test2))
    total_0=r'[\d]+'   #提取所有数字，构成list
    result=re.compile(total_0)    #将正则表达式编译成对象 其等价于result=re.compile(r'[\d]+')
    total_1=re.findall(result,url_total_html)    # 匹配对象，其等价total_1=result.findall(url_total_html)
    # print('\n',total_0,type(total_0),len(total_0))
    # print(total_1[1],type(total_0[1]))
    # print(int(total_1[1]),type(int(total_1[1])))
    total_2=int(total_1[1])#提取后其为List,找到对应索引，将str转int
    print(total_2)
    #f = open('total—city', 'w')
    #f.writelines(total_2)
    #f.close()
if __name__=='__main__':
    fun()

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

鹅厂写码13年，我总结的程序员高效阅读方法论

进程，线程，协程 - 你了解多少？

微服务与分布式系统设计看这篇就够了！

腾讯文档表格卡顿指标探索之路

从Hadoop1.0到Hadoop2.0架构的优化和发展探索详解

微服务架构：由浅入深带你了解底层注册中心

python3 爬虫之爬取糗事百科

http https python 网络安全

python3中用urllib.request.urlopen()打开糗事百科链接会提示以下错误

py3study

2020/01/03

5980

zabbix实现Python邮件报警

zabbix是个非常强大的监控工具，可以监控linux和windows的服务器数据，也可以通过自定义key来扩展默认的监控项，但是自带的邮件报警提供的信息却不太友善。本文想通过自定脚本的方式，实现在报警邮件的同时发送对应的图像和url连接。

py3study

2020/01/07

8240

Python爬虫（全）

爬虫 scrapy 容器 python 安全

里面的parse方法，这个方法有两个作用 1.负责解析start_url下载的Response 对象，根据item提取数据（解析item数据的前提是parse里全部requests请求都被加入了爬取队列） 2.如果有新的url则加入爬取队列，负责进一步处理，URL的Request 对象这两点简单来说就是编写爬虫的主要部分

yuanshuai

2022/08/22

13.2K0

教你用Python爬虫股票评论，简单分析股民用户情绪

来源：大数据挖掘DT数据分析本文长度为1500字，建议阅读7分钟本文为你分享如何爬取分析股民评论数据，预测用户情绪走势。一、背景股民是网络用户的一大群体，他们的网络情绪在一定程度上反映了该股票的情况，也反映了股市市场的波动情况。作为一只时间充裕的研究僧，我课余时间准备写个小代码get一下股民的评论数据，分析用户情绪的走势。代码还会修改，因为结果不准确，哈哈！二、数据来源本次项目不用于商用，数据来源于东方财富网，由于物理条件，我只获取了一只股票的部分评论，没有爬取官方的帖子，都是获取的散户的评

数据派THU

2018/01/30

5.3K0

教你用Python爬虫股票评论，简单分析股民用户情绪

Python网络爬虫与信息提取

需要注意的是，淘宝网站本身有反爬虫机制，所以在使用requests库的get()方法爬取网页信息时，需要加入本地的cookie信息，否则淘宝返回的是一个错误页面，无法获取数据。

py3study

2020/01/15

2.3K0

Python网络爬虫与信息提取

初学者的20个爬虫经典案例视频_李昌钰水门事件20集大经典案例

selenium https 网络安全编程算法

链接：aHR0cHM6Ly9iai5mYW5nLmxpYW5qaWEuY29tL2xvdXBhbi8=

全栈程序员站长

2022/11/07

1.2K0

初学者的20个爬虫经典案例视频_李昌钰水门事件20集大经典案例

Python基础学习笔记之（二）（华工大神）

Python中每一个.py脚本定义一个模块，所以我们可以在一个.py脚本中定义一个实现某个功能的函数或者脚本，这样其他的.py脚本就可以调用这个模块了。调用的方式有三种，如下：

bear_fish

2018/09/20

4940

Python 正则表达式

简介正则表达式（regular expression）是可以匹配文本片段的模式。最简单的正则表达式就是普通字符串，可以匹配其自身。比如，正则表达式 ‘hello’ 可以匹配字符串 ‘hello’。

小莹莹

2018/04/18

8390

python正则表达式

python 正则表达式

本篇将介绍python正则表达式，更多内容请参考：【python正则表达式】什么是正则表达式正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式（规则）的文本。正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一些过滤逻辑。给定一个正则表达式和另一个字符串，我们可以达到如下的目的：给定的字符串是否符合正则表达式的过滤逻辑(“匹配”) 通过正则表达式，从文本字符串中获取到我们

用户1174963

2018/01/17

1.1K0

Python：正则表达式re模块

正则表达式编程算法 javascript

我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来。

Lansonli

2021/10/09

4310

技术| Python的从零开始系列连载（三十一）

python http 爬虫 html 正则表达式

为了解答大家学习Python时遇到各种常见问题，小灯塔特地整理了一系列从零开始的入门到熟练的系列连载，每周五准时推出，欢迎大家学积极学习转载~

灯塔大数据

2018/12/21

8010

技术| Python的从零开始系列连载（三十一）

爬虫实战-豆瓣电影Top250

https 网络安全爬虫正则表达式网站

首先是对书上案例进行学习，了解如何定位网站中我们需要的信息，并使用re提供的正则表达式匹配我们的信息。然后为了加快爬虫速度，我们使用了多进程multiprocessing。最后进入实战，对真实的网站进行爬取。在实战中，我们遇到了一些新问题，需要处理网站的反爬虫机制。

一只大鸽子

2022/12/06

6340

爬虫实战-豆瓣电影Top250

python通用论坛正文提取\pytho

python selenium beautifulsoup jieba phantomjs

首先因为网站很多是动态的，直接用bs4是获取不到有些信息的，所以我们使用selenium和phantomjs将文件保存在本地，然后再处理。

py3study

2020/01/06

8060

Python爬虫-爬取彼岸图库图片案例

说明不得使用本软件发布违反国家法律的非法广告信息,如色情，赌博等，其造成的一切后果与本作者无关请自觉营造和谐良性的网络营销环境违法行为一经发现 ,本作者有权终止服务并追究法律责任本工具仅用于测试学习使用本网站有部分内容来自互联网，如无意中侵犯了哪个媒体、公司、企业或个人等的知识产权，请来电或致函告之，本网站将在规定时间内给予删除等相关处理，若有涉及版权费等问题，请及时提供相关证明等材料并与我们联系，通过友好协商公平公正原则处理纠纷。 import re import reques

Reset

2022/12/27

5480

股票交易日定时爬取上交所/深交所所有股票行情数据存储到数据库

远程ssh配置，配置定时任务（tip：建议晚上进行采集（或闭市时间），因为交易时间，股票的数据在动态变化）

互联网金融打杂

2018/08/02

1.7K0

股票交易日定时爬取上交所/深交所所有股票行情数据存储到数据库

Python 爬虫 2 爬取多页网页

python 爬虫正则表达式存储

参考资料：极客学院: Python单线程爬虫代码：2.Single-thread-crawler.ipynb 本文内容： Requests.get 爬取多个页码的网页例：爬取极客学院课程列表爬虫步骤打开目标网页，先查看网页源代码 get网页源码找到想要的内容，找到规律，用正则表达式匹配，存储结果 Requests 收录了 python 的第三方http库完美地替代了 python 的 urllib2 模块更多的自动化，更友好的用户体验，更完善的功能 1. Requests.get import

杨熹

2018/04/02

2.1K0

利用requests和正则表达式爬取虎扑

正则表达式 https 网络安全 html http

正则表达式解释：符合某个模式(规则)的文本在线测试工具：https://tool.oschina.net/regex 详细的正则表达式规则，可见：http://www.runoob.com/python3/python3-reg-expressions.html ---- re模块概述：re为正则表达式提供了很多api，对正则表达式的使用提供了便利。修饰符： 1、re.I：忽略大小写 2、re.M：多行匹配 3、re.S：是.匹配包括换行在内的所有字符方法：match() 参数：正

py3study

2020/01/10

7630

Python网络——Urllib&Requests

python http 网站网络安全

Urllib 库，它是 Python 内置的 HTTP 请求库.不需要额外安装即可使用,在 Python中，有 Urllib 和 Urlib2 两个库可以用来实现Request的发送。而在 Python3 中，已经没有Urllib2 ，统一为 Urllib

羊羽shine

2019/05/28

4280

Python：爬虫系列笔记(8) -- 爬去MM图片

转载于：静觅 » Python爬虫实战四之抓取淘宝MM照片链接：http://cuiqingcai.com/1001.html 1.抓取淘宝MM的姓名，头像，年龄 2.抓取每一个MM的资料简介以及写

昱良

2018/04/04

8720

Python：爬虫系列笔记(8) -- 爬去MM图片

Python爬虫基础知识：百度贴吧网络爬虫及源码分享

python 爬虫存储人工智能

糖豆贴心提醒，本文阅读时间6分钟百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同，都是通过查看源码扣出关键数据，然后将其存储到本地txt文件。项目内容：用Python写的百度贴吧的网络爬虫。使用方法：新建一个BugBaidu.py文件，然后将代码复制到里面后，双击运行。程序功能：将贴吧中楼主发布的内容打包txt存储到本地。原理解释：首先，先浏览一下某一条贴吧，点击只看楼主并点击第二页之后url发生了一点变化，变成了： http://tieba.baidu.com/p/22967124

小小科

2018/05/03

9780

Python爬虫基础知识：百度贴吧网络爬虫及源码分享

相关推荐

python3 爬虫之爬取糗事百科

更多 >

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验