Python抓取网页数据的终极办法

文章来源：企鹅号 - Python开发

翻译丨sugarain

https://medium.com/@ageitgey/quick-tip-the-easiest-way-to-grab-data-out-of-a-web-page-in-python-7153cecfca58

假设你在网上搜索某个项目所需的原始数据，但坏消息是数据存在于网页中，并且没有可用于获取原始数据的API。

所以现在你必须浪费30分钟写脚本来获取数据（最后花费 2小时）。

这不难但是很浪费时间。

Pandas库有一种内置的方法，可以从名为read_html()的html页面中提取表格数据:

https://pandas.pydata.org/

就这么简单! Pandas可以在页面上找到所有重要的html表，并将它们作为一个新的DataFrame对象返回。

https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe

输入表格0行有列标题，并要求它将基于文本的日期转换为时间对象:

得到：

是一行代码，数据不能作为json记录可用。

运行下面的代码你将得到一个漂亮的json输出(即使有适当的ISO 8601日期格式):

你甚至可以将数据保存到CSV或XLS文件中:

运行并双击calls.csv在电子表格中打开:

当然，Pandas还可以更简单地对数据进行过滤，分类或处理：

推荐↓↓↓

万水千山总是情，点个 “好看” 行不行

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货