首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python抓取网页数据的终极办法

翻译丨sugarain

https://medium.com/@ageitgey/quick-tip-the-easiest-way-to-grab-data-out-of-a-web-page-in-python-7153cecfca58

假设你在网上搜索某个项目所需的原始数据,但坏消息是数据存在于网页中,并且没有可用于获取原始数据的API。

所以现在你必须浪费30分钟写脚本来获取数据(最后花费 2小时)。

这不难但是很浪费时间。

Pandas库有一种内置的方法,可以从名为read_html()的html页面中提取表格数据:

https://pandas.pydata.org/

就这么简单! Pandas可以在页面上找到所有重要的html表,并将它们作为一个新的DataFrame对象返回。

https://pandas.pydata.org/pandas-docs/stable/dsintro.html#dataframe

输入表格0行有列标题,并要求它将基于文本的日期转换为时间对象:

得到:

是一行代码,数据不能作为json记录可用。

运行下面的代码你将得到一个漂亮的json输出(即使有适当的ISO 8601日期格式):

你甚至可以将数据保存到CSV或XLS文件中:

运行并双击calls.csv在电子表格中打开:

当然,Pandas还可以更简单地对数据进行过滤,分类或处理:

推荐↓↓↓

万水千山总是情,点个 “好看” 行不行

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190108B189FP00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券