如何将html中的表格数据保存下来

有时候我们想爬的数据是表格样式,(网页好丑,大家将就一下)如下图。好消息是在页面html中能找到对应的数据

但坏消息是虽然数据存在于网页内部,没有可用来获取原始数据的API。 所以,现在你必须花费精力去解析网页。 这并不难,但是浪费时间,你可以用更加事半功倍的方式去解决。

pandas

世上都说Python大法好,pandas库提供了内置的方式可以读取html文件,并从中抽取出表数据。

pandas会在网页中寻找任何符合html表形式的数据,并将其转化WieDataFrame对象作为返回结果。

Code

pandas使用方法

实战代码开始

注意啊,这里得到的数据格式是list。

DataFrame对象df.to_json()

而只要知道数据存储在DataFrame中,一切都变的简单起来。 比如我很希望数据以json记形式输出,很简单!这只是一行代码的事情。

df.to_csv()

dataframe对象,还可以将数据输出保存为csv文件

这里输出的虽然是csv文件,但是没有达到预期,不晓得是怎么回事。建议大家对数据做一下处理再保存到csv中。

数据采集文本处理分析图片数据处理其他

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180106G0111F00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券