Python Web Scraper / Crawler - HTML表到Excel电子表格

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (18)

我正在尝试制作一个网络抓取器,它将从网站中提取表格,然后将它们粘贴到Excel电子表格中。我是Python的极端初学者(一般编码) - 几天前开始学习。

那么,我该如何制作这个网络刮刀/抓取工具呢?这是我的代码:

import csv
import requests
from BeautifulSoup import BeautifulSoup

url = 'https://www.techpowerup.com/gpudb/?mobile=0&released%5B%5D=y14_c&released%5B%5D=y11_14&generation=&chipname=&interface=&ushaders=&tmus=&rops=&memsize=&memtype=&buswidth=&slots=&powerplugs=&sort=released&q='
response = requests.get(url)
html = response.content

soup = BeautifulSoup(html)
table = soup.find('table', attrs={'class': 'processors'})

list_of_rows = []
for row in table.findAll('tr')[1:]:
list_of_cells = []
for cell in row.findAll('td'):
    text = cell.text.replace(' ', '')
    list_of_cells.append(text)
list_of_rows.append(list_of_cells)

outfile = open("./GPU.csv", "wb")
writer = csv.writer(outfile)
writer.writerow(["Product Name", "GPU Chip", "Released", "Bus", "Memory", "GPU clock", "Memory clock", "Shaders/TMUs/ROPs"])
writer.writerows(list_of_rows)

现在上面代码中的网站程序WORKS。

现在,我想从以下网站上删除表格:https//www.techpowerup.com/gpudb/2990/radeon-rx-560d

请注意,此页面上有几个表。我应该添加/更改什么才能让程序在此页面上运行?我正试图获得所有的表,但如果有人能帮助我甚至得到其中一个,我会非常感激!

提问于
用户回答回答于

热门问答

服务器操作台不是Windows咋换?

蒋小爱

腾讯云 · 技术支持 (已认证)

推荐
您好,您参考重装Windows系统;仅支持中国大陆地域(不含香港)。例如,Linux 重装为 Windows,Windows 重装为 Linux 。 登陆控制台 图片.png 选择【公共镜像】中Windows ,配置Windows密码,点击【开始重装】即可更换Windows 图片...... 展开详请

Golang云函数怎么做CORS?

Alfred

腾讯云 · 高级产品经理 (已认证)

推荐
设置响应 header 主要也就是相应数据结构, https://github.com/tencentyun/scf-go-lib/blob/master/cloudevents/scf/apigw.go APIGatewayProxyResponse 结构中的 header 字...... 展开详请

IM如何在离线登录后获取到多个会话的未读消息数量?

风子猪未来的前端开发工程师!成长的路上加油!勿忘初心方得始终
推荐
您好,建议按照以下步骤操作: 1. 离线上线后调用 webim.syncMsgs(updateUnreadCount); // 同步未读消息。 2. 在updateUnreadCount 回调函数中调用 webim.MsgStore.sessMap();获取会话列表,返回值是...... 展开详请

腾讯云短信服务有没有提供接口?

滑稽园扛把子

Swoole Inc · PHP工程师 (已认证)

As a PHP Developer
推荐
有接口的,个人认证用户不支持使用 API 申请短信模板,企业用户可以。详情文档:https://cloud.tencent.com/document/product/382/5817 URL 示例 POST https://yun.tim.qq.com/v5/tlssmssvr...... 展开详请

为什么无服务没有cpu资源?

Tina

腾讯云 · 产品经理 (已认证)

Go Serverless!
推荐
您好 函数实例可以使用的 CPU 资源与配置内存对应,例如 1024 MB 内存配置的函数,获得的 CPU 将是分配 512 MB 内存时的两倍。您可以通过提高配置内存,获得更多的 CPU。 相关文档:https://cloud.tencent.com/document/pr...... 展开详请

云函数怎么区分是公众号或小程序?

您好,是希望区分从微信公众号或者是小程序过来的请求吗?可以在请求里加字段标识一下做区分

扫码关注云+社区

领取腾讯云代金券