使用Beautiful Soup和Python仅为包含特定单词的HTML表格提取和写入CSV文件

Beautiful Soup是一个用于解析HTML和XML文档的Python库。它提供了一种简单而灵活的方式来遍历、搜索和修改文档树。

在使用Beautiful Soup和Python提取和写入CSV文件时，可以按照以下步骤进行操作：

导入必要的库：

from bs4 import BeautifulSoup
import csv

读取HTML文件：

with open('input.html', 'r') as file:
    html = file.read()

创建Beautiful Soup对象：

soup = BeautifulSoup(html, 'html.parser')

定位包含特定单词的HTML表格：

table = soup.find('table')  # 假设表格在HTML中只有一个

提取表格中的数据并写入CSV文件：

with open('output.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    for row in table.find_all('tr'):
        data = [cell.get_text(strip=True) for cell in row.find_all('td')]
        writer.writerow(data)

在上述代码中，我们使用find方法来定位HTML中的表格，然后使用find_all方法遍历表格的每一行，并使用get_text方法提取每个单元格的文本内容。最后，将提取的数据写入CSV文件。

这是一个简单的示例，你可以根据实际情况进行修改和扩展。同时，腾讯云也提供了一些与云计算相关的产品，例如云服务器、云数据库、云存储等，你可以根据具体需求选择适合的产品。具体的产品介绍和链接地址可以参考腾讯云官方文档或官方网站。

Python漂亮的汤在表格上迭代

python、beautifulsoup

我正在尝试将表数据抓取到CSV文件中。不幸的是，我遇到了一个障碍，下面的代码只是在所有后续TR中重复第一个TR中的TD。 import urllib.request from bs4 import BeautifulSoup f = open('out.txt','w') url = "http://www.international.gc.ca/about-a_propos/atip-aiprp/reports-rapports/2012/02-atip_aiprp.aspx" page = urllib.request.urlopen(u

浏览 1提问于2012-04-25得票数 22

回答已采纳

1回答

从被刮掉的HTML数据中编写CSV

python、python-2.7、csv、beautifulsoup

我能够使用下面的代码从俄罗斯统计网站提取数据，并创建一个CSV文件。但是，我有两个问题，首先，我不知道为什么在两个非空白行之间总是有一个空白行。其次，我不知道如何编写一个很好的表，其中来自同一个月的数据分布在不同的列中。现在，一切都在一个牢房里。谢谢。 from bs4 import BeautifulSoup import lxml import urllib2 import csv f=csv.writer(open("Russia.csv","w")) mainurl='http://www.gks.ru/bgd/free/B00_25/IssW

浏览 1提问于2016-01-16得票数 1

回答已采纳

2回答

Python-发出写txt文件

python、python-3.x、python-requests、text-processing

我目前正在做一个代理刮板只是为了好玩，但是，我遇到了一个问题。我希望将文件的输出保存到一个格式的txt文件中 185.98.232.22:8080 144.217.161.149:8080 103.106.57.174:8080 49.156.47.61:8080 179.109.144.16:44222 目前，当我试图编写txt文件时，我只获取第一个代理和端口，而不是其余的代理，所以我得到了以下内容 185.98.232.22:8080 下面是我的代码 from bs4 import BeautifulSoup import requests proxyDomain = "htt

浏览 0提问于2019-03-13得票数 0

回答已采纳

2回答

美丽的汤:抓取表数据

python、python-3.x、web-scraping、beautifulsoup、python-requests

我希望从下面的url中提取表格数据。具体地说，我想提取第一列中的数据。当我运行下面的代码时，第一列中的数据重复多次。如何才能使这些值在表中只显示一次？ from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('http://www.pythonscraping.com/pages/page3.html').read() soup = BeautifulSoup(html, 'lxml') table = soup.find('table',{&

浏览 10提问于2018-09-01得票数 1

回答已采纳

1回答

如何在.csv上调整抓取的表格的外观？

python、csv、web-scraping、file-writing

我想要的只是“球员，年龄，市值，国籍，离开，加入，和费用，但当我把它变成一个.csv，它不会把它变成一个表。 import requests from bs4 import BeautifulSoup url = 'https://www.transfermarkt.com/transfers/transferrekorde/statistik?saison_id=&land_id=0&ausrichtung=&spielerposition_id=&altersklasse=&leihe=&w_s=&pl

浏览 2提问于2020-07-23得票数 0

1回答

如何使用Python提取BeautifulSoup标记？

python、web-scraping、beautifulsoup

我正在尝试放弃一个，从它中提取前缀和它们的名字。但是，对于某些标记，我无法提取它们，我的猜测是存在不可见的标记。下面是我的python代码： opener.addheaders = [('User-agent', 'Mozilla/5.0')] response = opener.open('http://bgp.he.net/AS23028#_prefixes') html = response.read() soup = BeautifulSoup(html) soup_1 = soup.find("table", id =

浏览 8提问于2014-12-12得票数 1

回答已采纳

1回答

Python -从HTML页面捕获所有表

python、html、email、beautifulsoup

我有带有嵌入HTML表格的电子邮件，还有使用BeautifulSoup提取表和表中数据的代码，我的问题是有时只有当有更多的表时，它才能成功捕获一个表。我通常在这些表上运行的代码是： with open(file_path) as in_f: msg = email.message_from_file(in_f) html_msg = msg.get_payload(1) body = html_msg.get_payload(decode=True) html = body.decode() table = bs4.BeautifulSoup(html).find(

浏览 3提问于2017-06-06得票数 0

回答已采纳

1回答

Python+BeautifulSoup:从网页中抓取特定的表

python、web-scraping、beautifulsoup

我正试着从：中抓取一个特定的表我想要的是股票信息。日期、公司名称、比率以及是否可以选择。到目前为止，我的情况如下： from bs4 import BeautifulSoup import urllib2 url = "http://biz.yahoo.com/c/s.html" page = urllib2.urlopen(url) soup = BeautifulSoup(page.read()) alltables = soup.find_all('table') 这段代码给出了页面上的所有表(不止一个)。 1)我不知道如何确定我需要的表格。 2

浏览 5提问于2016-01-07得票数 1

回答已采纳

1回答

Python BeautifulSoupHTML表抓取

python-3.x、beautifulsoup

我想学习如何使用BeautifulSoup刮页并将其写入csv文件。当我开始在字典中的键中追加列时，所有的值都会附加到每个键上，而不仅仅是一个键。我得到了我想要的信息： [<td class="column-2">655</td>] [<td class="column-2">660</td>] [<td class="column-2">54</td>] [<td class="column-2">241</td>] 之后，当我试

浏览 1提问于2016-11-30得票数 1

回答已采纳

1回答

我在试着剪短一些数据

python、html、web-scraping、screen-scraping

我正在尝试使用Python将这个中的play-by-play表整理成一个CSV文件。当我运行这段代码时，表格被缩短，许多单元格丢失。我是一个编程n00b，任何帮助都将不胜感激。 from bs4 import BeautifulSoup from urllib2 import urlopen import csv bref = "http://www.basketball-reference.com" print "Enter game code:" game = raw_input("> ") def make_soup(url):

浏览 0提问于2015-07-16得票数 0

2回答

使用python从HTML网站抓取股票

python、pandas、web-scraping

我试图从一个有如下页面来源的网站上刮起股票代码： <thead> <tr> <th>Company</th> <th>Symbol</th> <th>Weight</th> </tr>

浏览 1提问于2017-07-12得票数 1

回答已采纳

1回答

文件保存.txt时出现BeautifulSoup错误

python、save、beautifulsoup

from bs4 import BeautifulSoup import requests import os url = "http://nos.nl/artikel/2093082-steeds-meer-nekklachten-bij-kinderen-door-gebruik-tablets.html" r = requests.get(url) soup = BeautifulSoup(r.content.decode('utf-8', 'ignore')) data = soup.find_all("article

浏览 1提问于2016-03-17得票数 1

1回答

从BeautifulSoup中的表中排除跨类

python、python-3.x、beautifulsoup

以下代码从网页上的特定表中提取数据： import requests from bs4 import BeautifulSoup url="XYZ" sector_response=requests.get(url) soup=BeautifulSoup(sector_response.content,'lxml') #Find the desired table table=soup.find('table',attrs={'class': 'snapshot-data-tbl'}) headings = [t

浏览 2提问于2018-09-29得票数 1

回答已采纳

1回答

如何在dataframe中检索和存储第2行和第3行元素

python、pandas、beautifulsoup、python-requests

我对Python中的Pandas、Webscraping和BeautifulSoup都很陌生。当我正在学习使用requests和BeautifulSoup进行一些基本的网页抓取时，我对将html表的第2和第3元素分配到熊猫数据框架中的任务感到困惑。假设我有一张桌子：到目前为止，我的代码如下： import pandas as pd from bs4 import BeautifulSoup import requests html_data = requests.get('https://en.wikipedia.org/wiki/List_of_largest_bank

浏览 0提问于2021-10-19得票数 1

1回答

如何使用BeautifulSoup解析表？

python、parsing、beautifulsoup

这是一个特定于上下文的问题，涉及如何使用BeautifulSoup解析python2.7中的html表。我想提取html表并将其放在标签标记csv中，并尝试使用BeautifulSoup。上下文代码： proxies = { "http://": "198.204.231.235:3128", } site = "http://sloanconsortium.org/onlineprogram_listing?page=11&Institution=&field_op_delevery_mode_value_many_to_o

浏览 2提问于2013-07-23得票数 0

回答已采纳

1回答

美丽的汤: FileNotFoundError：[Errno2]没有这样的文件或目录：

python、html、beautifulsoup

我正在努力学习美汤。我使用下面的网址来学习。当我尝试运行代码时，我得到下面的错误。 FileNotFoundError: [Errno 2] No such file or directory: 'what_is_beautiful_soup_in_python-Google_Search.html' Python模块和HTML文件都保存在同一个文件夹中。文件名= what_is_beautiful_soup_in_python-Google_Search谁能帮我解决这个问题？ from bs4 import BeautifulSoup soup = BeautifulSo

浏览 24提问于2020-03-11得票数 1

2回答

使用从特定页面中提取数据

python、beautifulsoup

我对python和BeautifulSoup非常陌生。我编写了下面的代码，试图调用该网站()，刮掉表中的数据并将其导出到csv文件中。我能够编写代码从网站上的其他表格中提取数据，但不是这个特定的表。它不断地返回: AttributeError: NoneType‘object没有属性'find’。我一直在绞尽脑汁想弄清楚我做错了什么。我有错误的“类”名称吗？再说一次，我有很新的经验，并试图教自己。我一直在通过尝试和错误和反向工程别人的代码学习。这件事让我很困惑。有指引吗？ import requests import csv import datetime from bs4 impor

浏览 1提问于2020-05-11得票数 0

回答已采纳

2回答

csv.writer没有将整个输出写入CSV文件

python、python-3.x、web-scraping

我正试图从Kworb.net中把艺术家的Spotify流媒体排名刮到CSV文件中，我几乎成功了，但我遇到了一个奇怪的问题。下面的代码成功地将所有10,000名列出的艺术家刮到控制台中： import requests from bs4 import BeautifulSoup import csv URL = "https://kworb.net/spotify/artists.html" result = requests.get(URL) src = result.content soup = BeautifulSoup(src, 'html.parser

浏览 3提问于2022-12-04得票数 -1

回答已采纳

2回答

使用Python 3和Beautiful Soup 4删除HTML标签并将抓取的数据保存为CSV文件

python、web-scraping、beautifulsoup

我试图从网页上的表格中抓取数据，然后使用Python 3和Beautiful Soup 4将其保存到CSV文件中。我已经能够提取数据，但我无法删除数据周围的标签，也无法找到将其保存到CSV文件的方法。我已经梳理了之前提出的问题，并尝试应用这些方法，但我仍然不能解决这个问题。下面是我的脚本： import csv import pandas as pd import requests from bs4 import BeautifulSoup url="enter url here" r=requests.get(url) soup=BeautifulSoup(r.conte

浏览 10提问于2017-01-20得票数 2

回答已采纳

2回答

如果当前的URL返回404，我如何使python尝试文件中的下一个URL？

line、beautifulsoup、mechanize、next

我在找出需要创建哪些代码来使python尝试csv文件中的下一个url时遇到了问题，每个url都位于如下一行： #open csv file #read csv file line by line #Pass each line to beautiful soup to try #If URL raises a 404 error continue to next line #extract tables from url from mechanize import Browser from BeautifulSoup import BeautifulSoup import

浏览 3提问于2012-11-29得票数 0

回答已采纳