如何在python中从<td>表中抓取url

在Python中从<td>表中抓取URL的方法可以通过使用网页解析库和正则表达式来实现。以下是一个完整的解答：

要从<td>表中抓取URL，你可以按照以下步骤进行操作：

首先，你需要使用Python中的网页解析库来解析HTML文档。常用的网页解析库有BeautifulSoup和lxml等。你可以使用这些库中的任何一个来解析HTML。
通过使用网页解析库，你可以找到包含URL的<td>元素。通常，你可以使用标签名和属性来定位特定的元素。例如，如果你的<td>元素具有某个特定的class属性，你可以使用类似于find或find_all的方法来查找所有具有该class属性的<td>元素。
一旦你找到了包含URL的<td>元素，你可以使用正则表达式来提取URL。正则表达式是一种用于匹配和提取字符串模式的强大工具。你可以使用Python中的re模块来处理正则表达式。

下面是一个示例代码，展示了如何在Python中从<td>表中抓取URL：

import requests
from bs4 import BeautifulSoup
import re

# 发送HTTP请求并获取HTML内容
response = requests.get('http://example.com')
html_content = response.content

# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(html_content, 'html.parser')

# 查找包含URL的<td>元素
td_elements = soup.find_all('td')

# 提取URL
urls = []
for td in td_elements:
    # 使用正则表达式匹配URL模式
    url_pattern = re.compile(r'https?://\S+')
    matches = url_pattern.findall(str(td))

    # 将匹配到的URL添加到列表中
    urls.extend(matches)

# 打印提取到的URL
for url in urls:
    print(url)

请注意，这只是一个示例代码，具体的实现可能因实际情况而异。你可能需要根据实际的HTML结构和要抓取的URL模式进行适当的修改。

在腾讯云中，推荐使用的产品是腾讯云的云爬虫服务（https://cloud.tencent.com/product/ccs）来进行网页抓取和解析。此服务提供了强大的抓取和解析能力，可帮助用户快速、准确地从网页中提取信息。

页面内容是否对你有帮助？

有帮助

没帮助

如何从承载HTML之外的表数据的网站中刮表？

、、、、

我正在尝试从这个表URL：中抓取表数据在之前的测试中，我使用了以下Python包:从bs4导入BeautifulSoup导入请求导入mysql.connector作为pd从sqlalchemy导入create_engine 但是这个url的HTML不包含表数据，而是从外部数据库中提取数据。有人能告诉我用这种HTML设置使用python脚本来抓取表数据的正确方向吗？我试着用我以前刮过的方法做一次盲刮。 from bs4 import BeautifulSoup import requests import mysql.connector import pandas as pd

浏览 3提问于2022-04-02得票数 -1

回答已采纳

1回答

我如何通过操作URL来进行网络抓取？Python 3.5

、

我想在我的代码中从一个网站中抓取一个股票数据表，我会生成一个股票符号数组。网站finviz的URL为每个特定股票生成表，其中包含URL的最后一部分(ei )。和MBOT)。我想输入生成的数组作为URL (ei )的最终输入。如果我的数组是AAPL，那么然后是)从每个URL中抓取输出表，并将被抓取的信息输入到CSV文件中(在本例中名为'output.csv') --这里是我的代码： import csv import urllib.request from bs4 import BeautifulSoup twiturl = "https://twitter.com/A

浏览 0提问于2018-02-17得票数 0

1回答

如何在python中抓取弹出窗口

、

刚刚接触python和漂亮的汤，这里我有下面的html，我需要抓取表格中的href链接以及td标记中的所有文本。我能够抓取href： links = browser.find_elements_by_css_selector("#lstDocTable tbody tr td:nth-child(0) a") print([link.get_attribute("href") for link in links]) 在表中的所有data(rows)上仍在苦苦挣扎。有什么想法？单击链接将显示此弹出窗口：

浏览 4提问于2018-06-15得票数 2

3回答

jQuery -如何在点击表行时触发灯箱？

、、、、

示例表： <table> <tr class="record" id="10"> <td>1/1/2010</td> <td>$10.00</td> </tr> <tr class="record" id="11"> <td>1/3/2010</td> <td>$15.00</td> </tr> </table> 我使用这个JS

浏览 0提问于2011-03-28得票数 0

回答已采纳

2回答

使用Python 3和Beautiful Soup 4删除HTML标签并将抓取的数据保存为CSV文件

、、

我试图从网页上的表格中抓取数据，然后使用Python 3和Beautiful Soup 4将其保存到CSV文件中。我已经能够提取数据，但我无法删除数据周围的标签，也无法找到将其保存到CSV文件的方法。我已经梳理了之前提出的问题，并尝试应用这些方法，但我仍然不能解决这个问题。下面是我的脚本： import csv import pandas as pd import requests from bs4 import BeautifulSoup url="enter url here" r=requests.get(url) soup=BeautifulSoup(r.conte

浏览 10提问于2017-01-20得票数 2

回答已采纳

3回答

如何在python中提取html表中的第二列？

、、

<table style="width:300px" border="1"> <tr> <td>John</td> <td>Doe</td> <td>80</td> </tr> <tr> <td>ABC</td> <td>abcd</td> <td>80</td> </tr> <tr> <td&

浏览 1提问于2014-08-05得票数 0

3回答

web解析内容的lxml长度

、、

我用Python语言中的lxml抓取网页。然而，为了获得表行的数量，我首先获得所有行，然后使用len()函数。我觉得这太浪费了，有没有其他方法来获取他们的数字(动态1)，以便进一步抓取？ import lxml.html doc = '' try: doc = lxml.html.parse('url') except SkipException: pass if doc: buf = '' #get the total number of rows in table tr = doc.xpath("

浏览 3提问于2012-09-22得票数 0

回答已采纳

3回答

如何在用美丽的汤和熊猫刮桌子时保存链接

、、

使用Beautiful soup和Pandas抓取网页以获取表。其中一列得到了一些urls。当我把html传给熊猫时，href就丢了。有没有办法只为该列保存url链接？示例数据(为更适合实际情况而编辑)： <html> <body> <table> <tr> <td>customer</td> <td>country</td> <td

浏览 1提问于2017-02-16得票数 11

回答已采纳

2回答

如何在python中抓取分散在多行上的html标签？

、、

我正在尝试用python抓取网页。我可以轻松地获取单行标记的结果，但是对于分布在多行上的标记，我的代码无法检索任何内容。在HTML源代码中，单行标记表示为： <td><span class="facultyName">John Matthew Falletta, MD</span> 和多个行标记表示为： <td><span class="label">Division:</span>    &l

浏览 0提问于2013-02-15得票数 2

回答已采纳

2回答

刮掉不属于tr的td

、、

嗨，我想通过使用表的python code.HTML从网站中抓取表的内容如下所述。 <table class="table" title=""> <tbody> <tr> <td colspan="7"><br/></td> <td style="text-align:center;"><strong>N/A*</strong></td> &

浏览 7提问于2022-02-27得票数 0

3回答

如何从BeautifulSoup html表中获取文本，.get_text()正在返回一个错误

、、

我正在尝试使用python和BeautifulSoup从网站上抓取一张表(我对两者都有点陌生)。下面是我迄今为止尝试过的代码，它创建了前两列中的值列表。然而，当我试图得到字符串(2016-01,2016-02，.)来自Tcells1的td列表或(1.4193,1.3826，.)在Tcells2中，.get_text()给出了错误。我对Python和Beautifulsoup汤有点陌生。我知道Pandas可以抓取html表，但是我想学习BeautifulSoup，我不知道我在这里做错了什么。Python3.8.8 import requests from bs4 import Beautif

浏览 21提问于2022-02-21得票数 0

2回答

如何在Python中从网站抓取和迭代表

、

我试图在Python语言中抓取和迭代一个表，然后将其输入到一个pandas DataFrame中，但我甚至在使用BeautifulSoup查找表时都遇到了麻烦。这是我通常做的事情，但在源代码中似乎没有表格。我该如何拉出这个页面上的主表？ from bs4 import BeautifulSoup import pandas as pd import numpy as np import requests url = 'https://markets.ft.com/data/director-dealings' site = requests.get(url) soup =

浏览 21提问于2020-11-07得票数 0

1回答

额外的HTML导致bs4出现问题

、、

我试图从网站上的一个表中获取一些信息--特别是，我想从“按姓氏代表目录”表中获得有关代表的信息。到目前为止，我能够从站点下载HTML并将其写入文件，但是当使用bs4解析和抓取我想要的特定表时，它只是抓取每个表的第一行。这是因为HTML表的每一行都有一个额外的标记： <tr> <td><a href="https://abraham.house.gov/"> Abraham, Ralph </a> </td> <td>Louisiana 5th District</td> <td>

浏览 4提问于2017-04-29得票数 0

回答已采纳

1回答

Python -使用BeautifulSoup4从表中刮取数据：'NoneType‘对象没有属性'find’

、

这里是Python新手。我正在练习并尝试使用BeautifulSoup4从表中抓取一些数据，然后将其传输到Excel表中。做了几个小时，终于开始寻求帮助了。我不断地发现错误： 'NoneType‘对象没有属性’查找‘ from bs4 import BeautifulSoup import requests, openpyxl # Scrape data from inmotion.dhl try: url = requests.get('https://inmotion.dhl/en/formula-1/fastest-pit-stop-award')

浏览 4提问于2022-09-27得票数 -1

1回答

使用BeautifulSoup提取表中的数据

、、、

我正在为我的安卓应用程序抓取这个。我想提取城市和地区代码表上的数据下面是我的代码： from bs4 import BeautifulSoup import urllib2 import re base_url = "http://www.howtocallabroad.com/taiwan/" html_page = urllib2.urlopen(base_url) soup = BeautifulSoup(html_page) codes = soup.select("#codes tbody > tr > td") for area_co

浏览 0提问于2013-06-05得票数 3

回答已采纳

1回答

更改支配表中单元格的样式或背景(Python)

、、

下面是我的csv文件中的一个示例(假设xxxx.img实际上是) LHS_itemname,LHS_img, LHS_color, RHS_itemname, RHS_img, RHS_color backpack, bck.img, blue , lunchbox, lch.img, blue backpack, bck.img, green , lunchbox, lch.img, blue 我想显示这个csv作为一个HTML表格，其中每个图像url可以从网络抓取使用web url和显示在表内。如果LHS_color与RHS_color相同，我希

浏览 5提问于2016-04-12得票数 2

回答已采纳

1回答

BeautifulSoup按编号指定表列？

、、、、

使用Python2.7和BeautifulSoup 4，我从一个表中抓取歌曲名。现在，脚本在表的行中找到链接；我如何指定我想要第一列？理想情况下，我可以改变号码，以改变哪些被选中。现在，代码如下所示： from bs4 import BeautifulSoup import requests r = requests.get("http://evamsharma.finosus.com/beatles/index.html") data = r.text soup = BeautifulSoup(data) for table in soup.find_all

浏览 7提问于2014-04-09得票数 1

回答已采纳

2回答

Python Selenium Web表抓取问题

、、

我正在学习使用Selenium的Python。在这个学习中，我试图打开Google Finance，并用数据抓取季度财务表。最终，我的目标是从表列中读取报价器，并从季度金融表中抓取数据。在测试过程中，我发现捕获所有行对我来说并不是什么挑战。你能看一下代码，让我知道我哪里做错了吗？另外，如果有人可以帮助我，我如何在这里使用Xpath而不是CSS定位器，这将是非常有帮助的。 from selenium import webdriver from selenium.webdriver.common.by import By import pandas as pd import time pa

浏览 27提问于2019-12-09得票数 0

2回答

我在这个脚本中遗漏了什么来从网页上刮出一排表格呢？

、、、、

如您所见，我第一次尝试刮。我是。所以，正如你所看到的，我检查了一下，找到了td，我想要的是td中的href。 import requests from bs4 import BeautifulSoup import lxml # URL for the table url = 'http://services.runescape.com/m=itemdb_rs/top100?list=2' #grab the page html = requests.get(url).text #import into BS soup = BeautifulSoup(html, "l

浏览 2提问于2017-09-21得票数 0

回答已采纳

1回答

如何在使用<tr> DataTables时获取jQuery的id？

、、

我正在添加一个按钮，它将“批准”表中的所有行(调用一个URL来处理记录)。生成表，然后将DataTable附加到预填充的表中。在每个tr上，我都有记录的id号。 <tr id="11309742"> <td>blah</td> <td>blah</td> <td>blah</td> </tr> <tr id="11309743"> <td>blah</td> <td>blah<

浏览 1提问于2013-09-03得票数 1

回答已采纳

3回答

如何在Cheerio中实现web抓取索引

、、、

我使用Cheerio进行网络抓取，我之前使用过bs4。我想刮这个网站；在Python中，我们可以使用findall("tr")来获得第一个<tr>。但如何在啦啦队中表演同样的节目呢？下面是我的代码： var request = require('request'); var cheerio = require('cheerio'); var fs = require('fs'); const url = "https://rera.kerala.gov.in/rera_project_details&

浏览 4提问于2020-06-23得票数 2

回答已采纳

1回答

使用漂亮的汤从网页中的链接中抓取数据。python

、、

我正在尝试从网页内的url抓取数据(instaid，平均点赞，平均评论)：，https://starngage.com/app/global/influencer/ranking/india url的元素id是：@priyankachopra 类似地，我想从同一个表中的所有1000个配置文件中抓取数据有人能告诉我怎么做吗？ from bs4 import BeautifulSoup from prettytable import PrettyTable tb = PrettyTable(['Name', 'Insta_ID', 'Followers

浏览 22提问于2021-07-17得票数 0

回答已采纳

1回答

第一次使用scrapy，尝试抓取一组表。

、、、

我对Python非常陌生(对堆栈溢出也很陌生)，并且刚刚开始使用Scrapy。我想从不同的网站抓取一些爱好产品信息。我读过这篇教程，感觉很棒。我想要的是表中列出的手表的属性，但它们在第二个表中都有相同的类("productTitle")。 <table border="0" cellspacing="0" cellpadding="4"> <tbody> <tr> <td class="productTitle creditCardPrice" va

浏览 1提问于2017-01-04得票数 0

回答已采纳

4回答

用Python实现表Web抓取问题

、、、

我有问题从这个网站抓取数据：我感兴趣的是从不同的桌子上获取球员的名字和分数。我对python相对陌生，对web抓取完全陌生。以下是我到目前为止所拥有的： from urllib.request import urlopen from bs4 import BeautifulSoup url = 'https://fantasy.premierleague.com/player-list' html = urlopen(url) soup = BeautifulSoup(html, "lxml") rows = soup.find_all('

浏览 1提问于2020-06-22得票数 1

回答已采纳

3回答

如何使用Python Pandas Lib设置For循环来读取URL列表并抓取数据

、

这是我的第一个Python脚本。我目前正在尝试从多个url中抓取嵌入到HTML表中的数据，这些url位于一个名为url-list.txt的文件中。我已经成功地使用Python的Panda库从一个页面中抓取了所需的数据，然而，我正在尝试执行一个简单的for循环，从url-list.txt文件中加载每个url，以便从剩余的100个左右的url中抓取数据。这是我到目前为止所得到的。您可以看到我在for循环中的尝试被注释掉了。任何帮助都将不胜感激。 import bs4 as bs import urllib.request import pandas as pd #url_list = "

浏览 4提问于2019-06-08得票数 0

2回答

如何合并两个pandas DataFrames，但没有共享元素

、、

我正在用Python抓取一些NBA数据。我有以下脚本 def scrape_data(): #URL url = "https://basketball-reference.com/leagues/NBA_2020_advanced.html" html = urlopen(url) soup = bs(html, 'html.parser') soup.findAll('tr', limit = 2) headers = [th.getText() for th in soup.findAll(

浏览 27提问于2020-02-01得票数 0

回答已采纳

1回答

具有多个表的时间表Web抓取(Python)

、、、、

我只是在找一些关于python web抓取的信息。我正在尝试从时间表中获取所有数据，我想让课程与其开始的时间联系起来。查看html，有多个表(表中的表)。我计划将Google App Engine与Python (或许也包括BeautifulSoup )一起使用。对最好的方法有什么建议吗？谢谢更新：我已经设法使用以下代码从表中提取了所需的数据： import urllib from lxml import etree import StringIO url = "http://ttcache.dcu.ie/Reporting/Individual;Locations;id;lg

浏览 0提问于2013-03-15得票数 1

回答已采纳

1回答

使用单个URL在多个页面上刮取表

、、、

我正试着从Fangraphs中抓取数据。表格被分成21个页面，但所有页面都使用相同的url。我对webscraping (或者一般的python )非常陌生，但是Fangraphs没有公共API，所以抓取页面似乎是我唯一的选择。我目前正在使用BeautifulSoup来解析超文本标记语言代码，我能够抓取初始表，但那只包含前30个球员，但我想要整个球员池。两天的网络搜索，我被卡住了。链接和我当前的代码如下所示。我知道他们有一个下载csv文件的链接，但在整个赛季中这会变得单调乏味，我希望加快数据收集过程。任何方向都会有帮助，谢谢。 https://www.fangraphs.com/projec

浏览 21提问于2020-04-18得票数 1

回答已采纳

1回答

在python中从给定的url中抓取两列

、、、

我必须从中抓取数据，我只需要从表中获取公司的符号和名称，我已经为整个表编写了代码，但是如何才能获得所需的列？我的代码是： import requests from bs4 import BeautifulSoup import pandas url = 'https://finance.yahoo.com/trending-tickers' r = requests.get(url) soup = BeautifulSoup(r.text,'html.parser') table = soup.find("table",{"clas

浏览 0提问于2018-04-30得票数 2

回答已采纳

1回答

谷歌脚本UrlFetchApp.fetch(url).getContentText()返回不完整的超文本标记语言

、、、、

我正在使用以下脚本从网页中提取源HTML： var url = "http://www.asx.com.au/asx/markets/dividends.do?by=asxCodes&asxCodes=BHP"; var xmlFeed = UrlFetchApp.fetch(url).getContentText(); 检查xmlFeed文本，我发现它与我使用浏览器看到的页面源代码相比被截断了，而且我要查找的数据(被除数数据表)并不在那里。事实上，唯一剩下的超文本标记语言似乎就是<APM_DO_NOT_TOUCH>标记中的超文本标记语言。我认为这可能是因

浏览 1提问于2017-04-29得票数 0

1回答

从HTML表中提取顶部subreddits

、、、

我正在抓取一个表，并试图从tbody树中获取嵌套的td标记，但是代码看起来有点冗长。还有更多毕达通的方法来做这事吗？ def get_top_subreddits(url): r = urllib.request.urlopen(url).read() soup = BeautifulSoup(r, "lxml") body = soup.find_all('tbody') top_subreddits = [] for i in body: trs = i.find_all('tr'

浏览 0提问于2017-09-19得票数 2

1回答

如何使用Python和BeautifulSoup或Pandas从Finviz.com中抓取最大赢家和最大输家的表行？

、、、

这就是我所能得到的。如何使用Python和BeautifulSoup或Pandas从Finviz.com中抓取最大赢家和最大输家的表行？ import requests from bs4 import BeautifulSoup r=requests.get("https://finviz.com") c=r.content soup = BeautifulSoup(c, "html.parser") table =soup.find("table", {"class": "t-home-table"})

浏览 15提问于2020-04-09得票数 1

3回答

如何在我的表格中显示4个TD，然后使用PHP创建一个新的表格行？

、、、

我正在运行一个for循环从数据库中抓取数据，并且我想在每次创建4个表数据时创建一个新行，我怎么能做到这一点呢？示例： <table> <tr><td></td><td></td><td></td><td></td></tr> <tr><td></td><td></td><td></td><td></td></tr> <tr><

浏览 3提问于2011-03-29得票数 1

1回答

抓取HTML表python bs4

、、、

我会从Transfermarkt player配置文件页面的两个html表中抓取数据。下面是一个页面示例：https://www.transfermarkt.com/cristiano-ronaldo/profil/spieler/8198 第一个是“事实和数据”表，第二个是“统计”表。我想开始从搜索页面抓取urls。一旦我从搜索页面的每一个页面获得urls，就开始抓取每个玩家链接的统计数据。如何从链接中抓取html表格数据？下面是我的完整代码 import requests from bs4 import BeautifulSoup import pandas as pd import

浏览 14提问于2021-04-13得票数 1

1回答

Python BeautifulSoup -如何在<td>中的值中爬行链接<a>

、、

我正在学习网络抓取，并试图从下面的链接网络抓取数据。有没有办法让我从每个td的链接以及爬行？网站链接：这是我迄今为止所做的。 from urllib.request import urlopen from bs4 import BeautifulSoup url = "http://eecs.qmul.ac.uk/postgraduate/programmes/" html = urlopen(url) soup = BeautifulSoup(html, 'lxml') table_list = [] rows = soup.find_all('

浏览 3提问于2021-12-05得票数 1

回答已采纳

1回答

从多个页面中抓取一个表，并将其存储在一个数据文件中

、、

Problem：一个网站有c.80页，每个页面都包含一个结构相同的表。我需要刮每一张桌子，并将结果存储在一只熊猫的数据中。表内容定期更新，因此需要经常重复。我可以从一个页面中抓取表，但我很难在多个页面中完成它。我发现的所有示例都用于迭代更改的URL，例如(www.example.com/page1 1、/page2等)，而不是用于指定的URL列表。我尝试了下面的URL子集(理想情况下，我希望从csv列表中读取URL)，但它似乎只将最后一个表刮到dataframe (即ZZ)中。很抱歉，如果这看起来不太好，我对Python相当陌生，我主要使用pandas进行数据分析，直接从csv读取。任何

浏览 0提问于2018-11-13得票数 1

回答已采纳

2回答

如何在使用python向下滚动时刮掉提供更多信息的html页面

、、

我正在从上抓取课文。但是我不能抓取页面中位于“总计”表下面的内容。我想从“总计”和“高级”表中得到数字，但是代码没有返回任何内容。当用户向下滚动页面时，该页面似乎会加载其他信息。我运行了下面的代码，并成功地从玩家的个人资料部分和“每个游戏”表中获得数据。但无法从“总计”表中获得值。 from lxml import html import urllib playerURL=urllib.urlopen("https://www.basketball-reference.com/players/p/parsoch01.html") # Use xpath to parse po

浏览 2提问于2019-07-27得票数 0

回答已采纳

1回答

如何循环通过多个页面来刮取表数据(python)

、、、

我很难找到一种循环浏览页面和从表中抓取数据的方法--我设法从第一页获得数据，但我不知道如何继续浏览每一页并获取数据。我尝试过各种不同的代码，但我无法让任何东西工作。这个站点im试图在url和next按钮的末尾添加&pageno=2 (而不是编号按钮)--任何帮助都是很棒的。当前成功抓取第一页的代码如下： from cgitb import text import requests import pprint import csv from bs4 import BeautifulSoup from lxml import html headers = {'User-Agen

浏览 11提问于2022-06-23得票数 0

回答已采纳

1回答

如何使用xpath从表单元格中刮取值？

、、、

我在R工作，试图从www.baseball-reference.com中为多个玩家收集一些统计数据。我已经能够从站点上的特定页面中抓取其他元素，但是从出现在所有玩家统计页面上的特定表中刮取时遇到了问题。表id为“batting_value”，而显示在页面上的节点标题为“Player Value-Batting”。下面是一个示例页面： https://www.baseball-reference.com/players/b/brownro02.shtml 我感兴趣的是从‘球员价值-击球’表的底部行刮出'PA‘值。我已经尝试过inspect > copy xpath，在上面的示例

浏览 2提问于2018-11-03得票数 0

回答已采纳

1回答

环路上Selenium的网络抓取第一行和分页问题

、、、、

我试图用selenium抓取Javascript页面，但遇到了一些麻烦。我尝试执行for循环遍历所有行，然后从这些行中提取表数据。是这个网站： from selenium import webdriver import time url = 'https://datawrapper.dwcdn.net/vzezR/4/' driver = webdriver.Chrome('G:/Python Projects/venv/Lib/site-packages/chromedriver.exe') driver.get(url) time.sleep(2)

浏览 2提问于2021-03-26得票数 0

1回答

如何抓取数据python的特定表和特定行/单元格

、、、

这是我的第一个python项目，我的目标是从昨晚大都会的比赛中获取最终比分，并通过twilio将其发送给一个朋友，但现在我在从这个网站提取比分时遇到了问题： http://scores.nbcsports.com/mlb/scoreboard.asp?day=20160621&meta=true 下面的抓取器可以工作，但它显然会找到所有的表/行/单元格，而不是我想要的那个。当我查看每个表的html代码时，它们都是相同的： <table class="shsTable shsLinescore" cellspacing="0"> 我的问题是，如

浏览 0提问于2016-06-22得票数 3

2回答

没有类名的Python抓取特定标签

、、

我正在开发一个从特定站点抓取数据的python脚本。我使用Beautiful Soap作为python模块。HTML页面中有趣的数据包含在下面的结构中： <tbody aria-live="polite" aria-relevant="all"> <tr style=""> <td> <a href="www.server.com/art/crag">Name<a> </td> <td class="nowra

浏览 2提问于2017-05-15得票数 0

2回答

Python从网页中抓取链接--为什么没有URLS？

、、

我是Target.com的销售者，并试图使用Python (Python3)为目录中的每一个产品抓取URL。当我尝试这样做时，我得到了一个“urllist”的空列表，当我打印变量'soup‘时，BS4实际收集的是“查看页面源”的内容(请原谅我在这里的天真，肯定还是个新手！)实际上，我真的很想从Devtools页面的“元素”部分中找到的内容中抓取URL。我可以手动筛选页面上的html并找到链接，所以我知道它们在那里.我只是还不知道还不够告诉BS4这是我想搜索的内容。我怎么能这么做？ import urllib.request, urllib.parse, urllib.error fro

浏览 7提问于2021-12-08得票数 0

回答已采纳

1回答

Python抓取xpath不适用于特定站点/表

、、、、

我在尝试从url的表中抓取数据时遇到问题：它指的是盘中市场数据。根据前面的示例和firebug提供的xpath标记，我编写了以下代码，但tr_nodes和td_content都返回空列表： import urllib2 from lxml import etree uol = urllib2.urlopen("http://economia.uol.com.br/cotacoes/bolsas/indx-bovespa/?intraday&size=600") t = uol.read() html = etree.HTML(t) tr_nodes = html.x

浏览 0提问于2014-01-18得票数 0

2回答

如何抓取既包含纯文本又包含“双引号”文本的表数据？

、、

我试图从zone-h.org网页上抓取数据。首先，我通过在脚本中添加cookie绕过了网页captcha错误。然后我用BeautifulSoup抓取这个表并存储它。但是，其中一列没有纯文本；信息存在于引号("...")中。 from bs4 import BeautifulSoup import requests import pandas as pd url = "http://www.zone-h.org/archive/filter=1/published=0/domain=twitter/fulltext=1/page=1?" cookie = {

浏览 29提问于2019-08-01得票数 0

回答已采纳

2回答

从刮擦中移除

、、

大家好，我已经成功地创建了一个从唱片行业网站获得前40名的网站抓取器，但是我正在抓取的表中的某一列有时可能不在那里。基本上，我需要的是一种从我的抓取中删除任何实例的方法： <td><img src="/images/bullet_red.gif" width="8" height="8" title="Red Dot" /></td> 这是到目前为止我从一个教程中得到的东西。 $url = "http://www.ariacharts.com.au/pages/charts_displa

浏览 0提问于2011-06-01得票数 0

回答已采纳

2回答

如何在python中从html表中抓取数据

、、、、

<tr class="even"> <td><strong><a href='../eagleweb/viewDoc.jsp?node=DOC186S8881'>DEED<br/> 2016002023</a></strong></td> <td><a href='../eagleweb/viewDoc.jsp?node=DOC186S8881'><b> Recording Date: </b>01/

浏览 4提问于2017-03-17得票数 0

回答已采纳

2回答

BeautifulSoup -将HTML表转换为CSV并获取一列的href

、、、

我正在用下面的代码抓取一个HTML表： import csv import urllib2 from bs4 import BeautifulSoup with open('listing.csv', 'wb') as f: writer = csv.writer(f) for i in range(39): url = "file:///C:/projects/HTML/Export.htm".format(i) u = urllib2.urlopen(url) try:

浏览 0提问于2015-01-15得票数 5

回答已采纳

1回答

如何在Scrapy中模拟XHR请求以动态加载网页？

、、、、

我正在尝试抓取olx.in站点http://www.olx.in/newdelhi/bmw/，我已经将这个URL设置为start_url。现在要转到下一页，因为它不是普通的HTML，但是它是动态的，所以在network中，我看到next按钮用POST方法创建了一个XHR请求。现在我必须用请求方法来模拟它(我猜.)但我不知道它的参数是什么。我对python和web抓取非常抱歉，如果它太笼统，但任何帮助都将不胜感激。

浏览 4提问于2016-01-12得票数 1

回答已采纳

2回答

用于获取onclick值的Python

、、

我正在使用Python和BeautifulSoup为我的一个小项目抓取网页。该网页有多个条目，每个条目在HTML中由一个表行分隔。我的代码部分工作，但是很多输出都是空的，它不会从网页中获取所有结果，甚至不会将它们收集到同一行中。 <html> <head> <title>Sample Website</title> </head> <body> <table> <td class=channel>Artist</td><td class=channel>Title</

浏览 1提问于2014-12-11得票数 1

回答已采纳