Web抓取soup文件中的相关信息_从soup文件中抓取相关信息_web抓取的csv信息保存问题 - 腾讯云开发者社区

、、、、

我刚接触Python，我发现在python中理解日志的整个概念真的很难。我目前正在使用Python3做这个web抓取项目。我使用了BeautifulSoup4来帮助我:下面是我写的代码： from bs4 import BeautifulSoup import urllib3 import urllib.request web = "https://docs.python.org/3/howto/logging-cookbook.html" page = urllib.request.urlopen(web) soup = BeautifulSoup(page)

浏览 0提问于2017-04-22得票数 1

1回答

在HTML文件上显示Python数据

、、、

你好，我正在写这个简单的程序来获得美元的当前价值。我使用了两种方法，一种是简单的API调用，另一种是web抓取。现在，我想将这些信息显示在一个html文件中。你知道怎么做吗？下面是我正在使用的两个python文件:这个文件使用API调用： import requests import json # Dolar today dtUrl = 'https://s3.amazonaws.com/dolartoday/data.json' def dolartoday(): response = requests.get(dtUrl) format = resp

浏览 49提问于2020-10-13得票数 0

回答已采纳

1回答

Python :如果满足特定条件，如何使用不同的抓取页面重复“bs4”循环？

、、

我正在尝试创建一个for循环，一旦它到达抓取的页面中的最后一个search_result属性，它将重复该循环，但会使用新抓取的网页的数据。在for循环到达最后一个属性后，它将在网页上查找链接，并对新抓取的网页重复该循环。我已经写了下面的代码，但循环不会重复从原始网页的链接中获得新的抓取页面。 import requests from bs4 import BeautifulSoup page = requests.get(URL, headers=headers) soup = BeautifulSoup(page, 'lxml') for search_result

浏览 7提问于2019-08-16得票数 1

回答已采纳

1回答

使用python从隐藏了数据的HTML中提取标签

、、

我正试着从不同的网页上学习抓取。我尝试从包含选项卡的页面中抓取数据，如下所示： url = "https://www.bc.edu/bc-web/schools/mcas/departments/art/people/#par-bc_tabbed_content-tab-0" page = requests.get(url) content = page.content tree = html.fromstring(page.content) soup = BeautifulSoup(content,"html.parser") p = soup.find_al

浏览 7提问于2017-08-23得票数 0

回答已采纳

1回答

如何使用'contents‘来抓取我想要的值？

、

我遵循这个link从website中抓取数据我想要抓取姓名，网址，年份和国籍，当我尝试与以下代码 import requests import csv from bs4 import BeautifulSoup import bs4 f = csv.writer(open('z_artist_names_assignment.csv', 'w')) f.writerow(['N']) pages = [] for i in range(1, 2): url = 'https://web.archive.org/web/

浏览 15提问于2019-06-19得票数 1

回答已采纳

1回答

Python函数输出重复的值

、、、、

我定义了一个从网页抓取数据的函数。在这个网页上有25个搜索结果(在我的例子中是房产列表)。我已经编写了查找所有25个清单的代码，然后尝试使用for循环对网页上的每个清单调用我的函数。但是，输出显示相同的清单打印了25次。我想知道是否可以将我的函数details()应用于使用：listings = soup.find_all('article',{'role' : 'article'})找到的页面上的所有25个属性列表。然后我需要将这些结果输出到CSV文件中。我使用的是Python 2.7 这是我到目前为止所知道的： output = [] pr

浏览 1提问于2014-07-22得票数 0

2回答

通过抓取推特获取推特账号粉丝数

、、

我试图通过抓取twitter来获取给定Twitter账号的追随者数量。我试过用BeautifulSoup和XPath抓取。但是所有的代码都不起作用。这是我的一些示例测试代码， from bs4 import BeautifulSoup url = "https://twitter.com/BarackObama" resposnse = re.get(url) soup = BeautifulSoup(resposnse.content) div_tag = soup.find_all('main',{"class":"css-1

浏览 7提问于2020-09-15得票数 0

1回答

被美人汤卡住了

、

所以我试着抓取一个html网页。它有新奇的章节，我正在尝试获取文本并将其存储在文本文件中以便离线阅读。我以前也没有使用html或其他东西的经验。所以我要抓取的网页是。到目前为止，我测试的代码如下所示 ` import sys import requests import time import re from bs4 import BeautifulSoup def browse_and_scrape(seed_url, page_number=1): # Fetch the URL - We will be using this to append to images and in

浏览 0提问于2021-11-23得票数 0

3回答

如何在python中并行抓取多个html页面？

、、、、

我正在用Django web框架用Python制作一个网络抓取应用程序。我需要用漂亮的汤库抓取多个查询。下面是我写的代码的快照： for url in websites: r = requests.get(url) soup = BeautifulSoup(r.content) links = soup.find_all("a", {"class":"dev-link"}) 实际上，网页的抓取是按顺序进行的，我想以并行的方式运行它。我对Python中的线程化不是很了解。谁能告诉我，我怎样才能并行抓取？任何帮助都将不胜感激。

浏览 0提问于2017-05-29得票数 2

2回答

我想从这个文本文件中去掉“收益的使用”这张表。有没有办法让我用python做到这一点？

、、、

我是python web抓取的新手。我正在试着从一个文本文件上抓取表格。该文本文件是附件，我想把“使用收益”的表格刮成一个excel文件或至少一个文本文件。我从一小部分代码开始，但不知道如何继续。 url_text = requests.get(text_file) data = url_text.text soup = BeautifulSoup(data, 'html.parser') tables = soup.find('td') tables1 = tables.find_all('td') 但tables1的返回值为none。有人能

浏览 1提问于2020-05-16得票数 0

1回答

使用BeautifulSoup对表中的链接进行Web抓取返回NoneType和空表

、

我试图在网络上刮除所有的表格N-MFP2，然后打开链接到web，在表单中刮取信息。然而，我仍然无法检索表单。我尝试了多种web抓取方法，包括beautifulSoup和selenium，但是返回的内容是空的，无法进一步获取行数据。感谢你的帮助，因为我已经为这个问题做了三个多小时了。我的代码如下： # Create an URL object url = 'https://www.sec.gov/edgar/browse/?CIK=843781' page = requests.get(url) soup = BeautifulSoup(page.content, 'h

浏览 3提问于2022-01-13得票数 -3

1回答

使用python从网站下载文件

、

我需要下载所有的文件从()给定的网站。它有1995年到2017年的数据，每年都有需要下载的文件的多个链接。Th文件采用.pdf、.htm和.txt格式。我试着通过查看各种教程来抓取数据，但我需要做的与通常的web抓取教程不同。我使用了以下代码，但它没有达到我的目的。我是python的新手，我被困在了如何前进的道路上。有谁能建议一下需要做些什么吗？ import requests from bs4 import BeautifulSoup r = requests.get("https://www.sec.gov/litigation/suspensions.shtml") r

浏览 0提问于2017-05-26得票数 1

1回答

Python: AttributeError和web抓取的挑战

、、、

我正在尝试从“”中抓取数据；我需要的是地址和价格信息。我的方法是使用python中的漂亮的soup模块。当我检查html页面时，我被卡住了，同样是编码。希望你们中的一些人给我一点提示，这样我就可以继续下去了。基本上，web检查表明我需要的信息来自div class = clear property left，下面是代码： from lxml import html import requests import bs4 as bs from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as soup m

浏览 0提问于2017-08-16得票数 0

2回答

在网页中加载更多内容，并发出写入文件的问题

、、、、

我正在进行一个网络抓取项目，它涉及到从一个基于搜索词的网站中抓取URL，将它们存储在一个CSV文件中(在一个列下)，最后从这些链接中抓取信息并将它们存储在一个文本文件中。我目前被困在两个问题。只有前几个链接被刮掉。我无法从其他网页提取链接(网站包含加载更多的按钮)。我不知道如何在代码中使用XHR对象。代码的后半部分只读取最后一个链接(存储在csv文件中)，抓取相应的信息并将其存储在文本文件中。它并不是从一开始就贯穿所有的环节。我无法找出在文件处理和f.seek(0)方面出错的地方。从pprint导入pprint导入csv从bs4 bs4 BeautifulSoup def ge

浏览 8提问于2017-07-19得票数 0

回答已采纳

1回答

Web通过python抓取问题，不能读取html文件吗？

、、

web抓取Python已经有一段时间了，最近我遇到了这个问题。BeautifulSoup似乎无法读取html文件。例如，我正试着从这个网站上抓取这是我的密码 from bs4 import BeautifulSoup import requests url_episode = 'https://www.thetvdb.com/series/initial-d/episodes/4889010' print(url_episode) getdetail_episode = requests.get(url_episode) soup = BeautifulSoup(getde

浏览 1提问于2020-04-06得票数 0

1回答

我应该如何刮刮由一个'p‘标签所代表的网站的文本？

、

我是Python的新手，正在通过从中提取数据来练习web抓取。我目前面临两个问题：如何刮掉由标记表示的文本？它是网页上众多内容之一。例如，第一个就在作者姓名之前。我导出的CSV文件只包含标题，而不包含文本。为什么？我该怎么解决这个问题？这是密码，非常感谢你的帮助。 import requests import pandas as pd from bs4 import BeautifulSoup from pandas import DataFrame import csv import re f = open ('nprtest1.csv', '

浏览 3提问于2020-01-06得票数 0

1回答

将文件写入csv时的解码问题

、、

使用下面的代码，我试图从url中提取描述，该url包含特殊字符。 from bs4 import BeautifulSoup import urllib.request import pandas as pd html = urllib.request.urlopen('http://uk.rs-online.com/web/p/piezoelectric- miniature-speakers/7868948/').read() soup = BeautifulSoup(html) description = soup.find(itemprop="name"

浏览 1提问于2017-09-14得票数 0

1回答

基于动态内容和隐藏数据表的Selenium Web抓取

、、、、

真的需要这个社区的帮助！我正在使用Selenium和Beautiful Soup在Python中对动态内容进行web抓取。问题是，即使使用以下代码，也无法将定价数据表解析为Python： html=browser.execute_script('return document.body.innerHTML') sel_soup=BeautifulSoup(html, 'html.parser') 然而，我后来发现，如果我在使用上面的代码之前单击WebPage上的“查看所有价格”按钮，我可以将该数据表解析为python。我的问题是，我如何解析和访问我的py

浏览 15提问于2018-02-14得票数 2

2回答

来自子头的Webscraping的无关标记

、、、

我在试着刮掉维基百科上的“基因组”页面我只想抓取像“术语的起源”，“测序和绘图”，“病毒基因组”，“原核基因组”，“真核基因组”之类的小标题，包括下面的子标题，基因组大小，等等。为此，我编写了以下代码： def filter_headers(self, web_soup): # Grabs the headers from the web page """ :param web_soup: the raw web soup from the webpage :return: header_soup

浏览 30提问于2021-03-17得票数 1

1回答

Python Web抓取与问题

、、

我使用的是请求-HTML和漂亮的抓取一个网站，下面是代码。奇怪的是，当我使用print(soup.get_text())时，我有时可以从web上获得文本，而当我使用print(soup)时，我会得到一些随机代码-在所附的图像中。 session = HTMLSession() r = session.get(url) soup = bs(r.content, "html.parser") print(soup.get_text()) #print(soup) The program return this when I tried to look at the soup

浏览 10提问于2020-08-14得票数 0

2回答

尝试使用Python将解析的数据导出到CSV文件，但我不知道如何导出多行

、、、

我对漂亮的soup/Python/Web Scraping还不熟悉，我已经能够从站点中抓取数据，但我只能将第一行导出为csv文件(我想将所有抓取的数据导出到该文件中)。我对如何让这段代码将所有抓取的数据导出到多个单独的行中感到困惑： r = requests.get("https://www.infoplease.com/primary-sources/government/presidential-speeches/state-union-addresses") data = r.content # Content of response soup = Beautiful

浏览 13提问于2021-02-23得票数 0

回答已采纳

1回答

如何使用漂亮的汤上传爬行数据到python中的AZURE BLOB存储中？

、、、、

我正在从一个URL抓取数据，并使用美丽的汤抓取。我希望将该爬网数据作为blob存储到AZURE BLOB存储中。下面是我在本地保存数据时的代码，与直接上传到Azure时执行的操作相同。 soup = BeautifulSoup(urlopen('www.abc.html')) outfile = open('C:\\Users\\ADMIN\\filename.txt','w') data = soup.encode("ascii","ignore") outfile.write(data) outfile

浏览 17提问于2017-08-30得票数 1

2回答

Web抓取-页面源中未显示内容

、、

我正在尝试从一个网站上抓取信息：。所有数据似乎都是在重复卡片中生成的，但我在查看页面源代码时找不到这些信息。我尝试过使用像Selenium这样的web驱动程序，但是仍然不能看到我想要抓取的内容。我希望能够提取每个条目的所有重复数据。 driver = webdriver.Chrome(ChromeDriverManager().install(), options=chrome_options) url = 'https://foreclosures.cabarruscounty.us/' driver.get(url) web_url = driver.page_sou

浏览 1提问于2020-08-04得票数 0

1回答

Web抓取网站上表格上的值。Python、BeautifulSoup、请求

、、、

我是Python的新手，我正在尝试制作web抓取程序来补充我在最近解决的另一个问题中提到的问题(谢谢！)我想让程序抓取一个表中的值。在底部，我有一个剪贴画，上面标有我想要刮的值的圆圈。 ? 指向被抓取的站点的链接： https://www.barchart.com/stocks/quotes/$SPX/technical-analysis 这是我目前拥有的web抓取部分代码的一部分。我用的是精美的汤和点菜。它当前在空闲时返回"None“。我们非常感谢大家在这方面的帮助。非常感谢! import bs4 import requests res = requests.get(

浏览 5提问于2020-10-04得票数 0

1回答

BeautifulSoup -将刮擦的数据保存到行和列中

、

我刚刚开始使用Python进行web抓取，并且正在慢慢地取得进展。我希望有人能帮我。我想把所有的飞机都刮到冰岛飞机登记簿上。我编写了一个脚本，从表中提取所有数据，并将其打印到屏幕上，如下所示： from bs4 import BeautifulSoup import requests import pandas as pd url = "https://www.icetra.is/aviation/aircraft/register/" page = requests.get(url) soup = BeautifulSoup(page.text, 'html.par

浏览 5提问于2022-02-25得票数 0

回答已采纳

1回答

第二个Scraper If语句

、、、、

我正在研究我的第二个Python刮板，并且一直遇到同样的问题。我想抓取在下面的代码中显示的网站。我希望能够输入地块编号，看看他们的属性使用代码是否匹配。但是，我不确定我的刮刀是否能在表中找到正确的行。另外，如果use代码不是3730，也不确定如何使用if语句。任何帮助都将不胜感激。 from bs4 import BeautifulSoup import requests parcel = input("Parcel Number: ") web = "https://mcassessor.maricopa.gov/mcs.php?q=" web_page =

浏览 0提问于2018-01-30得票数 0

2回答

python中div(s)内部的BeautifulSoup

、、

我用类似的问题看了不同的帖子，但是我找不到我想要的特别的价值。我用的是这个代码： import bs4 as bs import urllib2 response = urllib2.urlopen('https://www.meteomedia.com/ca/meteo/quebec/montreal?wx_auto_reload=') html = response.read() soup = bs.BeautifulSoup(html, 'lxml') for div in soup.find_all('div', id="

浏览 4提问于2017-03-23得票数 1

回答已采纳

1回答

LinkedIn抓取未获得所有数据

、、、、

来自linkedin网站，如：我在试着找回与数据相关的链接-li-miniprofile id Class=“新的微型配置文件”容器“href=”.“数据-li-url=“.”数据-li-miniprofile id=“...>” 有.的父母. 到目前为止，我的代码是这样的： import requests from bs4 import beautifulsoup headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHT

浏览 4提问于2016-04-22得票数 0

回答已采纳

2回答

在使用for循环到web刮取时获得无类型错误

、

在我的web抓取技术中使用for循环时，我似乎遇到了一个错误。下面是我的app.py文件代码： page_content = requests.get("http://books.toscrape.com/").content parser = BookParser(page_content) containers = parser.Content() results = [] for container in containers: name = container.getName() link = container.getLink() pr

浏览 1提问于2020-08-23得票数 0

回答已采纳

1回答

BeautifulSoup soup.find不返回值

、、

我正在尝试为一些配置文件抓取一组页面，并且我构建了一个抓取器，它可以遍历csv文件中的urls列表(例如：)，并将它们提供给美丽的灵魂。然而，soup.find不返回值，尽管在只给出一个URL的情况下工作。例如，下面的代码片段可以工作： page = requests.get('www.myurl.org') soup = BeautifulSoup(page.text, 'html.parser') name = soup.title.string specialty = soup.find('p', attrs={'id'

浏览 2提问于2017-12-10得票数 2

5回答

使用python进行Web抓取数据？

、、、

我刚刚开始学习使用Python进行web抓取。然而，我已经遇到了一些问题。我的目标是从fishbase.org ()网上抓取不同金枪鱼物种的名称问题是:我无法提取所有的物种名称。这就是我到目前为止所知道的： import urllib2 from bs4 import BeautifulSoup fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna' page = urllib2.urlopen(fish_url) soup = BeautifulSo

浏览 0提问于2012-03-05得票数 5

1回答

使用列出URL中Excel文件的名称

、、、

我正在尝试使用Python和BeautifulSoup进行web抓取，所以我正在学习教程，但是我仍然坚持在成功的requests.get(url)之后。一旦我定义了我想要提取的元素(在网站上出现的Excel文件名的名称)，基于标记及其类，其中包含“file -id-.”字符串(.意思是文件的id )我得到的都是空列表。我的目标是列出这个url地址中的所有Excel文件名，然后使用for循环来打开它们。所有这些都要从全国劳动局提取具体的月度数据，该部门全年结构相同。 labour_office_web_text = requests.get("url").text soup

浏览 2提问于2021-09-16得票数 1

回答已采纳

1回答

使用find函数确定是否在包含Beautiful Soup的列表中找到值

、

我正在从页面中抓取数据，并尝试使用带有Beautiful Soup的find来确定某个值是否在列表中。因此，如果在页面上找到'4:30‘，则在本例中执行其他操作： myList = ['4:28', '4:29', '4:30'] if str(soup).find(myList) == -1: # continue with the script, continue else # do something else 我也尝试过： if str(soup).find('4:28') == -1 o

浏览 11提问于2020-03-23得票数 0

回答已采纳

3回答

Python中的屏幕抓取

、

虽然我在R中做过一些屏幕抓取，但我对Python中的屏幕抓取这个概念还是个新手。我正在尝试抓取Yelp网站。我在试着抓取yelp搜索返回的每家保险公司的名字。对于大多数抓取任务，我能够执行以下任务，但在解析xml时总是遇到困难。 import urllib2 from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(urllib2.urlopen('http://www.yelp.com/search?find_desc=insurance+agency&ns=1&find_loc=Austin'

浏览 0提问于2011-06-30得票数 3

回答已采纳

1回答

如何通过id抓取文本

、、、

我想每秒重复抓取一个网站并打印它找到的内容-但当它抓取网站时，它会打印'[]‘。我尝试过使用id和class，但似乎都不起作用。另外，我试图抓取的文本每隔几秒钟就会发生变化，这会有问题吗？任何建议都将是有用的，谢谢。 page = driver.get("https://www.memrise.com/course/2021573/french-1-145/garden/speed_review/?source_element=ms_mode&source_screen=eos_ms") page = requests.get("https://www.

浏览 4提问于2019-07-25得票数 1

1回答

Pycharm中未使用的import语句"import lxml“

、、

我的代码： import requests import bs4 import lxml res = requests.get("https://en.wikipedia.org/wiki/Pacific_blue-eye") page = res.text soup = bs4.BeautifulSoup(page, "lxml") 我该如何初始化lxml？我是python和web抓取的新手，所以如果我做了一些愚蠢的事情，请原谅我。提前谢谢。

浏览 235提问于2021-01-06得票数 1

回答已采纳

2回答

在BeautifulSoup中对特定类进行过滤

、、、、

我用BeautifulSoup做了这样的事情： for name in soup.find_all('div','name'): 当我使用这个过滤器时，我的理解是我将得到所有带有属性或类名name的name标记。但是，我不希望div标记的每个实例都具有属性name。我想要某些实例，其中它们定位在HTML文件的某个子树中。更具体地说，标记<u1 class="list-box mb-3 spacer">...<u1\>中的实例，它比我正在寻找的标记高出两个级别。因此，我的问题是，如何用soup.find_all()编写过滤

浏览 8提问于2017-08-15得票数 0

回答已采纳

1回答

Python - IndexError:列表索引超出范围-我搜索了，但我不知道我在看什么

、、、、

我在尝试web抓取时遇到了上面的错误 data = soup.find_all('td', attrs={'class':'DataletData'}) data2 = soup.find_all('td', attrs={'class':'DataletData'}) info4 = data[8] info11 = data2[6] <td valign="top" align="right" bgcolor="#ffffff" nowrap

浏览 0提问于2020-04-06得票数 0

1回答

我正在尝试删除python中以/开头的文本行

、、

我正在尝试抓取一个网站，然后将链接保存到一个文本文件。在文本文件中，我想删除任何不以"/“开头的行。我怎么能这么做呢？这就是我到目前为止所拥有的一切： import requests from bs4 import BeautifulSoup page = requests.get("https://wiki.stardewvalley.net/Stardew_Valley_Wiki") soup = BeautifulSoup(page.content, 'html.parser') wikilinks = [] for con in soup.fi

浏览 16提问于2021-03-05得票数 2

回答已采纳

1回答

使用漂亮汤的数据格式的问题

、、、

我使用漂亮的汤抓取数据创建了一个数据文件。然而，有两个问题。为什么for循环运行2次？如何删除数据帧上的括号？将urllib.request导入为req from bs4 import BeautifulSoup import bs4 import requests import pandas as pd url = "https://finance.yahoo.com/quote/BF-B/profile?p=BF-B" root = requests.get(url) soup = BeautifulSoup(root.text, 'ht

浏览 2提问于2020-09-26得票数 1

回答已采纳

2回答

WebScraping一张表不适用于

、、、、

我只是从web抓取开始，想尝试从这个中抓取表，但是当我开始查找表的类时，它不工作，而是显示了None 以下是我的守则： from bs4 import BeautifulSoup import requests import json url = 'https://www.nseindia.com/market-data/top-gainers-loosers' headers = {'User-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHT

浏览 7提问于2021-04-02得票数 0

回答已采纳

2回答

如何利用Python中的Web抓取构造数据框架

、、、、

我可以通过Python中的web抓取从网页中获取数据。我的数据被提取到一个列表中。但不知道如何将该列表转换为数据框架。有任何方法我可以网络刮和直接获取数据到一个df？这是我的代码： import pandas as pd import requests from bs4 import BeautifulSoup from tabulate import tabulate from pandas import DataFrame import lxml # GET the response from the web page using requests library res = reque

浏览 7提问于2020-04-03得票数 0

回答已采纳

1回答

使用Python进行Web抓取，而无需加载整个页面

、、、

我刚用Python开始了几个web抓取项目。我目前使用lxml，Beautiful Soup和requests模块来抓取网页。我需要知道是否有任何方法可以只从网站获得我们需要的数据，而不是加载整个页面。requests模块执行GET请求并接收整个，bs4，lxml只过滤数据。我尝试过Selenium，但这也打开了浏览器，这不太适合工业项目。我对scrapy和splash一无所知。我也不是在寻找API key方法，它并不适用于所有地方。

浏览 28提问于2021-11-13得票数 0

回答已采纳

1回答

在python中导出多个抓取的文件，从漂亮的汤到cvs文件

、、

我有一个urls的csv列表，我需要将其抓取并组织到csv文件中。我希望每个url中的数据都是csv文件中的一行。我有大约19000个urls需要抓取，但我正在尝试使用少数几个来解决这个问题。我可以抓取文件并在终端中查看它们，但当我将它们导出到csv文件时，只会显示最后一个文件。 urls在csv文件中显示为：我有一种感觉，我的循环做错了什么，但似乎找不到在哪里。任何帮助都将不胜感激！到目前为止，我使用的是以下内容： import urllib from bs4 import BeautifulSoup import csv import re import pandas as pd

浏览 0提问于2016-10-13得票数 0

2回答

从html中抓取表(<tr>和ID方法不起作用)

、

我目前正在尝试从这个网站上做一个表的web抓取：特别是标题为“TANGGAL/NAB/DIVIDEN/日回报(%)”的灰色表。下面是我使用的代码： import requests import urllib.request from bs4 import BeautifulSoup quote_page = "http://pusatdata.kontan.co.id/reksadana/produk/469/Schroder-90-Plus-Equity-Fund" page = urllib.request.urlopen(quote_page) soup = B

浏览 1提问于2018-05-08得票数 0

回答已采纳

2回答

相当于整个网页下载的Python

、

我正在尝试创建一个基本的刮板，它将从Soundcloud上的搜索中抓取用户名和歌曲标题。通过检查我需要的元素(使用Chrome)，我发现我需要找到与title="soundTitle__usernameText“中的每个标记'span‘相关联的字符串。使用BeautifulSoup、urllib2和lxml，我有以下搜索'robert‘的代码： from lxml import html from bs4 import BeautifulSoup from urllib2 import urlopen import requests def search_result

浏览 6提问于2015-12-24得票数 2

回答已采纳

3回答

Webscraping -写入CSV时重复

、、

我正在尝试抓取这个网站上所有帖子的urls：我是python和web抓取的新手，mt代码可以工作，但它会产生很多重复的代码--我做错了什么？ import requests from bs4 import BeautifulSoup import csv startURL = 'http://esencjablog.pl/' f = csv.writer(open('test.csv', 'a+', newline='')) f.writerow(['adres']) def parseLinks(url):

浏览 0提问于2018-04-09得票数 0

1回答

如何使用美丽的汤和熊猫从这个网站上捕获结构化格式的表格？

、、、、

我想从这个网站上抓取表格，因为它每小时都在更新，所以我也想跟踪变化。我尝试过使用selenium抓取数据，但它们都在一个列中，没有任何表。如何使用pandas和Beautiful Soup以结构化的格式抓取表格并跟踪更改。这就是我想弄明白的代码。 import pandas as pd from bs4 import BeautifulSoup soup = BeautifulSoup(html, "html.parser") table = soup.find('table', attrs={'id':'subs noBorders

浏览 7提问于2020-09-23得票数 0

回答已采纳

1回答

抓取网页的策略，最大化收集的信息

、、、

以下是问题所在：用户注册一个网站，可以从8个工作类别中选择一个，或者选择跳过这一步。我想根据电子邮件地址中的域名，将跳过这一步的用户分类为工作类别。当前设置：使用Beautiful Soup和nltk的组合，我抓取主页并查找站点上包含单词"about“的页面的链接。我也刮掉了那一页。我在这篇文章的末尾复制了一小段代码来进行抓取。问题是：我没有得到足够的数据来建立一个好的学习程序。我想知道我的抓取算法是否为成功而设置--换句话说，我的逻辑中是否有任何漏洞，或者有什么更好的方法来确保我有一个很好的文本块来描述公司所做的工作？ (相关)代码： import bs4 as bs im

浏览 0提问于2013-04-04得票数 2

2回答

Python -从图像(alt标记)中刮取文本

、

我一直在使用BeautifulSoup成功地从网站上抓取一些信息，但是我在从图片/链接中抓取"alt“标签时遇到了问题。下面是我迄今为止使用的代码： import requests from bs4 import BeautifulSoup page = "https://www.transfermarkt.com/fc-porto/startseite/verein/720?saison_id=2017" tree = requests.get(page) soup = BeautifulSoup(page.content, 'html.parser

浏览 1提问于2020-04-24得票数 2

回答已采纳