使用BeautifulSoup遍历URLS进行网络抓取

文章/答案/技术大牛

发布

2回答

、、、

import pandas as pdfrom selenium import webdriver for game_data in pool.imap(parse_data, urls):def get_urls(browser, landing_page): browse

浏览 7提问于2021-09-07得票数 0

回答已采纳

1回答

如何使用BeautifulSoup遍历urls列表以进行web抓取

、

有没有人知道如何从Beautifulsoup的同一网站上抓取urls列表？.我提取urls列表的代码如下：r1 = requests.get(url1)soup = Beautiful

浏览 0提问于2017-06-29得票数 0

回答已采纳

2回答

在不重复已保存数据的情况下抓取数据

、

我有一个简单漂亮的脚本，它定期从页面中抓取数据，并将其保存为json文件。然而，每次运行时，它都会遍历同一组urls中的许多，并抓取大量相同的数据，以及发布的任何新数据。如何避免重复？我已经尝试过对已经被抓取的urls进行酸洗，但不知道如何构建逻辑来阻止在抓取过程中不必要的重复。targeturl = urlbase+str(i) r = req.content

浏览 22提问于2019-02-01得票数 0

2回答

使用BeautifulSoup进行网络抓取

、、

我试图收集一些数据来进行训练，但我被卡住了。我想刮掉日期，而不仅仅是年份，但我现在还不知道该怎么做。下面是我想要摘录的部分： htmlscrape 到目前为止，我的脚本如下： import requestsfrom bs4 import BeautifulSoupimport re results = requests.ge

浏览 6提问于2020-10-21得票数 1

1回答

我已经开始了一个私人项目:在Visual Studio Code (1.41.0)中使用Python和BeautifulSoup进行网络抓取。我能够抓取另一个与我的“问题站点”具有相同结构的站点。但是现在我遇到了，BeautifulSoup不能找到所有的div标签(每个站点应该有20个，但我只找到了3个)。我在Stack Overflow上告诉自己，但没有找到解决方案(或者显然不理解它)。在遍历每个url以到达每个站点中。(urls

浏览 36提问于2020-04-03得票数 1

回答已采纳

1回答

从文本文件中读取多个URL，处理每个网页，并抓取其中的内容

、、、、

当我尝试运行其他代码时，建议的请求结果显示“请打开JavaScript并刷新页面”，因此我打算使用Selenium来解决这个问题。我能够按需要获取所有页面，但无法在每个链接中看到所需的内容。15175/index.htmlhttp://example.com/2267/17895/index.html 这是我使用

浏览 0提问于2020-09-27得票数 1

回答已采纳

1回答

如何使用BeautifulSoup抓取网站中的每个页面

、、

有没有办法抓取URL中的每一个页面？比如在https://gogo.mn/中找到每一篇文章的页面？以下是我到目前为止所掌握的 import urllibimport reurls = [] for

浏览 57提问于2020-08-14得票数 0

1回答

在函数编译列表后，是否可以将列标题行添加到函数内的列表列表中？

、、、

我有一个函数，它(1)从一个URL列表中抓取数据，每个URL都包含表数据。它使用BeautifulSoup抓取html文本，以收集包含列标题和表行的单独列表。然后，它(2)遍历表行list以创建列表列表。最后，(3)我将call函数放在一个for循环中，该循环遍历URL列表。(我不能在函数之后将列标题插入到数据帧中，因为column_headers变量是函数的局部变量，所以不能作为全局变量使用。这是我到目前为止所掌握的基本情况： my_list_of_urls<

浏览 4提问于2017-08-25得票数 0

9回答

BeautifulSoup和Scrapy crawler有什么区别？

、、、

我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

如何使用python (仅限regex)在网站中刮取url链接

、、、

要求只对使用regex对的评等链接进行抓取，总计是250个评等链接，然后将其保存到txt文件中。我以前试过使用beautifulsoup4，但是它只需要使用正则表达式来提取，所以我不确定。我是否使用re.findall查找所有链接？from urllib.request import urlopen url = 'https://www.imdb.co

浏览 5提问于2021-09-17得票数 0

回答已采纳

3回答

获取网站的所有链接

、、、

您好，我想创建一个迷你爬虫，但不使用Scrapy，response = requests.get(url)soup = BeautifulSouphref")) for item in homepage_link_list: soup = BeautifulSoup

浏览 0提问于2017-05-30得票数 1

1回答

通过BeautifulSoup进行网络抓取

、

string" property="gazorg:name">ISCA SCAFFOLD LIMITED </span> 来自以下代码： import requestsdata.text[:1000] soup = BeautifulSoup

浏览 17提问于2019-01-15得票数 0

1回答

在web刮取循环中追加新列和行

、、

我可以在代码的末尾添加什么，以便将项目列表作为第1列附加到dataframe，以及由此产生的从for循环到第2列的网络抓取数据，并将第1列的列表项中的每一项匹配到网络抓取数据？我在试着-url1 A Details我的密码是，import requests from ti

浏览 5提问于2022-06-01得票数 0

回答已采纳

3回答

利用BeautifulSoup进行网络抓取

、

我试着从黄页上抓取数据，网站是我试过这个 parent = soup.find('div',{'class':

浏览 2提问于2017-05-14得票数 0

回答已采纳

2回答

抓取网站的所有列表，超过页面限制

、、

我已经完成了抓取单个页面并获取单个餐厅的信息的部分。但我遇到了这个问题，网站有超过90万个列表，但页码只有60个，最多只能显示1200个列表。即使我缩小筛选器的范围并遍历每个筛选器选项，每个筛选器下的列表仍然会超过1200个。我正在使用请求和精美的汤进行抓取。有没有更好或更有效的解决方案的想法？def crawl_listing(url): soup = BeautifulSoup(response.content

浏览 16提问于2019-12-09得票数 4

1回答

无法穷尽我的刮刀中使用的所有相同urls的内容

、、、

我使用BeautifulSoup库用python编写了一个抓取器，用于解析遍历网站不同页面的所有名称。我可以管理它，如果它不是为一个以上的urls与不同的分页，这意味着一些urls有分页，一些没有，因为内容很少。import requests &#

浏览 18提问于2018-05-31得票数 11

回答已采纳

1回答

如何配置Scrapy以使用BeautifulSoup解析器

、、、

我使用BeautifulSoup的默认html.parser从任何网页中提取数据，没有什么原因让我觉得它比使用XPATH/CSS选择器更灵活、更强大。在抓取之前，我学习了使用BeautifulSoup进行网络抓取。我想不出一种让Scrapy使用bs4作为解析器的方法。有可能吗？

浏览 2提问于2019-08-18得票数 0

回答已采纳

1回答

使用Python网络抓取电子邮件

、

新的网络抓取(使用python)，并遇到了一个问题，试图从一个大学的体育系网站的电子邮件。from bs4 import BeautifulSoup for line in f.read(): urls</em

浏览 5提问于2022-08-26得票数 0

回答已采纳

1回答

如何从URL中提取数据？

、、

我的问题是如何使用python扫描所有URL，并将文章的标题和文本存储在一个新的文本文件中，并以URL串行id作为其文件名？

浏览 1提问于2022-05-24得票数 0

2回答

使用BeautifulSoup进行网络抓取时出错

、、

我使用Chrome的检查功能来定位“next按钮”按钮，该按钮的结构如下然后，我使用了Beautiful的find_all方法，并对标签“a”和.I

浏览 1提问于2018-10-05得票数 1

回答已采纳

点击加载更多