腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
使用
BeautifulSoup
遍历
URLS
进行
网络
抓取
、
、
、
import pandas as pdfrom selenium import webdriver for game_data in pool.imap(parse_data,
urls
):def get_
urls
(browser, landing_page): browse
浏览 7
提问于2021-09-07
得票数 0
回答已采纳
1
回答
如何
使用
BeautifulSoup
遍历
urls
列表以
进行
web
抓取
、
有没有人知道如何从
Beautifulsoup
的同一网站上
抓取
urls
列表?.我提取
urls
列表的代码如下:r1 = requests.get(url1)soup =
Beautiful
浏览 0
提问于2017-06-29
得票数 0
回答已采纳
2
回答
在不重复已保存数据的情况下
抓取
数据
、
我有一个简单漂亮的脚本,它定期从页面中
抓取
数据,并将其保存为json文件。然而,每次运行时,它都会
遍历
同一组
urls
中的许多,并
抓取
大量相同的数据,以及发布的任何新数据。如何避免重复?我已经尝试过对已经被
抓取
的
urls
进行
酸洗,但不知道如何构建逻辑来阻止在
抓取
过程中不必要的重复。targeturl = urlbase+str(i) r = req.content
浏览 22
提问于2019-02-01
得票数 0
2
回答
使用
BeautifulSoup
进行
网络
抓取
、
、
我试图收集一些数据来
进行
训练,但我被卡住了。 我想刮掉日期,而不仅仅是年份,但我现在还不知道该怎么做。下面是我想要摘录的部分: htmlscrape 到目前为止,我的脚本如下: import requestsfrom bs4 import
BeautifulSoup
import re results = requests.ge
浏览 6
提问于2020-10-21
得票数 1
1
回答
BeautifulSoup
找不到所有div标签
、
、
我已经开始了一个私人项目:在Visual Studio Code (1.41.0)中
使用
Python和
BeautifulSoup
进行
网络
抓取
。 我能够
抓取
另一个与我的“问题站点”具有相同结构的站点。但是现在我遇到了,
BeautifulSoup
不能找到所有的div标签(每个站点应该有20个,但我只找到了3个)。我在Stack Overflow上告诉自己,但没有找到解决方案(或者显然不理解它)。在
遍历
每个url以到达每个站点中。(
urls
浏览 36
提问于2020-04-03
得票数 1
回答已采纳
1
回答
从文本文件中读取多个URL,处理每个网页,并
抓取
其中的内容
、
、
、
、
当我尝试运行其他代码时,建议的请求结果显示“请打开JavaScript并刷新页面”,因此我打算
使用
Selenium来解决这个问题。我能够按需要获取所有页面,但无法在每个链接中看到所需的内容。15175/index.htmlhttp://example.com/2267/17895/index.html 这是我
使用
浏览 0
提问于2020-09-27
得票数 1
回答已采纳
1
回答
如何
使用
BeautifulSoup
抓取
网站中的每个页面
、
、
有没有办法
抓取
URL中的每一个页面? 比如在https://gogo.mn/中找到每一篇文章的页面?以下是我到目前为止所掌握的 import urllibimport re
urls
= [] for
浏览 57
提问于2020-08-14
得票数 0
1
回答
在函数编译列表后,是否可以将列标题行添加到函数内的列表列表中?
、
、
、
我有一个函数,它(1)从一个URL列表中
抓取
数据,每个URL都包含表数据。它
使用
BeautifulSoup
抓取
html文本,以收集包含列标题和表行的单独列表。然后,它(2)
遍历
表行list以创建列表列表。最后,(3)我将call函数放在一个for循环中,该循环
遍历
URL列表。(我不能在函数之后将列标题插入到数据帧中,因为column_headers变量是函数的局部变量,所以不能作为全局变量
使用
。这是我到目前为止所掌握的基本情况: my_list_of_
urls<
浏览 4
提问于2017-08-25
得票数 0
9
回答
BeautifulSoup
和Scrapy crawler有什么区别?
、
、
、
我对
BeautifulSoup
比较熟悉,但对Scrapy crawler不太熟悉。
浏览 323
提问于2013-10-30
得票数 146
回答已采纳
2
回答
如何
使用
python (仅限regex)在网站中刮取url链接
、
、
、
要求只对
使用
regex对的评等链接
进行
抓取
,总计是250个评等链接,然后将其保存到txt文件中。我以前试过
使用
beautifulsoup
4,但是它只需要
使用
正则表达式来提取,所以我不确定。我是否
使用
re.findall查找所有链接?from urllib.request import urlopen url = 'https://www.imdb.co
浏览 5
提问于2021-09-17
得票数 0
回答已采纳
3
回答
获取网站的所有链接
、
、
、
您好,我想创建一个迷你爬虫,但不
使用
Scrapy,response = requests.get(url)soup =
BeautifulSoup
href")) for item in homepage_link_list: soup =
BeautifulSoup
浏览 0
提问于2017-05-30
得票数 1
1
回答
通过
BeautifulSoup
进行
网络
抓取
、
string" property="gazorg:name">ISCA SCAFFOLD LIMITED </span> 来自以下代码: import requestsdata.text[:1000] soup =
BeautifulSoup
浏览 17
提问于2019-01-15
得票数 0
1
回答
在web刮取循环中追加新列和行
、
、
我可以在代码的末尾添加什么,以便将项目列表作为第1列附加到dataframe,以及由此产生的从for循环到第2列的
网络
抓取
数据,并将第1列的列表项中的每一项匹配到
网络
抓取
数据?我在试着-url1 A Details我的密码是,import requests from ti
浏览 5
提问于2022-06-01
得票数 0
回答已采纳
3
回答
利用
BeautifulSoup
进行
网络
抓取
、
我试着从黄页上
抓取
数据,网站是我试过这个 parent = soup.find('div',{'class':
浏览 2
提问于2017-05-14
得票数 0
回答已采纳
2
回答
抓取
网站的所有列表,超过页面限制
、
、
我已经完成了
抓取
单个页面并获取单个餐厅的信息的部分。但我遇到了这个问题,网站有超过90万个列表,但页码只有60个,最多只能显示1200个列表。即使我缩小筛选器的范围并
遍历
每个筛选器选项,每个筛选器下的列表仍然会超过1200个。我正在
使用
请求和精美的汤
进行
抓取
。有没有更好或更有效的解决方案的想法?def crawl_listing(url): soup =
BeautifulSoup
(response.content
浏览 16
提问于2019-12-09
得票数 4
1
回答
无法穷尽我的刮刀中
使用
的所有相同
urls
的内容
、
、
、
我
使用
BeautifulSoup
库用python编写了一个
抓取
器,用于解析
遍历
网站不同页面的所有名称。我可以管理它,如果它不是为一个以上的
urls
与不同的分页,这意味着一些
urls
有分页,一些没有,因为内容很少。import requests
浏览 18
提问于2018-05-31
得票数 11
回答已采纳
1
回答
如何配置Scrapy以
使用
BeautifulSoup
解析器
、
、
、
我
使用
BeautifulSoup
的默认html.parser从任何网页中提取数据,没有什么原因让我觉得它比
使用
XPATH/CSS选择器更灵活、更强大。在
抓取
之前,我学习了
使用
BeautifulSoup
进行
网络
抓取
。我想不出一种让Scrapy
使用
bs4作为解析器的方法。有可能吗?
浏览 2
提问于2019-08-18
得票数 0
回答已采纳
1
回答
使用
Python
网络
抓取
电子邮件
、
新的
网络
抓取
(
使用
python),并遇到了一个问题,试图从一个大学的体育系网站的电子邮件。from bs4 import
BeautifulSoup
for line in f.read():
urls</em
浏览 5
提问于2022-08-26
得票数 0
回答已采纳
1
回答
如何从URL中提取数据?
、
、
我的问题是如何
使用
python扫描所有URL,并将文章的标题和文本存储在一个新的文本文件中,并以URL串行id作为其文件名?
浏览 1
提问于2022-05-24
得票数 0
2
回答
使用
BeautifulSoup
进行
网络
抓取
时出错
、
、
我
使用
Chrome的检查功能来定位“next按钮”按钮,该按钮的结构如下然后,我
使用
了Beautiful的find_all方法,并对标签“a”和.I
浏览 1
提问于2018-10-05
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券