腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5698)
视频
沙龙
2
回答
调整
python
(
漂亮
的
汤
)
代码
以
抓取
多个
页面
、
、
非常感谢您
的
支持,我正在使用
Python
BeautifulSoup: 我只需要在
多个
页面
上运行这段
代码
(也就是在第1页到1290页上
抓取
相同
的
数据)。我是新手,我可以想象它不是那么复杂,因为URL是非常直接
的
页码 from bs4 import BeautifulSoup as soup from urllib.request import urlopen
浏览 29
提问于2020-07-28
得票数 0
3
回答
如何在
python
中并行
抓取
多个
html
页面
?
、
、
、
、
我正在用Django web框架用
Python
制作一个网络
抓取
应用程序。我需要用
漂亮
的
汤
库
抓取
多个
查询。下面是我写
的
代码
的
快照: r = requests.get(url) links= soup.find_all("a", {"class":&qu
浏览 0
提问于2017-05-29
得票数 2
1
回答
用精美的
汤
从HTML中
抓取
表格
、
、
、
我正在尝试用
python
3从中
抓取
数据。该网站包含了基于冠军
的
FPS多人游戏“圣骑士”
的
玩家数据。我想要得到一个基于冠军
的
球员
的
统计数据,如网站所示。我面临
的
问题是,当我用Chrome检查
页面
源
代码
时,我得到了包含"table“标签
的
代码
,它是干净
的
,我可以很容易地
抓取
它:但是当我创建soup对象时,我得到了一个不
浏览 2
提问于2018-06-26
得票数 0
1
回答
为什么通过
漂亮
汤
导入
的
html与实际
的
html不同?
、
嗨,我正在制作一个程序,它在堆栈溢出中为搜索词
抓取
结果。我需要知道
抓取
的
最大
页面
,但是通过开发工具查看
的
html结构和通过
漂亮
汤
获得
的
html信息是不同
的
。网址: result = requests.ge
浏览 1
提问于2020-08-30
得票数 1
3
回答
如何使用Beautiful从
python
代码
中获得javascript函数
的
结果?
、
、
、
、
我想从一个使用
Python
中
的
“美丽
汤
”
的
网站上
抓取
数据。网站根据用户
的
选择更改下拉菜单
的
值。在更改下拉菜单
的
值时没有api调用。仔细看一下,我注意到有一个javascript函数在内部调用,
以
获取下拉菜单
的
值。我
的
问题是下拉菜单
的
值不在
页面
源中。它们是通过调用js函数获得
的
,但是没有api调用,我不能请求那个值。有人能告诉我如何从
pyt
浏览 7
提问于2014-04-06
得票数 1
回答已采纳
1
回答
使用
Python
使用Javascript实现Web
抓取
页面
、
、
、
我正在尝试使用
Python
抓取
一个urls列表
的
网页。我可以使用
Python
和
漂亮
的
汤
来
抓取
第一个
页面
,但是如果url列表很长,它会使用下面的JavaScript继续到第二个
页面
。
浏览 0
提问于2013-12-05
得票数 0
1
回答
使用
python
的
Webscraping元素
、
、
、
、
我目前正在使用
漂亮
的
汤
尝试和网络刮一个网站
的
数据,但是
python
模块正在阅读该
页面
的源
代码
。但是,在
页面
的源
代码
中,我所需要
的
信息并不存在,但是,如果我在chrome中右键单击
页面
并检查元素,它就是。 我想知道
python
模块是否可以从网页中
抓取
元素,而不是源
代码
。在“美丽
的
汤
”中,我试图搜索像这样
的
浏览 2
提问于2020-08-28
得票数 0
回答已采纳
2
回答
有没有像KimonoLabs这样
的
刮板应用程序?
我已经用过很多次刮刮汤和
漂亮
的
汤
,但是找到和服解决方案要容易得多,也更快。唯一
的
问题是,有时作业确实需要一些
调整
,这是不可能
的
(例如,使用独特
的
模式爬行)。有没有其他
的
解决方案可以结合易用性和可选
的
复杂性?主要是我想定义一个
页面
抓取
模板使用WYSIWYG接口,然后
以
编程方式编写爬虫。
浏览 0
提问于2014-10-06
得票数 0
1
回答
有没有人可以指导我如何使用
python
收集标签中
的
url地址列表?
、
、
、
、
“
的
列表,并希望将它们存储在csv文件中。我可以手动做,如使用excel,从感兴趣
的
网站复制urls,并逐个粘贴它们。但这是单调乏味
的
,而且肯定会花费很多时间。 有没有人能建议和指导一种更快
的
方法?
浏览 15
提问于2020-07-23
得票数 2
1
回答
返回RSS
的
所有
页面
、
、
我正在使用
python
从rss
页面
抓取
xml。我正在使用
漂亮
的
汤
来解析xml。每个URL
的
数据使用urllib2下载并保存在变量xml中 然后,我
的
python
代码
使用
漂亮</e
浏览 0
提问于2014-12-04
得票数 0
1
回答
具有动态href
的
BeautifulSoup
、
、
尝试
python
3.4
漂亮
汤
从网页
抓取
一个压缩文件,这样我就可以解压缩并下载到文件夹中。我可以让
漂亮
的
汤
打印()
页面
上
的
所有href,但我想要一个特定
的
href,
以
结尾,"=Hospital_Revised_Flatfiles.zip“。这有可能吗?到目前为止,我只有网址上
的
href列表。 文件
的
全部内容是,但是中间
的
疯狂内容在更新文件
浏览 3
提问于2016-03-22
得票数 0
回答已采纳
1
回答
使用BeautifulSoup
抓取
的
数据与源
代码
不匹配
、
、
、
我是网络
抓取
的
新手。我已经看过一些关于如何使用
漂亮
的
汤
来
抓取
网站
的
教程。作为练习,我想从一个房地产网站上提取数据。我想要
抓取
的
特定
页面
是这个:我遇到
的
第一个问题是,使用经典
的</e
浏览 4
提问于2021-05-02
得票数 1
3
回答
无法从网站获取数据,因为URL在获取数据时不会更改,因此数据表为空
、
、
、
我刚刚开始使用
python
进行网络
抓取
。我使用了两个库来
抓取
:请求和
漂亮
的
汤
。我打开给定
的
URL,并在该
页面
上传递所需数据
的
日期间隔。当我按submit时,URL不会改变,但是数据在
页面
上。然后我就可以访问那个
页面
了。")all = soup.find_all("table"
浏览 3
提问于2017-02-20
得票数 1
回答已采纳
2
回答
从特定
页面
抓取
某些URL
、
、
我正在尝试从一个
页面
中
抓取
所有的URLS,这些URLS都与一个主题相关。urls = soup.find_all('a', href=True)我想要
抓取
所有玩家
的
名字以及他们
的
参考
代码
,例如 <a href="/pl
浏览 0
提问于2020-08-12
得票数 0
5
回答
LinkedIn网络
抓取
、
、
、
最近,我发现了一个用于连接到新R包 API
的
LinkedIn。不幸
的
是,从一开始,LinkedIn API似乎是非常有限
的
;例如,您只能获得公司
的
基本数据,这与个人
的
数据是不同
的
。我想获取某一公司所有员工
的
数据,您可以使用在现场手动操作,但是通过API是不可能
的
。 如果import.io是识别LinkedIn分页,那么它将是完美的(参见
页面
末尾)。是否有人知道适用于LinkedIn站点当前格式
的
任何web
抓取
浏览 0
提问于2015-05-13
得票数 11
回答已采纳
2
回答
用硒美
汤
寻找元素
、
、
、
一般来说,我对网络
抓取
和数据科学是个新手。根据不同
的
消息来源,美丽
的
汤
比硒更快
的
抓取
网页。我正在写一些在社交媒体评论中爬行
的
代码
。我使用Selenium自动单击检索旧注释
的
按钮,并使用以下命令从注释中获取文本我知道feature没有允许我直接输入xpath来查找元素
的
特性在这种情况下,我是否应该摆脱对xpath
的
依赖,并尝试更轻松地使用
浏览 18
提问于2019-07-24
得票数 0
回答已采纳
1
回答
机械地打开
多个
页面
、
、
、
我正在使用机械化和
漂亮
的
汤
来创建一个
python
脚本来从网页中提取一些数据。
抓取
工作正常,但我遇到
的
问题是移动到
多个
页面
。在机械循环中,有没有办法在
页面
之间移动?以下是我尝试过
的
方法但它会转到下一页,这很好,但如果“下一步”按钮不存在,它就会死掉。我不确定如何做一个更好
的
循环,或者在运行上面的fo
浏览 4
提问于2011-03-04
得票数 2
回答已采纳
1
回答
抓取
url不变
的
分页表
、
、
、
我正在尝试从下面的网页中
抓取
表格中
的
: 有没有人能带我到正确
的</em
浏览 26
提问于2021-05-25
得票数 1
1
回答
利用
漂亮
汤
刮网时
的
颜色编码
、
、
我正在使用
Python
中
的
漂亮
汤
来做web
抓取
。网站上
的
文字有红色字体颜色
的
名字,我需要有颜色
代码
。我正在使用网站上
的
文本作为我
的
培训数据
的
纳(仅为正确
的
名称)。我怎么才能用
漂亮
汤
得到颜色码呢?现在我
的
代码
看起来是这样
的
。
浏览 2
提问于2021-08-07
得票数 1
回答已采纳
2
回答
urllib.request + BeautifulSoup不能刮某些
页面
,而只能刮根页
、
、
、
、
我在从url 中
抓取
信息时遇到了问题,但是由于网站处理事情
的
方式,BeautifulSoup只是从根
页面
收集数据,也就是。<main class="site-content" id="content"> <div class="loading-spinner" data-request="eps
浏览 0
提问于2017-01-26
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
零基础入门Python爬虫,一文掌握爬虫核心原理!
40行代码就能学会爬虫?有了这碗“汤”你也可以!
告别单调工作系列——利用python“拯救”漂亮妹子
python之“会爬的虫子”
利用Python和Repl.it进行网页信息爬取
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券