腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
当
url
不变
时
,
Python
web
抓取
、
、
、
我正在做一个使用
python
的
web
抓取
项目。我应该
抓取
这个网站(https://www.fec.gov/data/receipts/?我遇到的问题是,当你浏览数据
时
,
url
永远不会改变。我不确定如何继续。根据我的经验,
当
抓取
一个网站
时
,
当
切换页面
时
,
url
会发生变化,但这个不会改变页面,它只是浏览同一页面上的数据。谢谢!
浏览 28
提问于2020-11-10
得票数 2
2
回答
Bloom Filters如何帮助确定
URL
是否已经爬行?
、
我不断听到Bloom Filter在
web
爬行中是如何有用的,特别是在确定
URL
是否已经被爬行时(因为Bloom Filter在测试集成员资格
时
是内存高效的)。然而,在
web
爬行的用例中,如果遇到几乎无限数量的
URL
,那么位/桶的数量不是需要很多吗?尤其是,如果你是Google或一个搜索引擎,每天都在试图
抓取
数据。所以我的问题是,
当
URL
的数量不断增加,而存储桶的数量保持
不变
时
,Bloom过滤器如何帮助确定
浏览 0
提问于2013-06-15
得票数 1
6
回答
如何对页面导航涉及动态加载的网站进行爬行
、
我想
抓取
一个网站有多个页面,
当
一个页码被点击
时
,它是动态loaded.How的屏幕
抓取
吗?如果有人在这方面帮我的话就太好了。PS:
当
点击不同的页面
时
,
URL
保持
不变
。
浏览 2
提问于2013-01-24
得票数 3
1
回答
BeautifulSoup
web
抓取
多个页面
URL
不变
、
、
、
、
当
使用漂亮的汤来进行网络刮擦评论
时
,
当
涉及到“所有观众”的评论
时
,我有一个问题。更改审阅列表页
时
,
URL
不会更新。type=user 单击下一步
时
,不会更改
URL
。Network Method Post 当我查看GET操作的头部
时
,我看到了一个请求
URL
,当我尝试它包含我需要的所有信息
时
,问题是我不知道他们进入下一个页面的命名约定。Request
URL
page 1->2
浏览 21
提问于2019-09-20
得票数 1
回答已采纳
1
回答
web
爬虫如何构建
URL
目录以
抓取
所需内容
、
、
、
有三个问题: 哪里是学习更多关于网络爬虫的最好的地方?
浏览 2
提问于2018-10-11
得票数 1
1
回答
Excel从动态表格中获取
web
数据
、
但是,该表是动态的(
URL
不变
),所以当我设置连接
时
,Excel只
抓取
前50行。它没有识别出表中还有另外6个页面我也需要
抓取
。谁知道如何使用excel中的“获取数据”-> "From
Web
“功能从如上所示的动态表格中导入数据?
浏览 1
提问于2019-10-25
得票数 1
1
回答
当
url
不改变
时
进行
Web
抓取
、
、
、
我正在为亚马逊的个人资料销售商做网络
抓取
,就像这样: 我用的是PHP和Goutte。问题是,在注释部分,当我在"Siguiente“(下一个)上克里克
时
,
url
不会改变,并且我不能刮下一个注释。
浏览 0
提问于2019-08-27
得票数 1
2
回答
维基百科允许通过Google App Engine获取
URL
吗?
、
、
、
、
我正在编写一个
Python
web
应用程序,其中我计划利用维基百科。
当
尝试一些网址
抓取
代码
时
,我能够同时
抓取
谷歌和脸书(通过谷歌应用引擎服务),但当我试图
抓取
wikipedia.org
时
,我收到了一个异常。有人能证实维基百科不接受这些类型的页面请求吗?代码片段(这是
Python
!)google.appengine.ext.webapp import template class MainHandler(webapp.Request
浏览 3
提问于2011-09-25
得票数 4
回答已采纳
2
回答
如何在带有R的网站的搜索框中直接书写
、
、
我正在寻找一种方法来做网页
抓取
后,在其搜索框中键入。让我用一个例子更好地解释:我正在寻找一个R函数,它直接在amazon主页上写入单词"notebook“,这样我就可以随后对生成的页面进行
web
抓取
。也许我可以用
Python
来做?感谢大家的帮助。
浏览 2
提问于2021-01-25
得票数 1
3
回答
Python
Web
抓取
:
URL
分页
、
、
现在,代码成功地
抓取
并写入csv,但只对
url
中的指定页面执行(参见下面的
url
链接)。有人能帮我们在这个工具上实现分页吗?我尝试过.format()和for循环方法,但没有成功。我的代码如下。import matplotlib.pyplot as pltfrom urllib.request import urlopen base_
url
whitmer_donor_cache', backend='sqlite', expire
浏览 2
提问于2021-03-07
得票数 1
2
回答
在
python
中进行when
抓取
时
,是否有一种只提取段落字符串的方法?
、
、
我们想知道
当
web
在
python
中
抓取
时
,是否有一种只提取段落字符串的方法?代码:from bs4 import BeautifulSoup
url
.status_code
url
.headers soup = BeautifulSoup(c, "
浏览 1
提问于2022-03-09
得票数 0
1
回答
从单个MongoDB队列获取信息的多个工作人员
、
、
、
、
我正在用
Python
构建一个
web
爬虫,使用MongoDB来存储一个队列,其中包含所有要爬行的
URL
。我将有几个独立的工人,将
抓取
URL
。每当工作人员完成
URL
抓取
时
,它将在MongoDB集合"queue“中发出请求,以获得要爬行的新
URL
。我的问题是,既然会有多个爬虫,我如何确保两个爬虫器不会同时查询数据库并获得相同的
URL
来
抓取
? 非常感谢你的帮助
浏览 0
提问于2014-03-29
得票数 0
回答已采纳
1
回答
如何使用
python
从网站上检索值
、
我想知道有没有什么方法可以制作一个
python
脚本来从网站上获取一个所说的值,在我的例子中是一个离线数字,它在一个每5分钟刷新一次的网站上。我想要设置它,如果该值增加,它将发送给我一封电子邮件。但是,在做诸如清洁之类的日常工作
时
,携带笔记本电脑是非常令人恼火和恼人的。我对
python
知之甚少,所以如果有人能给我指出正确的方向,我将不胜感激。。提醒一下,我真的是
python
的新手。div[2]/div[3]/div/div/div[2]/div[4]/div[2]&
浏览 3
提问于2020-10-01
得票数 0
1
回答
如何使用
Python
从这个表中
抓取
数据?
、
、
、
我如何在
Python
中实现这一点?在图片中,显示了我想要
抓取
的数据。不幸的是,这些数据并没有包含在源代码中。from selenium import webdriverfrom bs4 import BeautifulSoup browser.get(
浏览 6
提问于2021-12-03
得票数 0
5
回答
如何从其他网站获取数据?
、
、
、
我听说
Python
使用解析器可以做到这一点,我只是想知道我应该走哪条路,应该使用哪种语言?
浏览 1
提问于2013-06-14
得票数 4
3
回答
无法下载网页的完整源代码
我正在尝试使用
python
请求库来
抓取
网页。但我无法下载完整的html源代码。当我使用我的
web
浏览器检查元素
时
,它给出了完整的html,我相信它可以用于
抓取
,但当我使用
python
请求库访问这个
url
时
,那些包含数据的html标记就消失了,我无法从这些标记中
抓取
数据。下面是我的示例代码:from bs4 import BeautifulSoup as BSimport
浏览 5
提问于2019-07-30
得票数 1
1
回答
Python
/Seleium:使用
不变
的
url
抓取
网站
、
、
该网页有一个
不变
的
URL
,但我想刮所有61页在该网页上。我现在的代码只给我第一页的名字。我想要提取更多的信息;但是,在尝试提取更多的信息之前,我觉得我需要正确的循环。
浏览 1
提问于2016-12-22
得票数 0
回答已采纳
3
回答
如何点击在href中有javascript:__doPostBack的链接?
、
、
我正在用
python
编写一个带有模块'mechanize‘的屏幕
抓取
器脚本,我想在一个在href中有javascript:__doPostBack的链接上使用mechanize.click_link()__name__>>> next_link Link(base_
url
='http://www.citius.mj.pt/Portal/consultas/ConsultasDistribuicao.aspx'
浏览 1
提问于2009-09-13
得票数 7
回答已采纳
1
回答
当
web
抓取
多个
URL
时
,For循环不起作用。仅
抓取
一个
URL
、
、
、
我试图通过网络
抓取
不同类型的产品的多个网站。我可以从网上
抓取
一个网址。我创建了一个列表,通过
web
抓取
多个urls,然后将产品名称和价格导出到CVL文件中。然而,它似乎没有像需要的那样工作。product_list_limit=all'] headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0;Win64; x64; rv:71.0) Gecko/20
浏览 5
提问于2020-01-10
得票数 1
回答已采纳
2
回答
尝试将数据从网站加载到json文件中。
、
、
当我尝试这段代码
时
,没有什么问题:import json print(r.text)import json
url
="http
浏览 2
提问于2020-05-10
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券