腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1480)
视频
沙龙
1
回答
Python
抓取
超过
1个
页面
并
去掉
重复
项
python
、
excel
、
pandas
目前卡住了,我的程序不能刮过第一页,并且在打印到excel时给我
重复
的结果。我想知道如何解决这个问题我一直在看URL,但我坚持为什么我总是得到
重复
的结果,而不是每个职位发布只有一个结果。
浏览 14
提问于2021-02-10
得票数 1
1
回答
BeautifulSoup能理解相对URL吗?
python
、
beautifulsoup
、
urllib2
我正在尝试
抓取
一个使用大量相对URL的站点。一个归档
页面
具有指向许多单独条目的链接,但是URL类似于"../2011/category/example.html“不过,这似乎是一个很大的限制。有没有更干净的方法?
浏览 3
提问于2012-10-26
得票数 2
回答已采纳
1
回答
在数据库中存储结果时,如何避免
重复
存储
python
、
web-scraping
、
scrapy
我只是从scrapy开始,
并
试图开发一个项目,我从网站上
抓取
‘新闻链接’。例如,有一个网站iltalehti.fi,我想要
抓取
他们的新闻,比方说每5分钟。由于每次爬行都会返回
重复
项
,如何避免将这些
重复
项
存储在数据库中?任何帮助都是非常受欢迎的,请注意我对
python
知之甚少!
浏览 20
提问于2020-04-07
得票数 0
2
回答
删除
重复
的x值及其对应的y值
python-2.7
、
duplicates
、
duplicate-removal
、
repeat
我正在使用
python
2.7中的一个点列表,
并
对数据进行一些插值。我的列表中有
超过
5000个点,并且我的列表中有一些
重复
的"x“值。这些
重复
的"x“值具有不同的相应"y”值。我想
去掉
这些
重复
点,这样我的插值函数才能工作,因为如果有
重复
的"x“值与不同的"y”值,它会运行错误,因为它不满足函数的标准。
浏览 4
提问于2015-08-07
得票数 0
1
回答
将大2dvc保存到结构vec的最佳方法
rust
我正在编写的一
项
微服务负责从web中
抓取
数据,然后将其保存在数据库中。web
抓取
的结果是2d向量,其中每一行负责struct的一个属性,我稍后将构造。然后将行保存到变量中。izip!quarter_date, },我的问题是,一个数据表可能有
超过
40个属性,从一个
页面
保存数据可能
超过<
浏览 5
提问于2022-03-24
得票数 0
回答已采纳
1
回答
自定义导航-品牌商店
magento
是否可以在导航菜单中动态填充“逐店”下拉菜单。我试图避免手动添加每个品牌作为一个子类别。
浏览 3
提问于2012-11-14
得票数 1
1
回答
如何在
Python
中将set
抓取
的数据添加到集合中
python
、
for-loop
、
web-scraping
、
set
我正在尝试从网站上
抓取
URL,
并
使用集合将它们发送到.CSV文件,以便删除
重复
的URL。我知道set是什么以及如何创建set,我只是不知道如何将网络
抓取
的数据发送到set。我假设它在for循环中,但我是
Python
的新手,不太确定。urlf.close() 我知道我需要创建一个set()并将URL添加到set中,但我不确定如何创建,并且我被告知它还将消除任何
重复
项
浏览 20
提问于2019-01-08
得票数 0
回答已采纳
3
回答
在无限循环中停止
python
脚本
python
、
loops
、
cron
、
infinite-loop
我正在编写一个
Python
脚本,它将不断地
抓取
数据,但它将花费相当长的时间。有没有安全的方法来阻止长时间运行的
python
脚本?循环将运行
超过
10分钟,我需要一个方法来阻止它,如果我想,在它已经运行之后。我有一个
python
脚本,它从
页面
中收集信息并将其放入队列中。然后,我希望有另一个
python
脚本,它位于
浏览 0
提问于2012-08-10
得票数 3
回答已采纳
2
回答
Python
:从列表中提取列表
并
删除
重复
列表
python
、
list
、
dataframe
'New Zealand'], dtype=object), array(['Indonesia', 'New Zealand'], dtype=object)]['Indonesia', 'New Zealand'] 我尝试删除
重复
项
,但是,例如,对于np.unique(functools.reduce(operato
浏览 0
提问于2017-10-19
得票数 0
回答已采纳
2
回答
使用
python
和sqlite进行Web
抓取
。如何有效地存储
抓取
的数据?
python
、
sqlite
、
web-scraping
我想定期
抓取
一些特定的网页(例如每小时)。我想用
python
来做这件事。
抓取
的结果应该插入到一个SQLite表中。新的信息将被
抓取
,但“旧的”信息也将再次被
抓取
,因为
python
脚本将每小时运行一次。 更准确地说,我想要
抓取
一个体育结果
页面
,其中随着锦标赛的进行,越来越多的比赛结果会发布在同一
页面
上。因此,对于每一次新的
抓取
,我只需要将新的结果输入到SQLite表中,因为旧的结果在一个小时前(甚至更早)已经被
浏览 0
提问于2013-04-17
得票数 5
回答已采纳
1
回答
如何将Keep_Fragments参数设置为True?
scrapy
我正在尝试
抓取
一个使用Js的站点,但scrapy一直将下一个
页面
的url作为副本丢弃,
并
停止
抓取
。根据我的理解,scrapy通过检查请求所指向的资源的散列来检查
重复
项
,默认情况下会丢弃URL中的片段。
浏览 20
提问于2020-09-09
得票数 0
回答已采纳
2
回答
如何用一些字符或字符串替换
重复
的字符
java
我需要将
重复
的字符替换为$%,然后是字符,然后是$%。下面我写的代码给出了"HE$%L$%LO“。
浏览 2
提问于2014-02-07
得票数 0
2
回答
从html
页面
创建csv
parsing
、
html-parsing
有一个网站以html表格的形式显示了大量数据。他们已经对数据进行了分页,所以大约有500页。基本上,我需要写一个脚本来做这样的事情,但在C#中写太夸张了,我正在寻找其他解决方案,有网络经验的人使用: load page from http://x/page_i.html; save results in csv
浏览 5
提问于2011-07-07
得票数 3
2
回答
抓取
内存错误(请求太多)
Python
2.7
python
、
django
、
python-2.7
、
memory
、
scrapy
我一直在运行一个
抓取
爬虫在
抓取
一个大网站,我宁愿不提。我使用教程蜘蛛作为模板,然后创建了一系列启动请求
并
让它从那里爬行,使用如下所示: f = open('zipcodes.csv', 'yield self.make_requests_from_url("http://www.example.com/directory/%05d" % zipcode) 首先,有
超过
浏览 1
提问于2015-06-16
得票数 1
回答已采纳
1
回答
在
页面
上以Ionic语言显示多个列表
angularjs
、
angularjs-directive
、
ionic-framework
我有一个
页面
在我的演示Ionic应用程序,我需要显示两个类别的项目。我已经用这些
项
创建了两个数组,
并
使用collection-repeat来显示这些
项
。列表正确呈现时,我在控制台上看到一个最大堆栈大小
超过
错误。如果我有一个集合-在
页面
上
重复
,则不会出现错误。我创造了一支笔来演示它。有人能帮我吗?
浏览 1
提问于2015-04-17
得票数 0
回答已采纳
1
回答
Pyppeteer for cascading下拉框?
python
、
pyppeteer
我使用
python
和pyppeteer
抓取
网页
并
截取。 包含两个下拉框A和B的
页面
B的选择
项
基于A的选择(动态检索的
项
)。
浏览 27
提问于2020-05-03
得票数 0
1
回答
如何在使用HTML解析器时加载网页上的所有
项
?
c#
、
python
、
html
、
web-scraping
但是,网页一次只加载12
项
,直到用户向下滚动,然后再加载12
项
。在C#或
Python
中,是否有一种方法可以使用任何开源库“查看”所有可用的项目,而无需物理地进入
页面
并向下滚动?使用Chrome的开发工具,我只能“看到”HTML窗口中的12
项
,直到我在网页上向下滚动
并
加载更多。 注意:我在C#/
Python
抓取
方面相对较新,所以我非常感谢任何深入的答案!
浏览 1
提问于2019-05-30
得票数 1
1
回答
python
中的多级/多
页面
web
抓取
python
、
web-scraping
、
beautifulsoup
我对数据
抓取
很陌生,我很少检查过关于刮伤和漂亮汤的资源,但是我正在努力解决下面的问题。现在我需要收集部分的内容-概述,便利设施,规格等,然后回到以前的列表
页面
,并
重复
这对所有项目列出的
页面
。同时,点击next按钮
并
对所有条目
重复
相同的操作。 请告诉我如何在
python
中为这个用例实现一个
抓取
算法。
浏览 1
提问于2019-01-15
得票数 0
回答已采纳
2
回答
从多个文件中删除
python
类似的字符串
python
我已经从不同的网站
抓取
了txt文件,现在我需要将它们粘合成一个文件。在不同的网站上有很多相似的线条。我想
去掉
重复
的部分。similar = True destfile.write(sourceline) 我将为每个源代码运行它,
并
逐行将其写到同一个文件中是否有其他方法可以删除
重复
项
?
浏览 2
提问于2013-06-26
得票数 1
回答已采纳
1
回答
在
Python
中对列表中数字的二进制搜索
python
、
algorithm
我在研究列表中一个数字的二进制搜索,
并
偶然发现了。 列表可以是升序或降序,也可以是float of int数。仿冒密码的执行方法是什么?我在windows上使用
pyt
浏览 3
提问于2016-03-15
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
资深技术咖详述 Python 爬虫的多线程实现思路
python爬虫基础入门,八个常用爬虫技巧介绍和注意事项!
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
Python爬虫很简单,真正的这些隐藏的知识你都懂吗?
爬虫你可能都会用,但是背后的架构你真的懂了吗?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券