腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
抓取
一个
有
多个
表
而
没有
类
的
网站
、
、
我需要刮掉底部标有'Fielding‘
的
桌子。我无法通过
网站
上
的
第一张桌子。该站点
有
一些奇怪
的
HTML,似乎不容易
抓取
。Link here 我尝试使用带有
类
'stats-fullbox clearfix‘
的
表
,但它只给出了第
一个
表
。如果我使用“stats-wrapper clearfix”,它会给我整个
网站
。我只需要最底层
的
定位桌。我将对所有的
浏览 9
提问于2019-04-30
得票数 2
回答已采纳
2
回答
是否需要为每个目标站点编写
抓取
器?
、
、
、
、
我是个刮东西
的
新手。我写了
一个
刮板 它将擦伤 Maplin 商店。我使用Python语言和BeautifulSoup来
抓取
存储。我想问
的
是,如果我需要清理一些其他
的
eCommerce商店(比如亚马逊、Flipkart),我是否需要定制我
的
代码,因为它们具有不同
的
HTML ( 和 名字是不同
的
,另外还有其他东西)。所以,我写
的
刮板不适用于其他eCommerce商店。 我想知道比价
网站
是如何从所有在线商店中
抓取
浏览 40
提问于2014-12-28
得票数 7
回答已采纳
1
回答
从
多个
页面中
抓取
表格
、
我想从
网站
上
抓取
数据。这个
表
扩展到
多个
页面上,但是url
没有
像page=3这样
的
东西,所以我不能遍历各个页面来获取数据。 有
没有
其他方法可以像这样
抓取
数据,
而
不会在不同
的
页面上循环?如何从python访问不同
的
页面来
抓取
数据?
浏览 19
提问于2018-03-04
得票数 0
1
回答
如果
网站
有
多个
表
,如何
抓取
特定
的
表
?
、
、
我最近写了
一个
脚本,从
一个
网站
()上
抓取
一些财务数据,这样我就可以跟踪项目交易量
的
变化。我过去常常使用它从'table20‘中获取值。soup = BeautifulSoup(current_page, 'html.parser')但是,tbl现在是<em
浏览 0
提问于2020-03-23
得票数 0
6
回答
给定
多个
类
的
BeautifulSoup findAll()?
、
、
、
我想从
一个
网站
上
抓取
一个
项目列表,并保留它们呈现
的
顺序。这些项目组织在
一个
表
中,但它们可以是两个不同
的
类
之一(按随机顺序)。有
没有
办法提供
多个
类
,并让BeautifulSoup4找到任何给定
类
中
的
所有项?我需要实现这段代码所做
的
事情,除了保持项目在源代码中
的
顺序: items = soup.findAll(Tr
浏览 1
提问于2013-09-11
得票数 74
2
回答
如何阻止在Drupal
网站
上
的
抓取
?
、
我
有
一个
Drupal
网站
,上面有大量
的
数据。但是,由于Drupal
类
和ID非常一致,人们可以很容易地
抓取
站点。 我在为失败
的
事业
而
战吗?我不确定“
抓取
”是否是官方术语,但我指的是人们编写脚本
的
过
浏览 2
提问于2015-03-23
得票数 0
回答已采纳
6
回答
谷歌机器人开始爬行
的
地方?
、
、
比方说,如果我注册了
一个
域名,并已发展成为
一个
完整
的
网站
。Googlebot从哪里以及如何知道新
的
域名已经上线?它总是从域注册
表
开始吗?如果它从注册
表
开始,这是否意味着任何人都可以完全访问注册
表
的
数据库?谢谢你
的
见解。
浏览 4
提问于2010-04-26
得票数 3
回答已采纳
2
回答
使用单个Web爬虫以预定义
的
格式
抓取
多个
带有附件
的
网站
?
、
、
我
有
一份大概
的
清单。52个
网站
,这导致大约。150个我需要
抓取
的
网页。基于我
的
无知和缺乏研究,我开始构建每个网页
的
爬虫,这开始变得难以完成和维护。根据我到目前为止
的
分析,我已经知道我想在每个网页上
抓取
什么信息,很明显,这些
网站
都有自己
的
结构。在积极
的
一面,我注意到每个
网站
的
网页在其
网站
结构中都有一些共性。我
的
百
浏览 3
提问于2019-04-29
得票数 0
1
回答
我不太明白如何解析雅虎NHL页面
、
、
到目前为止,我
的
代码如下:from urllib.request import urlopen for yspscores in td:我一直遇到
的
问题是,雅虎页面的超文本标记语言在以下上下文中包含
表
数据:<td class="yspscore
浏览 1
提问于2013-08-13
得票数 1
4
回答
递归函数MultiThreading,一次执行
一个
任务
、
、
、
我正在写
一个
程序来
抓取
网站
。
抓取
功能是
一个
递归
的
功能,可能会消耗更多
的
时间来完成,所以我使用多线程来执行
多个
网站
的
抓取
。我真正需要
的
是,完成爬行
一个
网站
后,它调用下
一个
(这应该是在Queqe),
而
不是
多个
网站
爬行在同一时间。我使用
的
是C#和ASP.NET。
浏览 0
提问于2010-06-14
得票数 1
回答已采纳
1
回答
R:使用RSelenium捕获删除线文本
、
、
、
我正在使用RSelenium从
一个
网站
抓取
数据
表
。使用循环遍历
多个
页面。下面的代码成功地
抓取
了
有
问题
的
表
(尽管它丢失了UTFC格式),但是在某些情况下,
表
中
的
条目具有“删除线”,在这种情况下,忽略删除线并执行操作
的
代码是不存在
的
。示例:有
没有
人可以帮助我,当我刮桌子时,如何通过信息来保持罢工?我
的</em
浏览 15
提问于2020-11-18
得票数 1
回答已采纳
4
回答
如何
抓取
我自己
的
网站
?
我继承了
一个
旧
的
经典ASP
网站
进行修改。虽然
没有
事先要求,但我想删除一些旧
的
“孤立”页面。由于某些原因,老开发人员决定创建文件
的
多个
实例,
而
不是使用源代码管理(例如,index-t.asp, index-feb09.asp, index-menutest.asp)。我想知道是否有人知道
一个
程序或
网站
,可以为我
抓取
我自己
的
网站
?它可能需要能够
抓取
公
浏览 0
提问于2009-05-03
得票数 1
回答已采纳
2
回答
我多长时间可以用PHP
抓取
一个
网站
?
、
、
我想构建
一个
Android应用程序,它可以用php
抓取
一个
网站
,并从我
抓取
的
网站
中
的
一个
很小
的
span标签中获取信息。谢谢!
浏览 4
提问于2012-01-03
得票数 0
2
回答
Node.js或
、
、
、
、
我试图做
一个
应用程序,需要从
多个
网站
大量
的
数据
抓取
。我试着用Ruby来
抓取
网站
,但是像机械化这样
的
宝石似乎只会刮静态页面,
而
不是动态内容。对于这些语言中
的
哪一种,或者我应该在这个项目中使用
的
任何一种语言,我
有
几个问题(我正在考虑使用Node,因为应用程序中
的
许多元素必须是实时
的
)。 是否可以使用Ruby和/或Node来
抓取<
浏览 1
提问于2013-01-24
得票数 1
回答已采纳
1
回答
尝试从
多个
网站
访问<p>
、
、
、
、
正如标题所述,我正在尝试从
多个
网站
获取所有文本数据。tree.find_class(“the class that contains <p>”)Print(data) 然而,这只适用于
一个
网站
,因为它先
抓取
上面的
类
,然后
抓取
文本。我不愿意进入每个
网站
并找到文本数据所在
的
类
。有
没有
办法在所有
网站<
浏览 11
提问于2021-06-12
得票数 0
回答已采纳
1
回答
在sql中创建列数可变
的
表
、
、
我在
抓取
一个
网站
。并且有几个表表示
一个
观察值
的
属性。我想知道把图片放在这篇文章中是否有用,因为这是韩语字母
表
。我插入解释图片。
有
很多桌子。我将重塑这些
表
为
一个
表
,这将是
一个
记录和
多个
字段。但我
有
个问题。
有
几个
表
的
列数是可变
的
。我希望将这些数据存储在sql中。据我所知,sql
浏览 2
提问于2017-04-06
得票数 1
1
回答
我需要帮助将列表存储为表格和迭代
抓取
页面
、
、
因此,我设法
抓取
这个电子商务
网站
,我
有
for-loop
的
产品名称和产品价格。我
的
第
一个
问题是如何将这两个
表
合并在
一个
表
中。第二个问题是如何在
网站
的
不同页面或
多个
urls中迭代这些内容。对于这个愚蠢
的
问题,我很抱歉,但我只是开始使用python,因为我想把它作为
一个
更好
的
抓取
工具来使用,
而
R是我
浏览 10
提问于2021-03-05
得票数 0
回答已采纳
1
回答
XStream中
的
序列化问题
、
、
、
、
所以我在序列化我
的
Java代码时遇到了问题。这是
一个
网络
抓取
器,从我们学校
的
选课
网站
上为我正在做
的
一个
项目
抓取
页面,我试图将指定科目的所有课程信息输出到
一个
XML文件中。问题是,有些
类
有
多个
部分,
而
不是仅仅重写这些文件名和浪费空间,我希望它们都保留在XML中称为"Sections“
的
部分下。你知道我
的
代码出了什么问题吗
浏览 2
提问于2012-10-26
得票数 1
回答已采纳
1
回答
这是
一个
特性还是
一个
bug?Windows 10 python time.sleep()在时钟滚动到午夜时挂起
、
python 3.6.7
浏览 1
提问于2020-03-20
得票数 1
1
回答
是否
有
可能自动从
网站
上
抓取
文章- Python & Beautiful
、
、
、
、
我试图制作
一个
脚本从不同
的
网站
抓取
一两篇文章(仅限于文章URL),我制作了
一个
Python脚本,使用BeautifulSoup获取
网站
的
HTML,通过它
的
类
名查找
网站
的
Navbar菜单,并在每个
网站
部分循环,问题是每个
网站
对于Navbar菜单和它
的
部分都有不同
的
类
名或Xpath。有
没有
办法让脚
浏览 1
提问于2018-04-25
得票数 0
回答已采纳
点击加载更多
相关
资讯
如何用Python 编写知乎爬虫?So easy!
搜索引擎的网络爬虫、网页蜘蛛爬行知识分享,robots协议能阻止站点被爬吗
谈谈scrapy抓取豆瓣影评
异步非阻塞爬虫:tornado
批量自动万能采集器分享
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
云直播
活动推荐
运营活动
广告
关闭
领券