腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
网络
抓取
每个
论坛
的
帖子
(
Python
,
Beautifulsoup
)
、
、
、
你好,又一次,堆叠
的
伙伴们。简短描述..我正在使用
Python
从一个汽车
论坛
上
抓取
一些数据,并将所有数据保存到CSV文件中。在其他stackoverflow成员
的
帮助下,他们设法在所有页面中挖掘特定主题,收集
每个
帖子
的
日期、标题和链接。我还有一个单独
的
脚本,我现在正在艰难地实现(对于找到
的
每个
链接,
python
都会为它创建一个新
的
汤,
抓取
所有<e
浏览 56
提问于2017-03-02
得票数 1
回答已采纳
1
回答
用
BeautifulSoup
- HTML不同格式从CSS类链接中提取标题
、
我刚开始使用
BeautifulSoup
进行
网络
抓取
,并遇到了以下问题:我试图从
论坛
上
抓取
帖子
,我想提取
帖子
的
标签。下面是标记类
的
HTML代码:这种格式在整个表单中是一致
的
。我试着用汤
的
浏览 5
提问于2021-06-08
得票数 0
回答已采纳
1
回答
BeautifulSoup
-
抓取
论坛
页面
、
、
我正在尝试
抓取
论坛
讨论并将其导出为csv文件,其中包含诸如“线程标题”、“用户”和“
帖子
”之类
的
行,其中“
帖子
”是
每个
人
的
实际
论坛
帖子
。我完全是
Python
和
BeautifulSoup
的
初学者,所以我真的很难使用它! 我目前
的
问题是,在csv文件中,所有文本被拆分为每行一个字符。外面有没有人能帮我?如果有人能帮我一把,那就太好了!下面是我一直使用
的</em
浏览 2
提问于2014-02-24
得票数 9
回答已采纳
2
回答
Web使用漂亮汤在
Python
中
抓取
论坛
帖子
,而lxml无法获得所有的
帖子
、
、
、
我遇到了一个让我发疯
的
问题。我是一个
网络
抓取
新手,我正在通过尝试刮一个
论坛
帖子
的
内容来练习
网络
抓取
,也就是人们所做
的
实际文章。我已经将文章隔离到我认为包含
的
文本中,即div id="post message_ 2793649“(参见附件Screenshot_1以获得更好
的
html表示)。 上面的例子只是许多
帖子
中
的
一个。
每个
帖子
浏览 4
提问于2016-08-03
得票数 1
回答已采纳
1
回答
我正在尝试
抓取
的
一个网站正在根据它是否检测到爬虫程序来更改标签/ it。有没有办法避免这种情况?
、
、
、
、
我正在尝试写一个基本
的
网络
搜索器,它可以浏览
论坛
,进入
每个
帖子
,然后检查
帖子
是否有任何github链接,并存储这些链接。我将此作为我研究
的
一部分,以了解人们如何使用和实现智能设备例程。我是
网络
抓取
的
新手,并且一直在使用
BeautifulSoup
,但我遇到了一个奇怪
的
问题。首先,我
的
程序: from bs4 import
BeautifulSoup
浏览 19
提问于2019-02-12
得票数 0
1
回答
用
BeautifulSoup
抓取
Pantip
论坛
、
、
、
我正试着从上搜索一些
论坛
帖子
我想让
每个
帖子
文本,连同它
的
作者和时间戳到一个csv文件。 我正在使用“美丽汤”,但无可否认,我是
python
和web
抓取
的
完全初学者。我现在拥有的代码获得了所需
的
字段,但只用于第一篇文章。我需要那条线上所有
帖子
的
信息。我尝试了soup.find_all()和soup.select(),但是我没有得到想要
的
结果。下面是我使用
的
浏览 1
提问于2016-10-14
得票数 1
回答已采纳
1
回答
美丽
的
汤刮帖,其中有一个词
python
,没有
python
标签
、
、
、
这是我第一次在
网络
上
抓取
,下面是我编写
的
代码:import requests time.sleep(3) # Sleep to avoid getting rate limited again soup =
BeautifulSoup
time.sleep(3) # Extra
浏览 0
提问于2020-11-09
得票数 2
回答已采纳
1
回答
减少创建
BeautifulSoup
对象时
的
开销
、
我对
网络
抓取
和使用
Python
语言中
的
BeautifulSoup
库非常陌生,所以我遇到了这个问题:我必须从大量
的
网页中下载和
抓取
内容,下载它们不是问题,但是当我为
每个
页面创建一个
BeautifulSoup
对象(为了解析它)时,我
的
程序变得非常慢。我在问您,是否有一种方法可以减少这种开销,并且可能避免为我要分析
的
每个
新页面创建一个不同
的
全新
Beautiful
浏览 0
提问于2020-10-08
得票数 0
2
回答
从
论坛
中
的
主题中提取特定字段
、
、
、
、
我正在做一个数据挖掘项目,我需要在
论坛
的
线程中分析讨论
的
进展。我感兴趣
的
是提取信息,如
帖子
的
时间,
帖子
作者
的
统计数据(no。
帖子
、加入日期等)、
帖子
文本等。但是,在使用标准
的
抓取
工具(如
python
中
的
Scrapy )时,我需要编写正则表达式来检测页面的html源中
的
这些字段。由于这些标签随
论坛
类型
的<
浏览 1
提问于2011-04-02
得票数 0
回答已采纳
2
回答
将字符串添加到
BeautifulSoup
刮取
的
输出
、
、
我正在
抓取
一个
论坛
页面的
帖子
和相关链接使用
BeautifulSoup
。 我想要
的
页面上
的
链接在表单r"xx/res/[0-9]{5}.html$"中。到目前为止,在我
的
BeautifulSoup
对象中很好地找到了它们,在我
的
print:/xx/res/83071.html中返回了以下链接格式。我现在想把域名'‘放在
每个
结果
的</e
浏览 2
提问于2017-02-19
得票数 1
回答已采纳
5
回答
如何刮一个需要使用
python
和漂亮汤登录
的
网站?
、
、
如果我想刮一个需要首先使用密码登录
的
网站,我如何开始使用
beautifulsoup
4库使用
python
来
抓取
它呢?以下是我所做
的
网站,不需要登录。from bs4 import
BeautifulSoup
url = urllib2.urlopen("http://www.
python
.org")content = url.read() soup =
BeautifulSou
浏览 12
提问于2014-04-16
得票数 93
回答已采纳
1
回答
如何从URL中提取数据?
、
、
我有一个xlsx文件,其中许多URL与它们
的
串行ids一起存储。这些URL中
的
每一个都重定向到有文章
的
网页。我
的
问题是如何使用
python
扫描所有URL,并将文章
的
标题和文本存储在一个新
的
文本文件中,并以URL串行id作为其文件名?
浏览 1
提问于2022-05-24
得票数 0
1
回答
用查克比实现
BeautifulSoup
到Android
、
、
、
目前,我正在使用Android和
BeautifulSoup
开发一个
网络
抓取
应用程序。我如何实现?从bs4导入
BeautifulSoup
python
{ pip{ insta
浏览 2
提问于2021-12-03
得票数 3
回答已采纳
1
回答
从flashscore.com
抓取
分数
、
、
、
我用
Python
构建了一个机器人来在flashscore.com上
抓取
分数,但是从站点中
抓取
的
数据加载到它
的
列表框中非常缓慢。我对selenium
的
速度很好奇,所以我做了一个按钮来打印所有的文本,结果显示速度很快,所以一定是if elif块减慢了程序
的
速度。
浏览 0
提问于2015-05-09
得票数 8
1
回答
在用
python
进行web
抓取
时如何计算缩写列表
的
长度
、
、
我正在使用
python
3练习
网络
抓取
,遇到了我从未见过
的
情况。例如,对于
每个
帖子
,可以有多个答复,如果有多个答复,则可以有多页答复。,对于最初
的
帖子
,目前有8页
的
回复。 我在寻找一个用列表来表示页面数量
的
类,这样我就可以遍历它了。下面是我
的
简化代码,但发现有些元素在列表中是缩写
浏览 1
提问于2020-04-07
得票数 2
回答已采纳
2
回答
使用
Python
在youtube中搜索打开第一个视频
、
、
、
我试了试,但不知道如何打开第一个视频。此代码在浏览器中打开搜索。 words = search.split() link += i + "+" webbrowser.open_new(link[:-1])
浏览 1
提问于2020-04-10
得票数 3
1
回答
如何使
python
代码请求URL并根据需要从网页中刮取信息
、
、
我正在使用一个简单
的
python
代码来尝试获取一个URL,并在这个URL
的
主页/根页面下刮出
每个
网页中提到
的
所有其他URL(如果有的话,所有html子页面)。, "127.0.0.1", 9050) req = urllib2.Request('http://www.
python
.org')我发现我必须在
Python
/sit
浏览 1
提问于2017-12-19
得票数 0
回答已采纳
1
回答
从Tableau公共仪表板中
抓取
数据
、
、
、
我对从网站上
抓取
数据
的
世界非常陌生,不知道如何从使用Tableau Public
的
网站上
抓取
数据 网址:https://showmestrong.mo.gov/data/public-health/我一直在阅读一些关于如何检查元素并找到其中
的
表
的
资料,但我不知所措。我试过在
Python
、requests和
BeautifulSoup
中使用,但不知道如何工作。/data/public-h
浏览 17
提问于2020-09-30
得票数 1
回答已采纳
1
回答
避免使用优美汤和urllib.request下载图片
、
、
、
我使用
BeautifulSoup
('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是,当我在Acitivity中查看
网络
部分时,我看到
python
下载了很多数据。这意味着不仅文本被下载,而且图像也被下载。 在使用
BeautifulSoup
进行
网络
抓取
时,有可能避免下载图片吗?
浏览 2
提问于2016-04-03
得票数 0
回答已采纳
5
回答
如何从其他网站获取数据?
、
、
、
我想创建一个网站,从其他网站提取信息,并将它们打印到我
的
网站上,我正在进行研究,所以我想听取一些意见,这个项目的最佳解决方案是什么?我听说
Python
使用解析器可以做到这一点,我只是想知道我应该走哪条路,应该使用哪种语言?
浏览 1
提问于2013-06-14
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python网络爬虫抓取网页的含义和URL基本构成
Python网络爬虫:抓取网页的含义和URL基本构成
如何判断网络论坛中的帖子是真实用户还是自动发帖机所为?
Python爬虫入门,快速抓取大规模数据
如何利用Python网络爬虫抓取微信朋友圈的动态
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券