网络抓取每个论坛的帖子(Python，Beautifulsoup)_Python标签内的BeautifulSoup网络抓取_使用Python和BeautifulSoup实现网络抓取表格 - 腾讯云开发者社区

、、、

你好，又一次，堆叠的伙伴们。简短描述..我正在使用Python从一个汽车论坛上抓取一些数据，并将所有数据保存到CSV文件中。在其他stackoverflow成员的帮助下，他们设法在所有页面中挖掘特定主题，收集每个帖子的日期、标题和链接。我还有一个单独的脚本，我现在正在艰难地实现(对于找到的每个链接，python都会为它创建一个新的汤，抓取所有<e

浏览 56提问于2017-03-02得票数 1

回答已采纳

1回答

用BeautifulSoup - HTML不同格式从CSS类链接中提取标题

、

我刚开始使用BeautifulSoup进行网络抓取，并遇到了以下问题:我试图从论坛上抓取帖子，我想提取帖子的标签。下面是标记类的HTML代码：这种格式在整个表单中是一致的。我试着用汤的

浏览 5提问于2021-06-08得票数 0

回答已采纳

1回答

BeautifulSoup -抓取论坛页面

、、

我正在尝试抓取论坛讨论并将其导出为csv文件，其中包含诸如“线程标题”、“用户”和“帖子”之类的行，其中“帖子”是每个人的实际论坛帖子。我完全是Python和BeautifulSoup的初学者，所以我真的很难使用它！我目前的问题是，在csv文件中，所有文本被拆分为每行一个字符。外面有没有人能帮我？如果有人能帮我一把，那就太好了！下面是我一直使用的</em

浏览 2提问于2014-02-24得票数 9

回答已采纳

2回答

Web使用漂亮汤在Python中抓取论坛帖子，而lxml无法获得所有的帖子

、、、

我遇到了一个让我发疯的问题。我是一个网络抓取新手，我正在通过尝试刮一个论坛帖子的内容来练习网络抓取，也就是人们所做的实际文章。我已经将文章隔离到我认为包含的文本中，即div id="post message_ 2793649“(参见附件Screenshot_1以获得更好的html表示)。上面的例子只是许多帖子中的一个。每个帖子

浏览 4提问于2016-08-03得票数 1

回答已采纳

1回答

我正在尝试抓取的一个网站正在根据它是否检测到爬虫程序来更改标签/ it。有没有办法避免这种情况？

、、、、

我正在尝试写一个基本的网络搜索器，它可以浏览论坛，进入每个帖子，然后检查帖子是否有任何github链接，并存储这些链接。我将此作为我研究的一部分，以了解人们如何使用和实现智能设备例程。我是网络抓取的新手，并且一直在使用BeautifulSoup，但我遇到了一个奇怪的问题。首先，我的程序： from bs4 import BeautifulSoup

浏览 19提问于2019-02-12得票数 0

1回答

用BeautifulSoup抓取Pantip论坛

、、、

我正试着从上搜索一些论坛帖子我想让每个帖子文本，连同它的作者和时间戳到一个csv文件。我正在使用“美丽汤”，但无可否认，我是python和web抓取的完全初学者。我现在拥有的代码获得了所需的字段，但只用于第一篇文章。我需要那条线上所有帖子的信息。我尝试了soup.find_all()和soup.select()，但是我没有得到想要的结果。下面是我使用的

浏览 1提问于2016-10-14得票数 1

回答已采纳

1回答

美丽的汤刮帖，其中有一个词python，没有python标签

、、、

这是我第一次在网络上抓取，下面是我编写的代码：import requests time.sleep(3) # Sleep to avoid getting rate limited again soup = BeautifulSouptime.sleep(3) # Extra

浏览 0提问于2020-11-09得票数 2

回答已采纳

1回答

减少创建BeautifulSoup对象时的开销

、

我对网络抓取和使用Python语言中的BeautifulSoup库非常陌生，所以我遇到了这个问题:我必须从大量的网页中下载和抓取内容，下载它们不是问题，但是当我为每个页面创建一个BeautifulSoup对象(为了解析它)时，我的程序变得非常慢。我在问您，是否有一种方法可以减少这种开销，并且可能避免为我要分析的每个新页面创建一个不同的全新Beautiful

浏览 0提问于2020-10-08得票数 0

2回答

从论坛中的主题中提取特定字段

、、、、

我正在做一个数据挖掘项目，我需要在论坛的线程中分析讨论的进展。我感兴趣的是提取信息，如帖子的时间，帖子作者的统计数据(no。帖子、加入日期等)、帖子文本等。但是，在使用标准的抓取工具(如python中的Scrapy )时，我需要编写正则表达式来检测页面的html源中的这些字段。由于这些标签随论坛类型的<

浏览 1提问于2011-04-02得票数 0

回答已采纳

2回答

将字符串添加到BeautifulSoup刮取的输出

、、

我正在抓取一个论坛页面的帖子和相关链接使用BeautifulSoup。我想要的页面上的链接在表单r"xx/res/[0-9]{5}.html$"中。到目前为止，在我的BeautifulSoup对象中很好地找到了它们，在我的print：/xx/res/83071.html中返回了以下链接格式。我现在想把域名'‘放在每个结果的</e

浏览 2提问于2017-02-19得票数 1

回答已采纳

5回答

如何刮一个需要使用python和漂亮汤登录的网站？

、、

如果我想刮一个需要首先使用密码登录的网站，我如何开始使用beautifulsoup4库使用python来抓取它呢？以下是我所做的网站，不需要登录。from bs4 import BeautifulSoup url = urllib2.urlopen("http://www.python.org")content = url.read() soup = BeautifulSou

浏览 12提问于2014-04-16得票数 93

回答已采纳

1回答

如何从URL中提取数据？

、、

我有一个xlsx文件，其中许多URL与它们的串行ids一起存储。这些URL中的每一个都重定向到有文章的网页。我的问题是如何使用python扫描所有URL，并将文章的标题和文本存储在一个新的文本文件中，并以URL串行id作为其文件名？

浏览 1提问于2022-05-24得票数 0

1回答

用查克比实现BeautifulSoup到Android

、、、

目前，我正在使用Android和BeautifulSoup开发一个网络抓取应用程序。我如何实现？从bs4导入BeautifulSoup python { pip{ insta

浏览 2提问于2021-12-03得票数 3

回答已采纳

1回答

从flashscore.com抓取分数

、、、

我用Python构建了一个机器人来在flashscore.com上抓取分数，但是从站点中抓取的数据加载到它的列表框中非常缓慢。我对selenium的速度很好奇，所以我做了一个按钮来打印所有的文本，结果显示速度很快，所以一定是if elif块减慢了程序的速度。

浏览 0提问于2015-05-09得票数 8

1回答

在用python进行web抓取时如何计算缩写列表的长度

、、

我正在使用python3练习网络抓取，遇到了我从未见过的情况。例如，对于每个帖子，可以有多个答复，如果有多个答复，则可以有多页答复。，对于最初的帖子，目前有8页的回复。我在寻找一个用列表来表示页面数量的类，这样我就可以遍历它了。下面是我的简化代码，但发现有些元素在列表中是缩写

浏览 1提问于2020-04-07得票数 2

回答已采纳

2回答

使用Python在youtube中搜索打开第一个视频

、、、

我试了试，但不知道如何打开第一个视频。此代码在浏览器中打开搜索。 words = search.split() link += i + "+" webbrowser.open_new(link[:-1])

浏览 1提问于2020-04-10得票数 3

1回答

如何使python代码请求URL并根据需要从网页中刮取信息

、、

我正在使用一个简单的python代码来尝试获取一个URL，并在这个URL的主页/根页面下刮出每个网页中提到的所有其他URL(如果有的话，所有html子页面)。, "127.0.0.1", 9050) req = urllib2.Request('http://www.python.org')我发现我必须在Python/sit

浏览 1提问于2017-12-19得票数 0

回答已采纳

1回答

从Tableau公共仪表板中抓取数据

、、、

我对从网站上抓取数据的世界非常陌生，不知道如何从使用Tableau Public的网站上抓取数据网址：https://showmestrong.mo.gov/data/public-health/我一直在阅读一些关于如何检查元素并找到其中的表的资料，但我不知所措。我试过在Python、requests和BeautifulSoup中使用，但不知道如何工作。/data/public-h

浏览 17提问于2020-09-30得票数 1

回答已采纳

1回答

避免使用优美汤和urllib.request下载图片

、、、

我使用BeautifulSoup ('lxml'解析器)和urllib.request.urlopen()从一个网站获取文本信息。但是，当我在Acitivity中查看网络部分时，我看到python下载了很多数据。这意味着不仅文本被下载，而且图像也被下载。在使用BeautifulSoup进行网络抓取时，有可能避免下载图片吗？

浏览 2提问于2016-04-03得票数 0

回答已采纳

5回答

如何从其他网站获取数据？

、、、

我想创建一个网站，从其他网站提取信息，并将它们打印到我的网站上，我正在进行研究，所以我想听取一些意见，这个项目的最佳解决方案是什么？我听说Python使用解析器可以做到这一点，我只是想知道我应该走哪条路，应该使用哪种语言？

浏览 1提问于2013-06-14得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云