Web抓取新文章

文章/答案/技术大牛

发布

1回答

、

在过去的几个月里，我一直在学习python和BeautifulSoup函数，试图将其主要用于网络抓取新闻文章，以供我自己研究之用。然而，我一直在尝试从中文网站上打印出漂亮的文本内容。我应该使用哪个标签来获取文章的内容？

浏览 29提问于2017-12-20得票数 1

2回答

面向大数据的Java Spring Server端REST流

、、、、

我目前有一个程序，它通过REST (Spring)接收来自用户的查询，并在数据库中运行它，然后通过REST返回结果。我遇到的问题是，如果用户查询大量数据，服务器在某一时刻会遇到内存不足错误。

浏览 0提问于2018-06-21得票数 2

1回答

如何使用newspaper3k重读网站上的新闻

、、、

我正在尝试创建一个数据集来对新闻文章进行情感分析。我正在使用Newspaper3k从网站上抓取文章。我抓取了一些网站，但没有正确存储文章，因此我不能使用它们。当我再次尝试抓取相同的网站时，它只抓取新的文章，而不是已经抓取的文章。有没有办法把已经刮过的文章再刮一遍？

浏览 0提问于2018-06-15得票数 2

1回答

我一直在尝试从一个给定的新闻网站访问链接。我发现代码运行得很好，但唯一的问题是，它输出"javascript:void();“以及所有其他链接。请让我知道我可以做哪些更改，这样我就不会在输出中遇到带有所有其他链接的"javascript:void();“。代码如下： from bs4 import BeautifulSoupimport requests parser = 'html.parser' # or 'lxml' (preferred) or

浏览 16提问于2020-11-20得票数 1

0回答

抓取-按日期抓取链接

、、、

有没有可能通过与链接相关的日期来抓取链接？我正在尝试实现一个每日运行的爬行器，它将文章信息保存到数据库中，但我不想重新抓取我以前已经抓取过的文章--即昨天的文章。但是，这依赖于根据先前保存在数据库中的检查新请求。我假设，如果每天的抓取持续一段时间，那么数据库将需要大量的内存开销来存储已经抓取的请求指纹。因此，给出一个像这样的网站上的文章列表，我想要抓取今天发布的所有文章6/

浏览 6提问于2017-06-15得票数 1

回答已采纳

1回答

HTML请求不会在浏览器中将所有内容显示为html

、、

我试图获得一个使用Python和urllib的网站的评论。我能够得到html，但是我注意到我使用python得到的html的注释部分丢失了。<div data-bv-product-id="6810124" data-bv-show="reviews" id="BVReviewsContainer">( div标签之间的内容为空)<div data-bv-product-id="6810124" dat

浏览 0提问于2018-11-06得票数 0

1回答

如何在j2ee中获取rss中的新闻内容

、、

我正在开发一个网站，应该得到其他网站的新闻内容，类似于。但不需要重定向到主持人那里去阅读新闻内容。现在我想问的是，如果有必要直接访问这些网站，从不同的网站获取整个新闻内容的最好方法是什么？对不起，因为我的英语不太好，如果我的问题不够清楚，我可以提前解释，谢谢。

浏览 5提问于2014-08-14得票数 1

回答已采纳

4回答

用web抓取来填写(和检索)搜索表单？

、、、

例如，我有一个想要获取DOI(数字对象标识符)的期刊论文列表；为此，我将手动转到期刊文章搜索页面(例如，)，键入作者/标题/卷(等)。然后从返回的结果列表中找到文章，选择DOI并将其粘贴到我的参考列表中。我经常使用R和Python进行数据分析(我的灵感来自于RCurl上的一篇文章)，但对web协议了解不多……这样的事情是可能的吗(比如使用Python的BeautifulSoup?)我只是对学习web抓取和web抓取工具感兴趣，就像完

浏览 1提问于2009-07-23得票数 8

回答已采纳

1回答

Python web抓取与请求和漂亮的汤被需要的javascript阻止

、、、

我正在尝试从一个网站上抓取文本。我使用简单的代码: requests.get(url_here)。我的代码直到最近才能正常工作。

浏览 11提问于2020-12-19得票数 1

1回答

Web抓取新闻文章和关键字搜索

、、、、

我有一个代码，让我在网页上的新闻文章标题。我使用了一个for循环，在这个循环中我获得了4个新闻网站的标题。我还实现了一个单词搜索，它会显示使用“冠状病毒”一词的文章数量。我想要的词搜索，它告诉我的文章数量与词“冠状病毒”在每个网站。现在我正在得到“冠状病毒”这个词在所有网站中被使用的次数。请帮助我，我必须提交这个项目很快。

浏览 42提问于2020-12-03得票数 0

回答已采纳

2回答

Neo4j:如果节点已经在数据库中，如何避免再次创建它？

、

我有一个python脚本，可以在最后进行web抓取并生成一个csv。我使用这个csv导入neo4j数据库中的数据。例如，第一个csv提供5行，我将其插入到Neo4j中。接下来，新的抓取提供了2行，因此csv现在有7行。例如，当我尝试创

浏览 4提问于2020-12-08得票数 1

回答已采纳

3回答

如何捕获web应用程序屏幕以在出错时附加到电子邮件？

、、、、

我正在开发一个web应用程序，我们想要捕获屏幕(应用程序当前屏幕或整个屏幕)，并将其附加到为错误消息自动生成的电子邮件中。我已经看过一些关于如何在winform应用中做到这一点的文章，但还没有真正关于如何在web应用中做到这一点的文章。这是相同的过程吗？任何网站，有关于如何在web应用程序中实现这一点的有用步骤，我们将非常感谢。编辑:我们有没有可能实现类似于屏幕抓取的东西？我不太熟悉屏幕抓取可以做的所有事情，所以也欢迎任何建议。

浏览 1提问于2009-10-31得票数 0

回答已采纳

1回答

如何抓取动态内容加载的网站？

、、、、

如何使用动态内容加载来抓取网站，就像forbes.com文章一样，但不使用apache http客户端中的web驱动程序(它很慢)。我试过获取sitemap.xml，但他们的网站地图只包含最新的文章，我想从非常旧的文章中获取信息。此外，我想要一个更通用的解决方案，并且web驱动程序(我现在使用selenium和phantomJS )是特定于站点的，并且速度很慢。

浏览 4提问于2016-01-06得票数 0

1回答

抓取文章链接，然后抓取链接以获取文章作者

、、

所以我使用scrapy--> 抓取了这个链接现在我有了链接，那么如何抓取每个链接中的数据呢？

浏览 4提问于2020-09-08得票数 1

2回答

使用Python和从“纽约邮报”中提取文章

我试图通过Python上的纽约时报API (有关恐怖袭击的文章)创建一个文本文档集。articles = api.search( q = 'terrorist attack') print(articles['response'],['do

浏览 7提问于2016-10-17得票数 0

回答已采纳

1回答

使用mysql查询删除相似条目

我编写了一个从网站抓取新闻标题的网络抓取器，但有时出版商会犯一些错误&编辑标题，但当时我的抓取器已经在我的数据库中创建了以前标题的条目，并为新标题创建了一个新条目，新标题与旧标题相似(90-95%相同)这两篇文章都指向同一篇文章，但我的抓取器为它们创建了单独的条目

浏览 0提问于2018-04-02得票数 0

2回答

如何在newspaper3k中访问缓存项目

、、、

报纸是一个很棒的库，它允许抓取web数据，但是我对文章缓存有点困惑。它缓存文章以加速操作，但是我如何访问这些文章呢？我有这样的东西。现在，当我对同一组文章运行该命令两次时，第二次得到的返回类型是None。如何访问这些以前缓存的文章进行处理？

浏览 18提问于2018-07-24得票数 4

回答已采纳

1回答

Web抓取:像Chrome一样更新数据？

、、、、

我在Python中遇到的所有关于web抓取的文章都引用了BeautifulSoup和Selenium作为从网页中检索HTML和JavaScript内容的主要工具。然而，我还没有找到一种方法来自动更新从同一网页接收的数据，而不需要向它发送新的请求。

浏览 9提问于2020-02-17得票数 0

回答已采纳

2回答

如何使用python从网站的搜索栏中提取数据？

、

我想从一个包含许多医生和医院名称的网站中提取数据，我想做一些评估，所以我决定使用搜索栏，但不幸的是，似乎无法得到我想要的结果！from bs4 import BeautifulSoupimport urllib.request types_of_doctor = ['dermatologist', 'gynecologist', 'paediatric-surgeon', 'cardiologist', 'diabetologists', 'eye-

浏览 3提问于2018-06-11得票数 2

回答已采纳

2回答