如何让爬虫从相对路径中提取信息？

文章/答案/技术大牛

发布

1回答

python、beautifulsoup

我正在试着做一个简单的爬虫，从这个链接的“看关于”部分提取链接 https://en.wikipedia.org/wiki/Web _ 抓取 ..。这是总共19个链接，我已经设法使用美丽汤提取。然后我想使用同样的19个链接，并从中提取更多的信息。例如，19个链接中每个链接的第一段。

浏览 21提问于2021-03-01得票数 0

回答已采纳

1回答

Python站点爬虫，使用Scrapy保存文件

python、jsp、web-crawler、scrapy

我正在尝试编写一个爬虫，它将接受某个搜索条目，并保存一大堆与结果相关的.CSV文件。然后在web浏览器中提示您保存相关的.csv文件。我如何写我的爬虫能够加载这个页面和下载文件？或者，有没有一种方法可以捕获指向信息的静态链接？

浏览 0提问于2011-08-19得票数 2

1回答

如何使用powershel从网站拉取特定信息

powershell、scripting

如何从特定信息中提取信息？例如，如果我只想从的“版本”部分拉出信息，我该怎么做？

浏览 0提问于2020-03-05得票数 0

2回答

是否可以将SEO相关内容存储在数据库中

zend-framework、seo

</body>理想情况下，我想把<title>和<meta name="description">等在这个zend布局页面，然后从我的数据库中动态拉取这些标记的内容，这取决于内容来自哪个页面不幸的是，虽然google很乐意给我提供大量关于如何编写title/description/etc标签的信息，但我还不能确认是否可以从数据库中提取它们。是吗?我是不是想错了？我

浏览 2提问于2013-04-28得票数 0

回答已采纳

6回答

爬虫vs刮板

web-crawler、terminology、scraper

有人能在范围和功能方面区分爬虫和刮板吗？

浏览 0提问于2010-07-09得票数 71

回答已采纳

2回答

Xapian的爬虫/解析器

solr、web-crawler、xapian

我想实现一个搜索引擎，应该爬行一组网站，从网页中提取特定的信息，并创建该特定信息的全文索引。爬虫/解析器与Xapian集成有哪些选项？与开源爬虫/解析器集成，Solr是比Xapian更好的选择吗？

浏览 1提问于2008-12-01得票数 2

5回答

Python中的多线程爬虫真的可以提高速度吗？

python、multithreading、gil

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

2回答

如何建立一个基于Scrapy的网络爬虫来永久运行？

python、web-crawler、scrapy

我想建立一个基于Scrapy的网络爬虫，从几个新闻门户网站抓取新闻图片。我想让这个爬虫：这意味着它将定期重新访问一些门户页面，以获得更新。我读过Scrapy文档，但没有发现与我列出的内容相关的东西(也许我不够小心)。这里有人知道怎么做吗？或者给出一些想法/例子。谢谢!

浏览 8提问于2010-02-28得票数 11

回答已采纳

2回答

阻止爬网程序跟踪javascripts中的链接

javascript、jquery、web-crawler

为了支持远程jQuery模板，我在javascripts中提供了一些链接。somepath/template_1.html';//and so on现在，爬虫正在尝试跟踪这些链接如何防止这种情况发生？

浏览 0提问于2013-02-22得票数 0

2回答

如何使用C#获取HTML元素坐标？

c#、html、mshtml、web-crawler

我计划开发网页爬虫，这将从网页中提取html元素的坐标。我发现可以使用"mshtml“程序集获取html元素坐标。现在，我想知道是否可能，以及如何从网页中只获取必要的信息( html，css)，然后通过使用适当的mshtml类获得所有html元素的正确的坐标？。谢谢!

浏览 3提问于2009-10-10得票数 1

回答已采纳

1回答

通过python scrapy包获取响应

python、scrapy、python-requests

我不知道如何捕捉回复文本。

浏览 14提问于2020-09-04得票数 1

1回答

如何使用网络爬虫从flv文件中提取内容？

parsing、flv、web-crawler、nutch

我的要求是从flv文件中提取文本和音频。请建议我如何使用任何网络爬虫来实现这一点。如果这是不可能与网络爬虫，请建议我任何其他工具。谢谢你

浏览 0提问于2013-05-14得票数 0

回答已采纳

1回答

使用Elastic Search阅读文档

elasticsearch

我有一个信息检索任务，我必须使用elasticSearch来生成一些索引/排名。我可以下载elasticSearch，它现在在http://localhost:9200/上运行，但是我如何读取存储在我的名为'data‘的文件夹中的每个文档？

浏览 11提问于2020-01-23得票数 0

1回答

如何在下面的页面中获取链接并将其存储在变量中？

python、web-scraping、scrapy

我的目标是从一个页面中提取所有链接并存储它，这样我就可以设计另一个爬虫来从它们中提取信息，并且有一个详尽的相关链接列表。然而，似乎我并没有将爬虫指向正确的方向来提取这些链接，因为我得到了一个空列表。

浏览 3提问于2020-11-26得票数 0

回答已采纳

1回答

使用Scrapy抓取1000个站点的更好方法是什么？

scrapy

我想听听3种不同的使用Scrapy的方法之间的差异，以便爬行1000个站点。另一个例子，我想刮1000个wordpress博客，只有博格的文章。有什么不同之处，你认为哪一种方法

浏览 0提问于2015-08-14得票数 0

回答已采纳

1回答

哪个更有效-点击我的数据库或做额外的网络爬行和击中一个数组？

ruby-on-rails、ruby、nokogiri

我有一个网络爬虫，寻找我想要的具体信息，并返回它。这是每天运行的。得到了它必须爬行的链接。Crawl说链接并将内容推送到db. #1的问题是，总共有700+链接。然后，让爬虫每天为这700个链接中的每一个做一个db点击。或者，我可以在我的爬虫中有一个嵌套的爬行器--每次爬虫运行(每天)，它都会更新这个包含700个URL的列表，并将其存储在一个数组中，并从这个数组中提取它来进行每个链接的爬行。

浏览 1提问于2012-06-19得票数 0

回答已采纳

1回答

使用自动发现获取microsoft帐户的Imap详细信息

python、exchangewebservices

我从xml中提取了“EwsUrl”，但是如何从中获取交换帐户的imap详细信息呢？我需要imap的详细信息从那个账户里取邮件。

浏览 3提问于2015-03-03得票数 1

回答已采纳

2回答

永恒的爬行

dynamic、seo、bots、web-crawler

如果爬虫访问此页面，并使用“下一步”和“上一步”按钮来浏览日期，它将永远继续吗？因此，我选择不使用通用HTML链接，而使用AJAX。这意味着机器人将无法跟踪链接。我还非常感兴趣的是，像谷歌爬虫这样的机器人是如何探测到这样的黑洞的，它是如何处理这些黑洞的？

浏览 0提问于2012-11-11得票数 4

回答已采纳

1回答

Scrapy response.xpath无效语法

python、scrapy

我正在尝试从一个网站上拉价格信息(学习如何建立一个实践网络爬虫)。我正在使用scrapy来构建我的爬虫，并且在我的价格蜘蛛中，我尝试使用以下代码行来拉取价格的html字段的xpath： text = response.xpath(‘/html/body/div[8]/

浏览 23提问于2017-07-19得票数 1

回答已采纳

1回答

使用python pandas的Datareader获取雅虎财经的关键统计网页与默认的雅虎财经的历史价格网页

python、pandas、web-scraping、yahoo-finance

我正在尝试使用python的pandas库从雅虎财经中抓取数据，使用DataReader从熊猫中提取历史价格数据，但我也想从雅虎财经的关键统计网页中提取数据，比如“价格/账面比”。但我不确定如何修改DataReader来拉取历史价格以外的数据。我想使用pandas库来做我所有的网页抓取，pandas中有没有不同的函数可以让我为雅虎财经的不同网页拉取数据，或者修改DataReader函数来拉取其他数据？就像将所有内容都保存在HTML中？

浏览 0提问于2015-08-17得票数 0

点击加载更多