java简单爬虫程序_简单php爬虫程序_简单爬虫python - 腾讯云开发者社区

python

我正在开始一个项目，想知道图像中的人物和图像所在的整个网页之间的关系。

浏览 0提问于2010-06-16得票数 0

1回答

学习多线程Java爬虫的良好开端

java、multithreading、web-crawler

我正在用Java开发一个网络爬虫。我正在寻找一个很好的项目开发这个爬虫的基础上。然而，实际上有超过几百个用Java编写的爬虫程序。我要找的是一个相当简单的爬虫，它有：基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot

浏览 1提问于2012-04-16得票数 0

回答已采纳

1回答

如何从java类调用python脚本

java、python

我有一个java网络应用程序，我需要使用一个简单的网络爬虫来读取网页中的html。我在java中找不到任何简单的解决方案。但是我得到了一个非常简单的python脚本来解决我的问题。现在，如何从我的java类调用python脚本(.py)，并预先从python脚本.Thanks获取返回值。

浏览 1提问于2015-02-05得票数 0

2回答

Java CSS爬行器

java、lucene、web-crawler、nutch、xapian

我正在寻找一个具有抓取网页的CSS能力的网络爬虫。我不需要任何其他花哨的爬行能力。我想通过Xapian，Nutch和Heritrix。它们看起来都有点复杂。如果有人有任何经验或建议，我很乐意听到。

浏览 0提问于2011-01-17得票数 1

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

java、php、web-crawler

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

1回答

EJB未注入

dependency-injection、ejb、nullpointerexception、code-injection

我的Java应用程序使用，它使用以下代码开始抓取：config.setCrawlStorageFolder("C:/crawler4j_storage

浏览 3提问于2012-07-01得票数 0

回答已采纳

2回答

浏览器限制会影响网页爬虫吗？

redirect、asp.net-mvc-4、web-crawler

return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图，它也会限制对网络爬虫的访问吗

浏览 0提问于2013-02-21得票数 0

回答已采纳

1回答

从Highcharts读取数据

java、highcharts、web-crawler

我正在开发一个基于java的爬虫程序，从一些网站提取数据。我希望在我的数据库中有一个项目，它的数据是时间序列highcharts。解析highcharts并提取其数据的最简单方法是什么？

浏览 0提问于2015-08-28得票数 1

2回答

有没有可以下载整个网站的网络爬虫？

dynamic、hyperlink

需要知道是否有一个爬虫/下载器，可以抓取和下载和整个网站的链接深度至少为4页。我正在尝试下载的站点有java script超链接，这些超链接只能由浏览器呈现，因此爬虫程序无法抓取这些超链接，除非爬虫程序自己呈现它们！

浏览 4提问于2010-09-30得票数 0

回答已采纳

1回答

与ask.wireshark.org的Https连接不能工作

java

package Others; import java.net.URL;import java.security.SecureRandom;import java.security.cert.X509Certificate

浏览 9提问于2015-11-25得票数 0

回答已采纳

1回答

我正在做一个项目，我需要一个成熟的爬虫来做一些工作，我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的)，最低限度地配置它并启动它，没有任何花哨的东西。有没有这方面的例子，或者我应该看看的资源？

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

用于爬虫应用的数据库系统

database、web-crawler

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。

浏览 2提问于2012-01-06得票数 1

回答已采纳

3回答

C++网络爬虫

c++、sockets、ssh、web-crawler

我正在尝试并尝试制作一个最小的网络爬虫。我在很高的层次上理解了整个过程。那么进入下一层细节，程序如何“连接”到不同的网站来提取HTML？谢谢!

浏览 1提问于2012-07-01得票数 0

回答已采纳

1回答

从Java获取带有javascript链接的网页

java、parsing、web-crawler、html-parsing、nutch

我在Java中有一个web爬虫应用程序，需要访问网页中的所有链接。问题是，在某些页面中，链接是由javascript函数生成的。我希望找到网页中所有链接的最简单/最快的方法，甚至是Java中的javascript链接。(欢迎使用C/C++解决方案)。我也知道 (爬虫)有一个来自Javascript的链接提取器，但我不确定该代码是否可以从Nutch中“提取”出来，用于另一个上下文中。

浏览 4提问于2010-11-09得票数 0

1回答

用于开源Lucene的索引序列步骤，使用SQL或Nosql

c#、lucene.net、architecture

我是开源游戏的新手。在我开始我打算做什么之前，我有一个问题。假设我计划使用c#，没有NoSQL (没有计划使用哪个(RavenDb或MongoDb))，我想在asp.net中为一个站点建立索引。我的意思是，它是一个每晚开始索引的后台进程，就像SharePoint索引一样，还是在应该调用索引记录时调用insert to nosql的时刻。我对步骤的顺序特别感

浏览 6提问于2011-02-05得票数 0

回答已采纳

1回答

如何使用AWS glue将模式或处理过的嵌套json文件压缩(Gzip)存储在s3中？

json、compression、aws-glue、amazon-athena

如何使用AWS glue将模式或处理过的嵌套json文件压缩(Gzip)存储在s3中？有没有办法不写zeepline代码？

浏览 0提问于2020-04-16得票数 0

3回答

使用Java读取文件的最后n个字节

java、windows、file-processing

我有一个爬虫程序，记录一些文件。有时在服务器上，会发生一些错误，爬虫会创建大量无法解析的日志文件。出于这个原因，我想创建一个简单的程序，它读取日志文件末尾的大约1000个字符，并向我显示消息(即使爬虫仍在写入该文件)。这将帮助我在不关闭爬虫的情况下解决问题。

浏览 1提问于2013-03-10得票数 7

回答已采纳

4回答

Java -销毁正在执行某些操作的对象

java、multithreading

我看过Java中关于析构函数的帖子，了解到Java没有析构函数，但我很困惑，如果没有析构函数，我的应用程序需要做什么。我的应用程序允许用户创建一系列的网络爬虫，这些爬虫保存在一个数组列表中。每个crawler都有一个进度面板gui，显示已爬行的页面等，并允许用户暂停该爬虫。但是，用户可能还想“终止”该爬虫程序。

浏览 4提问于2011-07-08得票数 0

回答已采纳

2回答

如何将.java和html结合起来？

java、html、eclipse、web-crawler

我试图创建一个web应用程序，用户可以选择一个电影的名称(前)。(“空中坠落”)从下拉列表。然后，我想执行一个爬虫到rottentomatoes.com并获取与这部电影相关的所有html页面。我已经使用Tomcat在Eclipse中创建了我的web应用程序( GUI)。我有一个web爬虫: crawler4j，如果我选择将主.java文件作为应用程序运行，它就会运行。是否可以使用html中的参数(电影名称)调用java类文件？为了在我的html中执行它，我必须用<

浏览 3提问于2012-12-10得票数 0

回答已采纳

1回答