httpclient爬虫_httpclient网络爬虫_httpclient - 腾讯云开发者社区

、

我需要做一个网络爬虫来收集特定网站的链接和信息。我还需要使用Apache HTTP Client来完成，我已经在网站上浏览了几天的教程，但一无所获。现在，我正在尝试弄清楚如何使用apache来抓取HTTPClient，这样我就可以解析它。坦率地说，这可能是误解了HTTPClient的用途。任何帮助都将不胜感激。

浏览 1提问于2019-11-01得票数 0

1回答

你能用httpclient递归下载一个路径吗？

、

我想知道--是否可以通过httpclient或类似的Java库以递归方式下载路径(就像使用wget -r ...一样)？我是否需要从头开始实现，或者是否有现成的库/爬虫可供我使用？你有什么推荐的？

浏览 1提问于2016-01-30得票数 1

2回答

Java CSS爬行器

、、、、

我正在寻找一个具有抓取网页的CSS能力的网络爬虫。我不需要任何其他花哨的爬行能力。我想通过Xapian，Nutch和Heritrix。它们看起来都有点复杂。如果有人有任何经验或建议，我很乐意听到。

浏览 0提问于2011-01-17得票数 1

回答已采纳

1回答

为什么不允许HttpClient自动跳转？

、、、

我的爬虫工作fins，当一个域没有SSL证书并且不安全时，问题就会发生，在这种情况下，我得不到任何与HttpClient的响应。为了跳过这一步，我使用HttpHandler并自己设置证书。(httpRequestMessage, cert, cetChain, policyErrors) => return true; httpClient.DefaultR

浏览 3提问于2021-01-20得票数 3

2回答

我刚刚开始写一个简单的网络爬虫来获取我们系统中链接的信息。我使用的是httpclient 4.x。我有大约100个线程运行抓取链接，并在它们上做head请求，它在最初的几个小时内工作得很好，然后它就会变得像爬虫一样尖叫。我不确定我是否正确地设置了连接管理器。下面是创建httpclient对象所需的代码。有没有人看到这个代码块会发出警报？当我停止服务器并重新启动它时，一切都像新的一样。); final ClientConnectionManager cm = new ThreadSafeClientConnManager(

浏览 1提问于2010-07-15得票数 0

回答已采纳

1回答

MultiThreadedHttpConnectionManager ConnectionPool上的线程等待导致Tomcat线程数过高

$ConnectionPool) at org.apache.commons.httpclient.MultiThreadedHttpConnectionManager.doGetConnection((HttpMethodDirector.java:153) at org.apache.commons.httpclient.HttpClient.executeMethod(HttpClient.java:397) at org.apache.commons.httpclient.HttpClie

浏览 1提问于2011-09-19得票数 1

2回答

保持Java字符串中的unicode字符

、、、、

我正在用java编写一个爬虫来爬行一些网站，这些网站可能有一些unicode字符，比如"£“。当我将内容(源HTML)存储在Java字符串中时，这些类型的字符会丢失，并被问号"?“替换。有关守则如下： HttpClient httpclientResponseHandler<String> responseHandler = new BasicResponseHand

浏览 2提问于2015-04-10得票数 1

回答已采纳

3回答

Apache HTTPClient抛出java.net.SocketException:为许多域重置连接

、、、、

我正在创建一个行为良好的网络蜘蛛，我注意到一些服务器导致Apache HttpClient给了我一个SocketException --特别是：导致这种情况的代码是：HttpResponse response; response = httpclient.execute(httpget); //httpclient is of type H

浏览 4提问于2011-03-12得票数 9

回答已采纳

2回答

LinkedIn crawler可以读取SPA页面吗？

、、、、

我在使用的同时使用了PhantomJS。我能做些什么来解决这个问题呢？

浏览 2提问于2013-10-20得票数 7

2回答

在-session中保存/加载HttpClient的“浏览器”

、、

我有一个uses爬虫应用程序，它使用HttpClient来执行一些请求。启动应用程序时，将初始化一个新的HttpClient，类似于以下内容：{ Client = new HttpClient我修改了这个函数，以便用HttpClient测试它。我的目的是保存HttpClient，然后，当程序启动/重新启动时，加载HttpClient并继续“会话”。Save函数的代码(我知道只有

浏览 0提问于2018-08-29得票数 1

回答已采纳

1回答

使用apache nutch爬行基于身份验证的页面

、、

我已经在nutch-site.xml、nutch-default.xml和httpclient-auth.xml中完成了所有必需的设置。但是我的爬虫仍然不能抓取页面。有没有什么方法可以让我使用API密钥来帮助抓取？

浏览 1提问于2018-06-26得票数 0

3回答

使用动态生成的内容爬行页面

、

我一直在使用java.net crawler进行定制的爬虫。问题出在动态生成的内容上，比如博客上的评论。考虑下面的页面。如果爬行页面并获取源代码，则无法查看页面的全部内容。我已经看过apache的httpclient，然而，这与上面的爬虫程序一样，只是返回源代码。

浏览 2提问于2010-09-13得票数 1

1回答

解析html页面并将内容(标题、文本等)存储到数据库中

、、

有没有人知道一些开源工具来解析html页面，过滤广告，JS等，以获得标题，文本。我的应用程序前端是基于LAMP的。所以我需要解析html页面并将它们存储到Mysql中。并用这些数据填充首页。谢谢。约瑟夫

浏览 3提问于2010-09-17得票数 1

1回答

出现网络爬网程序java.net.SocketException:软件导致连接中止: recv失败

、、

java.io.BufferedInputStream.read1(Unknown Source)at sun.net.www.http.HttpClient.parseHTTPHeader(Unknown Source)at sun.net.www.http.HttpClient.parseHTTP我测试其他网站程序都是

浏览 2提问于2017-08-11得票数 0

1回答

Crawler4j警告“无效的cookie头”导致爬虫无法获取该页。

、、、

在一些网站上，爬虫工作非常整洁。但在其他情况下，它只是无法获取网站(尽管我仍然可以使用jsoup获取数据)。有没有办法改变crawler4j中的cookie选项？PageFetcher.java在crawler4j中创建httpclient并处理所有cookie选项。或者我应该使用另一个爬虫，它可以为那些在cookie中使用错误格式的站点定制？

浏览 1提问于2016-02-11得票数 1

3回答

perl lwp中的Cookies

、、

有一次，我用JAVA编写了一个简单的“爬虫”来下载http页面。现在，我试图使用LWP模块将相同的内容重写到Perl中。something/cgi-bin/something.cgi";HttpClienthttpclient = new HttpClient(); httpclient.setState(in

浏览 0提问于2011-02-11得票数 1

回答已采纳

1回答

Ruby2.1.2超时仍然不安全吗？

、、、、

我知道很多人用Ruby写爬虫。如果超时并不是线程安全的，那么人们如何编写爬虫来处理net/http陷入困境的问题呢？我已经切换到HTTPClient (它特别提到它的线程安全)来代替机械化。下面是最近挂起的搁浅线程的堆栈跟踪： /app/vendor/bundle/ruby/2.1.0/gems/httpclient-2.4.0/lib/httpclient/session.rb:805

浏览 1提问于2014-09-12得票数 4

1回答

龙卷风:如何获得和返回内存占用较少的大数据？

、

我有网页爬虫和http接口。import tornado.ioloopimport tornado.httpclientclass ResponseError(Exception):

浏览 2提问于2016-09-25得票数 0

回答已采纳

2回答

如何防止bot/googlebot索引促销主页？

、

但是我不希望机器人/爬虫看到这个内容(大图像)，相反，他们应该看到设置cookie之后的真实内容。URL对于两个内容都是相同的。我可以对此做更多的澄清。如何避免机器人看到促销内容？

浏览 3提问于2014-04-11得票数 0

回答已采纳

1回答

网络爬虫还是标准的HttpClient？

、、、

如果有人能让我知道我是否需要一个网络爬虫，或者我最好使用HttpClient或JDK的内置功能对这个流进行编码，非常感谢。

浏览 0提问于2011-12-05得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用HTTPClient创建一个爬虫

你能用httpclient递归下载一个路径吗？

Java CSS爬行器

为什么不允许HttpClient自动跳转？

对httpclient性能感到困惑

MultiThreadedHttpConnectionManager ConnectionPool上的线程等待导致Tomcat线程数过高

保持Java字符串中的unicode字符

Apache HTTPClient抛出java.net.SocketException:为许多域重置连接

LinkedIn crawler可以读取SPA页面吗？

在-session中保存/加载HttpClient的“浏览器”

使用apache nutch爬行基于身份验证的页面

使用动态生成的内容爬行页面

解析html页面并将内容(标题、文本等)存储到数据库中

出现网络爬网程序java.net.SocketException:软件导致连接中止: recv失败

Crawler4j警告“无效的cookie头”导致爬虫无法获取该页。

perl lwp中的Cookies

Ruby2.1.2超时仍然不安全吗？

龙卷风:如何获得和返回内存占用较少的大数据？

如何防止bot/googlebot索引促销主页？

网络爬虫还是标准的HttpClient？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐