爬取 html js java_java爬取js_java爬取js网页 - 腾讯云开发者社区

、、

动态加载的数据获取不到（cd.fangfaxian.com）

浏览 218提问于2020-04-28

0回答

ddproperty历史数据采集？

crawlers/ddproperty-crawler.html 不知道国内有没有谁搞过这个，要爬取18年之前的历史数据

浏览 65提问于2022-05-10

1回答

Nutch API建议

、、

我目前的需求相对简单:我需要一个能够将数据保存到磁盘的爬虫程序，并且我需要它能够仅重新爬取站点的更新资源，并跳过已经爬取的部分。有没有人有在Java中直接使用Nutch代码的经验，而不是通过命令行。

浏览 0提问于2010-12-03得票数 6

回答已采纳

1回答

在上一篇关于爬网问题的帖子(#!)对于单页面应用程序，我们决定摆脱html单元(这对于JS 来说非常慢)，并选择实现Phantom Js with pushstate (以获得漂亮的urls)。由于Phantom Js不支持pushstate，我们现在正在考虑实现僵尸Js (希望是最后一次修改！) 有什么实现僵尸for Java应用的小贴士吗？或者其他更适合的无头浏览器(支持that状态并拥有强大的Js引擎)？

浏览 1提问于2013-11-16得票数 1

2回答

如何用CSS在HTML文档中隐藏一个单词

、

我需要隐藏一个字在HTML文档中使用CSS的所有出现。这有可能吗？ <th>EUROS BILLETE</th> <td>31.99</td>在示例代码中，我需要隐藏的钢坯字，而不是添加任何html

浏览 5提问于2014-03-27得票数 0

1回答

关于正则表达式的问题？

、、、、

图片哪位大神可以教教我应该怎么改正则表达式才可以匹配我想要的数据

浏览 105提问于2023-09-27

2回答

TYPO3: indexed_search -索引所有页面而无需首先访问

、

通常，indexed_search只对已经访问过的页面进行索引。如果用户没有访问过该页面，则不会有搜索结果。有没有一种不需要访问就能索引所有页面的方法？或者我必须使用另一个扩展？

浏览 0提问于2012-01-16得票数 0

回答已采纳

3回答

未调用Thread类中的Run方法

、、、

/* StreamGobbler.java */import java.io.IOException;import java.io.InputStreamReader;import java.io.PrintWriter; class StreamGobbler

浏览 0提问于2011-03-28得票数 0

2回答

Clojure网站到html和javascript？

、

问题是:有没有一种方法可以将一个用clojure编写的网站编译成HTML和Javascript文件，而不需要服务器上的.WAR文件？谢谢。

浏览 3提问于2013-02-14得票数 2

1回答

不希望包含的文件内容被爬网

、、

我有一个html文件，其中包含一个页脚html文件。问题是，页脚包含了一堆我不想抓取的信用和版权信息--它把我的关键字密度弄乱了。这是否足以防止该部分内容被爬取？我读到过一个iFrame技巧，如果我所做的还不够充分，我可能会尝试一下。蒂娅。

浏览 0提问于2014-05-01得票数 0

1回答

通过硒的jscriptexecutor更改网页中的标签

、、

在我们爬网页的时候获取标签。 js.executeScript("window.onload=function(){document.getElementById<html><tab

浏览 6提问于2017-05-19得票数 0

回答已采纳

1回答

提取失败，协议状态为: exception(16)，https://www.randolphnj.org/: lastModified=0: Http code=406，Http code=406

、

我正在尝试爬取url：2020-09-22 15:03:08,395 INFO httpclient.Http: http.accept = text/html,application

浏览 9提问于2020-09-22得票数 1

2回答

在Java中从某个URL调用脚本？

、、、、

为了方便起见，我使用Java解析一个随机网站的超文本标记语言，假设它是。在解析HTML数据之后，我希望提取其中的一些数据，并将其显示在显示器上。之后，用户将输入搜索词，并按下一个按钮。

浏览 0提问于2012-03-30得票数 0

回答已采纳

3回答

大规模机器学习- Python还是Java？

、、、、

我目前正在着手一个项目，该项目将涉及爬取和处理大量数据(数百个数据集)，并对它们进行挖掘以提取结构化数据，命名实体识别，重复数据删除，分类等。我熟悉来自Java和Python世界的ML工具: Lingpipe、Mahout、NLTK等。然而，当涉及到为如此大规模的问题选择平台时-我缺乏足够的经验来决定是Java还是Python。我知道这听起来像是一个模糊的问题，但我正在寻找关于选择Java或Python的一般建议。JVM提供了更好的性能(？)

浏览 6提问于2012-03-15得票数 34

回答已采纳

2回答

如何在没有php的情况下从mysql结果中删除html标签和php序列化信息？

、、、

";}}我想允许此内容馈送到Sphinx (全文索引)的网站搜索目的。基本上，Sphinx只是抓取数据库的内容并索引它找到的内容，取决于您指定的配置选项……我想知道的是，是否有一个好方法可以让MySQL或Sphinx去掉序列化信息和html标记，以便只对纯文本进行索引。

浏览 0提问于2009-09-21得票数 0

回答已采纳

3回答

如何判断一个网页在C#中是否有RSS

、、

我有个任务要做。我知道如何使用C#中的Http将网页下载为字符串，但如何确定http页面字符串中是否包含任何RSS？杰克

浏览 1提问于2009-11-19得票数 2

2回答

我如何计算一个页面有多少出站链接？

、、

使用Ruby学习抓取。我正在尝试计算给定页面的出站链接数量，但我不确定如何告诉Ruby我只想要计算出站链接。require "open-uri" puts "What is your URL?"puts "Your URL is #{url}"page = open(url).read link_total = page.scan("</a>&

浏览 2提问于2012-04-11得票数 1

回答已采纳

2回答

如何将图像选择到锚点中以应用jQuery事件

、

当我点击fadeOut时，我正在尝试将图片放入我垂直菜单中的a中。但是没有找到正确的方法。我能得到的最多的是fadingOut完整的ul，而不是特定的图像。我的问题是如何做到这一点，哪个jquery选择器组合可以选择这些图像到锚点。我的意图是使用其他动作(事件)再次fadeOut这些图像和事件，例如，当我确实单击相同结构中的其他元素时。你可以在这里看到我的进展www.miramarlab.com/index222.htm<div id="slider4" class="trans"> <h1>SERVICES</

浏览 3提问于2011-11-25得票数 0

回答已采纳

1回答

JAVA中的Web Crawler。java.out.lang.outofmemory无法创建本机线程

、、

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。如果有人知道如何限制线程或修复以下错误： java.lang.outOfMemory :无法创建本机线程

浏览 1提问于2012-05-02得票数 0

回答已采纳

1回答

如何让Python的机械化POST ajax请求？

、

我正在尝试爬行的网站使用的是javascript：在ajax上拉入我需要爬取的额外信息。mechanize.urlopen("https://site.tld/dir/" + url, urllib.urlencode({'none' : 'none'})) 来获得页面，但它总是导致我再次获得登录HTML

浏览 2提问于2010-07-12得票数 6

回答已采纳

点击加载更多