java数据分析爬虫_java爬虫数据挖掘_java网页数据爬虫 - 腾讯云开发者社区

、、、

我想用Java实现一个非常简单的web爬虫，我已经找到了这个库: crawler4j：从URL开始(由我指定)，并识别当前页面中是否有一个特定的单词，比如自己的名称或公司名称(这个词也是由我指定的) 如果找到这个单词，则必须将当前页面URL保存在数据库中。因此，没有语义分析，只有语法分析(爬虫必须尝试将网页内容与我指定的标记匹配)。

浏览 4提问于2013-02-21得票数 0

回答已采纳

5回答

Java中是否有用于文本分析/挖掘的API？

、、、、

我想知道Java中是否有可以进行文本分析的API。可以提取文本中的所有单词、单独的单词、表达式等的东西。可以通知找到的单词是数字、日期、年份、名称、货币等的东西。我现在正在开始文本分析，所以我只需要一个API就可以启动了。我做了一个网络爬虫，现在我需要一些东西来分析下载的数据。需要方法来计算页面中的单词数量，相似的单词，数据类型和其他与文本相关的资源。Java中有用于文本分析的API吗？编辑:文本挖掘，我想要挖掘文本。Jav

浏览 2提问于2011-07-23得票数 25

回答已采纳

1回答

如何使用Selenium来转储Web页面的整个DOM树？

、、、

我将通过分析Web页面的内容来构建一个Web爬虫。我正在使用Selenium Java API来呈现页面，并尝试构建完整的DOM来进行模糊分析。

浏览 13提问于2016-09-23得票数 0

3回答

从用户代理识别爬虫程序

、

我想跟踪我的site.For的所有访问者( Os，浏览器和更多细节)，我正在保存用户代理和URL和其他基本数据到database.Later执行Crone时，用户代理被分析并获取浏览器，Os。但我想识别爬虫(因为它们不能被视为访问者)。那么有没有办法从用户代理中识别爬虫呢？爬虫的用户代理是否遵循任何常见的模式？

浏览 1提问于2012-06-12得票数 0

1回答

如何处理爬虫和过时的资产？

、、

文件夹7adcf7ba已经不存在了，所以我认为爬虫以某种方式使用了缓存数据。我可以使用robots.txt吗？元标签？特殊属性？我怎么发动汽车呢？

浏览 0提问于2017-12-04得票数 0

3回答

用户代理识别和搜索引擎优化爬虫数据库

、

我被要求分析一个网站的流量日志。特别是，我必须从收集的user agent值开始识别爬虫。现在问题来了。是否有公共目录或网络爬虫库？这是第二个问题。在我的交通记录中也有很多空的用户代理。一个空的用户代理头是与爬虫有关还是与一个创作过程有关？

浏览 0提问于2012-08-07得票数 2

1回答

谷歌网站管理员工具的数据来源是什么？

谷歌网站管理员工具从哪里获得所有的数据？它是与谷歌分析等配对，还是纯粹是爬虫和搜索它显示？

浏览 0提问于2010-07-12得票数 4

回答已采纳

1回答

500G 在哪儿能找到资料？

、、、、

500G python web、爬虫、数据分析、机器学习、大数据、前端实战项目视频代码免费分享在哪儿能下载到资料，在线等，挺急的~，感谢各位大佬~

浏览 233提问于2019-05-10

1回答

网站数据爬虫，发布数据和遍历

、、

我需要分析几个网站，一旦完成，我需要发送一些数据给它。例如，假设网站A为我提供了一个搜索选项卡，我需要以编程方式向其提供数据。根据目标站点的更新，结果页可能会有所不同。我想编写这样一个爬虫。我已经精通java和C语言，所以任何基于它们的东西都会很有帮助。

浏览 1提问于2013-03-27得票数 0

2回答

一个网站会被列入黑名单，如果它提供不同版本的谷歌的佩格爬虫和正常用户？

、、

这个问题实际上是双重的：是否有可能通过检测用户代理(~灯塔，其他页面爬虫)来欺骗分页分析器，并为该网站提供一个简化的、更快的版本？如果是的话，这会不会随着时间的推移而被发现，让你被列入黑名单？另外，与之相反的是，是否有可能向爬虫提供额外的数据(json-ld)，而这些数据是您不希望加载给普通用户的？

浏览 0提问于2019-04-03得票数 0

回答已采纳

1回答

用于web分析的数据集API

、、、、

在数据挖掘视图中，我知道有Twitter API，您可以从中实现爬虫程序并收集数据。提前感谢您提供的任何信息。

浏览 3提问于2014-08-30得票数 1

1回答

定期运行python程序作为防火墙中的后台服务。

、、

我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本

浏览 0提问于2018-01-25得票数 3

1回答

Java/1.7.0_07作为用户代理

、

几乎每天都有东西(应该是一个机器人)访问我网站上的所有页面(除其他外，它不能正确处理urls中的空间)，以Java/1.7.0_07 (或不同的java版本)作为参考。谢谢

浏览 0提问于2012-10-17得票数 2

回答已采纳

1回答

如何使用首先需要获取的gatsby添加元标记

、、

siteMetadata: { },};谢谢。

浏览 13提问于2022-04-19得票数 1

1回答

Google Plus Crawler

、

我正在进行一项社交媒体分析，并收集数据集进行研究。我一直在网上搜索任何制作谷歌加爬虫的方法。那么，我的问题是，是否有人知道是否有可能制作一个Google +爬虫来收集公共帖子的信息？

浏览 2提问于2014-02-12得票数 0

回答已采纳

7回答

什么是网络爬虫的理想编程语言？

我需要建立一个内容收集程序，将简单地读取指定网页上的数字，并保存该数据以供以后分析。我不需要它来搜索链接或相关数据，只需要从网站收集所有数据，这些网站每天都会有变化的内容。速度不是一个大问题，我估计爬虫一天最多要加载4000个页面。编辑:有没有办法提前测试我正在收集数据的网站是否受到爬虫的保护？

浏览 2提问于2009-06-10得票数 6

回答已采纳

2回答

AWS胶爬行器是做什么的？

、

我读过AWS胶水文档re:爬虫在这里：，但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶，并创建指向这些存储桶的指针？当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

浏览 1提问于2018-12-04得票数 3

回答已采纳

1回答

向远程MySQL提供数据的模式

、、

我有一个“无所不包”的服务器，它是were服务器，mysql，爬虫服务器。由于使用监视工具的两三周时间，我发现当我的爬虫运行时，我的平均负载总是超过5(一个4核心服务器，可以一直使用到4.00作为负载)。所以，我有另一台服务器，我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据，我必须插入我的数据库。我不想打开远程连接并将其插入数据库中，因为我更喜欢使用Rails框架，顺便说一句，我使用rails，以便更容易地创建所有关系，等等。限制:我不想运行mys

浏览 2提问于2011-05-01得票数 0

1回答

如何分析网页爬虫？

、

我有一个稍微不同的版本的网络爬虫。我想比较它们的性能(特定的时间爬行一个给定的域)。我曾考虑过这两种选择：同时运行它们，比较所用的时间。

浏览 4提问于2012-09-15得票数 0

1回答

用于开源Lucene的索引序列步骤，使用SQL或Nosql

、、

我想用Lucene.net来索引我网站上的数据和页面链接，你到底是什么时候告诉Lucene.Net开始索引的？

浏览 6提问于2011-02-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用crawler4j库实现Java crwaler中模式匹配的一些信息

Java中是否有用于文本分析/挖掘的API？

如何使用Selenium来转储Web页面的整个DOM树？

从用户代理识别爬虫程序

如何处理爬虫和过时的资产？

用户代理识别和搜索引擎优化爬虫数据库

谷歌网站管理员工具的数据来源是什么？

500G 在哪儿能找到资料？

网站数据爬虫，发布数据和遍历

一个网站会被列入黑名单，如果它提供不同版本的谷歌的佩格爬虫和正常用户？

用于web分析的数据集API

定期运行python程序作为防火墙中的后台服务。

Java/1.7.0_07作为用户代理

如何使用首先需要获取的gatsby添加元标记

Google Plus Crawler

什么是网络爬虫的理想编程语言？

AWS胶爬行器是做什么的？

向远程MySQL提供数据的模式

如何分析网页爬虫？

用于开源Lucene的索引序列步骤，使用SQL或Nosql

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐