腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何处理UUIDS?
java
、
mongodb
、
bigdata
、
database
过程是这样
的
。我有一组数据,其中包括网址,公司名称和一些其他有关公司
的
信息。我读取这些数据,获取URL,抓取它们,并用随机
生成
的
UUID保存抓取
的
数据。UUID uuid = UUID.randomUUID(); 这对于第一轮爬行来说是很好
的
。问题是当我想重新抓取数据
的
时候。我将有一组新
的
数据-which可能是重复
的
-因此将
生成
一个新
的
UUID和一个新
的
记录。但这并不是我所期望<e
浏览 1
提问于2017-09-21
得票数 0
1
回答
如何用python
爬
取
数据并保存到excel?
python
利用python
爬
取
豆瓣电影排行榜(https://movie.douban.com/chart)
的
数据并保存到excel中。用相同
代码
爬
取
网页豆瓣top250
的
数据可以
爬
取到excel中,但将网址及相关信息改为网页豆瓣电影排行榜中
的
信息时便无法
爬
取
,也找不出问题所在。以下图片为完整
代码
。
浏览 316
提问于2021-01-09
2
回答
Clojure网站到html和javascript?
web
、
clojure
问题是:有没有一种方法可以将一个用clojure编写
的
网站编译成HTML和Javascript文件,而不需要服务器上
的
.WAR文件?谢谢。
浏览 3
提问于2013-02-14
得票数 2
0
回答
编写一个
爬
取
QQ音乐
的
python
代码
?
python
、
存储
、
mp3
编写一个
爬
取
QQ音乐指定风格歌曲
的
前5首,并以MP3格式存储在桌面指定文件夹中
的
python
代码
浏览 73
提问于2023-04-22
1
回答
如何在找到缩略图时获取实际图像?
java
、
html
、
image
、
image-processing
、
thumbnails
我
的
代码
以某种方式工作,当它只找到一个标签时,它会处理找到
的
图像。它工作得很好,但有一个问题,在这个过程中,大量
的
缩略图被抓取和处理,而我需要
的
是实际
的
图像。在某些情况下,我确实会得到实际
的
图像以及它
的
缩略图,但在许多情况下,我在我
爬
取
的
图像集中找不到实际
的
图像。这个来自墙纸收集网站
的
快照可能有助于了解这些缩略图被爬行和处理而不是实际图像
的
情况。
浏览 2
提问于2017-04-30
得票数 1
1
回答
如何保持从ts编译到
js
文件
的
绝对路径规则?
javascript
、
typescript
、
nodemon
我已经设置了使用absoulte
的
路径和baseUrl。
node
无法确定我在运行编译后
的
js
文件时指定
的
绝对路径。 我认为绝对路径规则不适用于Nodemon。 有什么帮助吗..?下面的
代码
是我运行
的
脚本。"st": "tsc && nodemon --inspect dist/server.
js
", 提前谢谢你。 ? tsconfig.json ?导入
爬
网程序
浏览 34
提问于2020-06-12
得票数 0
1
回答
如何避免
爬
取
CGI
生成
的
日历网页
web-crawler
、
nutch
网页由CGI程序
生成
。大多数网页
的
URL都包含诸如?id=2323&title=foo之类
的
表达式。然而,我面临
的
一个问题是,这个网站有一个日历。也会
生成
一些类似日期
的
网页。这意味着纳奇将试图抓取一些无害
的
网页,如year=2030&month=12。如何在Nutch中避免这样
的
陷阱?编写很多正则表达式?
浏览 1
提问于2012-01-27
得票数 0
回答已采纳
0
回答
java怎样
爬
取
js
动态请求
的
数据?
java
、
javascript
、
jquery ui
image.png 动态加载
的
数据获取不到(cd.fangfaxian.com)
浏览 215
提问于2020-04-28
2
回答
Scrapy没有拿起我
的
url
python
、
scrapy
、
scrapy-spider
我有一个破烂
的
代码
,应该能够采取电话和地址从一个网页中
的
表格: name="People" } 但是我一直得到0个抓取
的
页面2, 16, 1, 14, 26, 788223
浏览 0
提问于2017-02-16
得票数 0
1
回答
如何在使用节点时爬行jquery站点
ajax
、
node.js
、
mongodb
、
web-crawler
我应该
爬
但我怎么才能爬上这个网站。我想它是用jQuery
的
。有些人说你应该使用ajax。但是我将包含mongodb
的
数据库,所以我将使用
node
.
js
,如何才能做到这一点?
浏览 8
提问于2016-10-05
得票数 1
回答已采纳
1
回答
在if语句下索引链接?
php
、
seo
、
web-crawler
、
googlebot
$databaselink; echo $link;}"> BOOK</a>抓取可以看到并将被索引
的
链接
的
WIll? 请注意,此内容无需beein登录即可显示。是公开
的
。登录后,用户将获得一个类别,其中将显示链接。
浏览 0
提问于2013-01-06
得票数 0
1
回答
Nutch API建议
java
、
web-crawler
、
nutch
我正在做一个项目,我需要一个成熟
的
爬虫来做一些工作,我正在为这个目的评估Nutch。我目前
的
需求相对简单:我需要一个能够将数据保存到磁盘
的
爬虫程序,并且我需要它能够仅重新
爬
取
站点
的
更新资源,并跳过已经
爬
取
的
部分。有没有人有在Java中直接使用Nutch
代码
的
经验,而不是通过命令行。我想从简单开始:创建一个爬虫(或类似的),最低限度地配置它并启动它,没有任何花哨
的
东西。有没有这方面的
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
1
回答
nutch + mysql集成
nutch
当nutch在索引阶段完成它
的
循环(即
爬
取
-解析-索引)时,我不希望nutch索引(lucene索引),但我希望nutch使用我
的
代码
将所有抓取
的
数据(我相信他将它们作为NutchDocument对象)
浏览 2
提问于2010-07-12
得票数 1
回答已采纳
2
回答
如果是内部循环
javascript
、
jquery
、
node.js
我在
爬
一个网站。我在我
的
node
.
js
应用程序中使用基于啦啦队
的
node
.
js
循环。
浏览 1
提问于2015-02-16
得票数 1
回答已采纳
1
回答
关于正则表达式
的
问题?
html
、
爬虫
、
正则表达式
、
scrapy
、
title
图片哪位大神可以教教我应该怎么改正则表达式才可以匹配我想要
的
数据
浏览 100
提问于2023-09-27
3
回答
未调用Thread类中
的
Run方法
java
、
multithreading
、
iostream
、
processbuilder
我是线程领域
的
新手,一个星期以来我一直在尝试解决这个问题。Thread类中
的
run方法由于某种原因没有被调用,我不知道为什么(但我很想知道) { }} 由于某些原因,
浏览 0
提问于2011-03-28
得票数 0
1
回答
如何更新yeoman
生成
的
文件?
yeoman
、
yeoman-generator
我已经用generator -gulp webapp
生成
了我
的
项目,我可以看到这个
生成
器从那时起就更新了。 有没有办法在不从头
生成
项目的情况下更新gulpfile.
js
等?
浏览 1
提问于2014-12-30
得票数 2
2
回答
当我使用自己
的
程序爬行站点时,我应该使用什么用户代理
http
、
http-headers
、
user-agent
我用
node
.
js
做了爬虫。我想
爬
一些网站
的
基础上,每小时。 我试着找出我应该使用
的
用户代理,但是我只得到了像谷歌机器人和必应机器人这样
的
结果。我不知道我能不能利用这些用户代理。
浏览 1
提问于2018-09-10
得票数 1
回答已采纳
2
回答
Anemone Ruby spider -创建不带域名
的
键值数组
ruby
、
anemone
我正在使用来
爬
取
一个域,它工作得很好。启动
爬
网
的
代码
如下所示: anemone.on_every_pagedo |page| end这将很好地打印出域
的
所有页面urls,如下所示: http://w
浏览 2
提问于2013-10-23
得票数 2
2
回答
如何用CSS在HTML文档中隐藏一个单词
html
、
css
我需要隐藏一个字在HTML文档中使用CSS
的
所有出现。这有可能吗?<tr class=""> <td>30.10</td></tr> 在示例
代码
中,我需要隐藏
的
钢坯字,而不是
浏览 5
提问于2014-03-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Node.js爬取豆瓣数据
使用Phantomjs来处理针对js渲染的页面的爬取
Node.js 中的异步生成器和异步迭代
简单代码爬取图片网站的所有图片
python+Chrome爬取动态异步生成的页面内容
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券