腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
文章
问答
(9999+)
视频
沙龙
2
回答
一个数组能容纳多少个字符串?
java
、
arraylist
、
web-crawler
、
stack-overflow
我正试着写一个网络
爬虫
。当我浏览一个
大
页面时,我的arraylist变量无法保存所有
数据
。它被抛到了异常之下。我想保存到
数据
库或写入文件,但这些机制可能会减慢
爬虫
性能。
浏览 0
提问于2015-11-19
得票数 0
1
回答
Python站点
爬虫
,使用Scrapy保存文件
python
、
jsp
、
web-crawler
、
scrapy
我正在尝试编写一个
爬虫
,它将接受某个搜索条目,并保存一
大
堆与结果相关的.CSV文件。 我已经让
爬虫
登录了,解析了我需要的所有html
数据
,现在我要做的就是弄清楚如何保存我需要的文件。我如何写我的
爬虫
能够加载这个页面和下载文件?或者,有没有一种方法可以捕获指向信息的静态链接?
浏览 0
提问于2011-08-19
得票数 2
2
回答
哪个
数据
库用于web
爬虫
,以及如何在分布式环境中使用MySQL?
mysql
、
innodb
、
myisam
、
distributed-database
我应该为网络
爬虫
使用哪个
数据
库引擎,InnoDB还是MYiSAM?我有两台电脑,每台都有1TB的硬盘。如果其中一个已满,我希望它自动保存到另一台PC,但读取应该保存到正确的PC;我该如何做到这一点?
浏览 1
提问于2010-08-17
得票数 1
回答已采纳
2
回答
爬虫
会在这个服务器配置上工作吗?
php
、
mysql
、
database
、
hosting
、
web-crawler
我正在建造一个小
爬虫
作为一个业余项目。我所要做的就是爬行大约一百万页,并将它们存储在
数据
库中。(是的,它将不时更新,但任何特定时间的条目将仅为100万),仅仅是为了了解这些东西是如何工作的。我想要的是,我应该能够自己在
数据
库上运行少量SQL查询。想知道这一设计是否可行,在以下环境。我
浏览 4
提问于2011-04-13
得票数 0
2
回答
AWS胶爬行器爬行DynamoDB在启动时卡住了
amazon-web-services
、
amazon-dynamodb
、
devops
、
aws-glue
我创建了一个包含AWS形成的
数据
湖和一个,以从DynamoDB表创建一个目录(大小: 130 GB,ItemCount: 739,013,546)。从我开始运行
爬虫
到现在已经12小时了,但是它仍然显示Starting作为它的Status。PS:分配给
爬虫
的角色具有扫描我想要的DynamoDB表的权限。
浏览 3
提问于2020-02-25
得票数 3
1
回答
KnockoutJS搜索引擎优化是否友好
javascript
、
seo
、
knockout.js
我有一个网站,并大量使用淘汰机
数据
模板,但我怀疑谷歌
爬虫
是否会发现我的网站,因为页面是一
大
堆模板,没有真正的超文本标记语言是present.And我怎么才能改进这一点?使用RSS?
浏览 0
提问于2012-10-26
得票数 8
回答已采纳
1
回答
如何从网站的
数据
库中抓取链接?
php
、
mysql
、
web-crawler
我想写一个简单的
爬虫
爬虫
如何知道一个新的链接已经添加到该网站?例如,如果一个新闻网站发布了一篇新文章,而我希望我的
爬虫
立即解析链接,那么
爬虫
如何知道这一点(googlenews也能够做it...so .?)也就是说,
爬虫
是否立即知道新的文章链接?对于goo
浏览 4
提问于2014-06-06
得票数 3
回答已采纳
1
回答
Google Plus分享对话框显示错误的图片,使用OpenGraph元标签
html
、
facebook
、
google-plus
、
facebook-opengraph
我使用OpenGraph标签,所以当我在Facebook或Google+上分享我的页面时,这些服务将知道应该在分享对话框中显示什么图像。<meta property="og:description" content="This website rules" /> <meta property="og:image" content="http://example.com/
浏览 0
提问于2015-03-10
得票数 7
回答已采纳
1
回答
两个开放图形图像(facebook大小和google大小)
facebook
、
google-api
、
share
、
facebook-opengraph
我如何包括开放图形图像(两个不同的;两个不同的大小)
浏览 0
提问于2015-05-27
得票数 1
回答已采纳
1
回答
nodejs
爬虫
response.body与响应转换为jquery?
node.js
、
parsing
、
web-crawler
、
cheerio
在我的nodejs项目中,我使用 how是一个内置的啦啦队
爬虫
。我的
爬虫
从这样的函数开始(就像doc中的示例):maxConnections: 10, }});问题是,"content_test1“文件比以"content_test2”作为
数据
创建的文件要<
浏览 3
提问于2021-09-11
得票数 0
回答已采纳
2
回答
PHP
爬虫
遍历整个网站
php
、
regex
、
web
、
fopen
、
web-crawler
我得到了
爬虫
的概念,并假设我可以打开遥远的页面,并根据一些正则表达式获得文本部分。我想知道的是,我如何不仅可以搜索单个页面(或分页),还可以搜索整个网站,而不必逐个为每个元素运行
爬虫
,并且在搜索过程中不会忘记任何现有的url。谢谢。
浏览 0
提问于2013-06-24
得票数 0
1
回答
AWS雅典娜分区键变成“varchar”
sql
、
amazon-web-services
、
amazon-s3
、
athena
例如,我有两个分区键,account_id作为int,record_date作为date。当我执行一个查询时,雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么?
浏览 5
提问于2022-09-29
得票数 0
1
回答
在我的网站上奇怪的404 URL请求
web-hosting
、
django
、
http-status-code-404
我最近推出了一个Django支持的网站,我有404错误报告。我收到了一些奇怪的URL请求,每隔几天一次。我发现其中一些非常奇怪,因为我没有PHP站点或移动站点。 有谁知道这是什么原因吗?更重要的是,我应该担心/做点什么吗?
浏览 0
提问于2016-05-03
得票数 2
回答已采纳
1
回答
AWS Glue -在处理XML文件时保留前导零
xml
、
amazon-web-services
、
schema
、
aws-glue-data-catalog
我将XML文件存储在s3桶中,并运行
爬虫
来生成目录表中的模式。生成了目录表,但是当我在AWS Glue Studio中检查输出时,我可以看到以0开头的
数据
正在被删除。00034325 => 34325甚至从int到string的目录表模式
数据
类型的转换都不能解决这个问题。 请告诉我如何解决这个问题。
浏览 4
提问于2022-01-15
得票数 2
2
回答
编写脚本下载服务器上的所有内容
python
、
bash
、
http
、
web-crawler
我想下载本网站上可公开访问的所有文件:这是奥斯陆
大
学的网站,在这里我们可以找到从大学档案中公开的每一篇论文/论文。我试过
爬虫
,但网站设置了一些机制来阻止
爬虫
访问他们的文档。还有其他方法吗? 在最初的问题中没有提到这一点,但我想要的是服务器上的所有pdf文件。我试过SiteSucker,但这似乎只是下载网站本身。
浏览 6
提问于2014-10-01
得票数 0
回答已采纳
1
回答
Hadoop分布式文件系统
hadoop
、
hdfs
HDFS是围绕以下理念构建的:最有效的
数据
处理模式是一次写入、多次读取的模式。 我可以有任何HDFS如何一次写入和多次准备的实时示例吗?我想深入了解这个核心概念。
浏览 0
提问于2015-06-14
得票数 4
1
回答
页面抓取器中的HttpWebReqest速度变慢
.net
、
httpwebrequest
、
web-crawler
我有一个
爬虫
下载页面并处理它们。
浏览 0
提问于2010-07-29
得票数 1
回答已采纳
3
回答
xpathselector如何影响抓取运行的速度?
python
、
web-crawler
、
scrapy
据我所知,不管我使用什么xpath选择器,
爬虫
都应该下载整个页面。因此,xpath应该不会对速度产生太大影响。 非常感谢你的建议。
浏览 1
提问于2012-04-19
得票数 0
1
回答
谷歌成人网站管理员
google
、
google-search-console
我正在开发一个成人壁纸网站。 我的问题是我能使用谷歌网站管理员工具吗?请告诉我利弊。
浏览 0
提问于2012-06-18
得票数 1
1
回答
爬虫
如何比直接连接到
数据
库和提取
数据
要好得多?
amazon-web-services
、
aws-glue
、
hive-metastore
在AWS作业中,为了从DB或S3检索
数据
,我们可以使用2种方法。1)使用Crawler 2)直接连接到DB或S3。 所以,,我的问题是:与直接连接
数据
库和检索
数据
相比,
爬虫
如何更好?
浏览 9
提问于2020-08-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
6大爬虫利器,轻松搞定爬虫
《6大爬虫利器,轻松搞定爬虫》
数据采集之爬虫、反爬虫、反反爬虫
数据爬虫篇
大数据爬虫
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券