腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
更快地
抓取
页面[
PHP
]
php
、
web-crawler
我有一个关于在
PHP
中
抓取
网页
的小问题。我不得不在一个大的eshop上
抓取
大约90000个产品。我在
PHP
中尝试过,但一个产品需要2-3秒,这很糟糕。有什么建议吗,怎么做得更快?也许是C++
多线程
版本?但是HTTP请求的时间呢?我的意思是,它到底有没有
PHP
的限制?谢谢你的建议。
浏览 0
提问于2012-07-08
得票数 2
1
回答
什么是一个好的基于Java的爬虫,一个关于建立搜索引擎的学术项目?
java
、
multithreading
、
web-crawler
、
nutch
、
heritrix
虽然我没有处理能力来
抓取
整个
网页
,我想使用一个爬虫,实际上是能够做到这一点。所以我要找的是一台爬虫 我
浏览 3
提问于2013-01-30
得票数 2
4
回答
Python,
多线程
,
抓取
网页
,下载
网页
python
、
web-scraping
、
twisted
我想在一个网站批量下载
网页
。在我的'urls.txt‘文件中有5000000个urls链接。大概有三亿米。如何做一个
多线程
链接这些网址和下载这些
网页
?或者batch如何下载这些
网页
?
浏览 6
提问于2010-01-26
得票数 5
5
回答
我可以使用刮取URL的源代码,还是应该使用
PHP
?
php
、
javascript
、
jquery
、
ruby-on-rails
是否可以使用Rails,还是应该使用
PHP
?
浏览 3
提问于2012-08-21
得票数 0
回答已采纳
4
回答
大规模
抓取
/解析的技术是什么?
parsing
、
screen-scraping
、
large-data-volumes
我们正在设计一个大规模的web
抓取
/解析项目。基本上,脚本需要遍历
网页
列表,提取特定标记的内容,并将其存储在数据库中。如果要进行大规模(数千万页?)的操作,您建议使用哪种语言?。到目前为止,我们一直在使用
PHP
、curl和,但我不认为它们可以扩展到数百万个页面,特别是在
PHP
没有适当的
多线程
的情况下。我们需要一些易于开发的东西,可以在Linux服务器上运行,具有强大的HTML/DOM解析器来轻松提取标签,并且可以在合理的时间内轻松下载数百万个
网页
。
浏览 1
提问于2010-06-30
得票数 8
4
回答
我应该同时打开多少个Java HttpURLConnections?
java
、
web-crawler
、
screen-scraping
我正在编写一个
多线程
的Java网络爬虫。根据我对
网页
的理解,当用户加载
网页
时,浏览器请求第一个文档(例如,index.html),当它接收到超文本标记语言时,它会找到需要包括的其他资源(图像,CSS,JS),并同时请求这些资源。由于某些原因,我不能让它每5秒
抓取
超过2到5页。我正在为我制作的每一个HttpURLConnection创建一个新的线程。看起来我应该至少能够每秒
抓取
20-40页。
浏览 1
提问于2009-09-04
得票数 2
回答已采纳
2
回答
用
PHP
抓取
网页
php
、
curl
、
web-scraping
、
domdocument
、
fetch
我有一个
网页
,我想要提取所有跨度和锚标签值从一个表中的ticker。像这个LPCL,11.06等,我尝试了curl和
php
dom文档。它不起作用。
浏览 1
提问于2014-01-23
得票数 0
2
回答
HTML屏幕
抓取
-并非所有元素都在HttpWebResponse中
c#
、
screen-scraping
我目前正在尝试使用以下代码进行屏幕
抓取
:HttpWebResponse
浏览 0
提问于2012-06-22
得票数 2
回答已采纳
3
回答
如何让网络爬虫在后台
抓取
网页
?
php
、
web-crawler
我目前正在开发一个网络爬虫在
PHP
中,它仍然是一个简单的,但我想知道的是,我怎样才能使我的爬虫在后台爬行页面,而不使用我的带宽,我必须使用一些cron作业,我想它自动存储在数据库中的数据。
php
ini_set('max_execution_time*>(.*)<\/a>"
浏览 2
提问于2015-08-06
得票数 0
2
回答
如何在
多线程
时分别
抓取
项目?
c#
、
multithreading
我对
多线程
是个新手(就像我今天晚上开始学习的那样),而且我刚刚写了一个我自己制作的
多线程
的刮板。但它只在两个线程上
抓取
相同的数据两次,而不是单独
抓取
,这就是我将其设为
多线程
的原因(为了提高时间效率1 3 5 7 我将程序设置为使用2个线程,输出类似于:2 2 3 5 4 7 8 8 基本上,与
多线程
抓
浏览 1
提问于2014-04-26
得票数 0
5
回答
Python中的
多线程
爬虫真的可以提高速度吗?
python
、
multithreading
、
gil
我开始研究将其编写为
多线程
脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络爬虫有什么影响?基本上我想问的是,用python做一个
多线程
爬虫真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
1
回答
如何从url中获取丰富的内容(比如不和谐)?
embed
我想用
php
或javascript来做。示例:
浏览 4
提问于2020-10-04
得票数 0
回答已采纳
4
回答
c# .net 4.5异步/
多线程
?
c#
、
multithreading
、
.net-4.5
我正在编写一个从
网页
抓取
数据的C#控制台应用程序。我现在让它在没有异步方法和
多线程
的情况下工作。它只使用了3%-6%的CPU,我想是因为它花费了等待下载
网页
的时间。url); } 我一直在尝试
浏览 0
提问于2012-07-25
得票数 28
回答已采纳
1
回答
简化一次运行多个请求的流程
php
、
multithreading
、
simple-html-dom
我有一个网站的计划,它需要足够笨拙的
抓取
多个网站一次。我在想如何才能尽可能快地做到这一点,但我真的不知道怎么做。$html = file_get_html($fullUrl); 如果我想一次
抓取
多个站点,我是否可以通过将其分支到不同的
PHP
文档来简化
抓取
过程,比如使用单独的simple_html
浏览 2
提问于2018-03-31
得票数 0
1
回答
验证来自cURL的完整响应
php
、
curl
、
web-scraping
有时,当使用多个并发连接和
抓取
我的
PHP
脚本中的cURL时,会返回不完整的
网页
。curl_getinfo()中有没有一些值可以让我知道一个
网页
是100%被
抓取
还是只有90%被
抓取
?
浏览 0
提问于2013-04-12
得票数 0
回答已采纳
1
回答
Facebook Feed (使用
PHP
的RSS)
php
、
rss
我如何在我的网站上使用
PHP
实现这一点? 我需要学习什么才能实现它?
浏览 1
提问于2010-11-02
得票数 0
回答已采纳
3
回答
Python线程模块的处理顺序
python
、
web-crawler
、
python-2.7
我正在编写一个web爬虫,它同时处理多个URL,并以下列方式工作:就像大多数网络爬虫一样。当我使其为单线程时,我可以以与seed_list.txt中的URL相同的顺序获得seed_list.txt中的数据,但当它是
多线程
时,我似乎无法控制它,因为每个线程都会在数据完成后将数据写入data.txt有没有办法使我的
网页
爬虫
多线程
,但保持原来的秩序?谢谢你们的帮助
浏览 5
提问于2012-04-02
得票数 2
回答已采纳
3
回答
将
php
页面转换为java代码
java
、
php
我有一个
网页
,即
php
页面,它是一个表格。我想把这个页面带到java中,即在java页面中,我想使用.
php
页面的网址显示此表单。这是可能的吗?如果是的话,是如何实现的?有问题的澄清: 我有一个java
网页
。在这个
网页
上,我想要一个Iframe或任何类似的东西,它将显示一个使用
php
url的
php
表单,并执行保存操作。
浏览 1
提问于2012-07-02
得票数 0
回答已采纳
2
回答
Python
抓取
包含
PHP
的页面源代码
python
、
python-3.3
我知道如何
抓取
源代码HTML,但不知道
PHP
,有没有可能用内置的函数?
浏览 0
提问于2013-02-25
得票数 0
回答已采纳
3
回答
从许多不同网站上
抓取
数据的最好方法
programming-languages
、
html-parsing
、
screen-scraping
此数据不是以任何标准格式(XML、RSS等)提供的并且必须从HTML中
抓取
。我需要
抓取
这些数据,并将其存储在数据库中以备将来参考。理想情况下,
抓取
例程将在循环的基础上运行,并且只将新记录存储在数据库中。对于我来说,应该有一种方法可以在这些网站上轻松地检测到旧记录中的新记录。有什么建议吗?
浏览 0
提问于2012-09-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python之多线程爬虫抓取网页图片
网页视频抓取插件-免费网页视频抓取插件
如何抓取网页中的表格
如何用java实现抓取网页图片
理解网页数据抓取的原理
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券