首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >最有效的语言来创建一个非常快的网络爬虫?

最有效的语言来创建一个非常快的网络爬虫?
EN

Stack Overflow用户
提问于 2014-02-19 15:47:06
回答 1查看 629关注 0票数 0

我正在创建一个新的网站,建议一个类别的链接。我需要快速扫描不同的网页。我应该使用哪种语言来创建一个高效的网络爬虫?

EN

回答 1

Stack Overflow用户

发布于 2014-02-19 15:55:11

利用你所知道的。找到用于爬行/抓取的当前首选语言的库,然后只在遇到瓶颈时才优化到新的语言。

如果您使用Python,那么stdlib有足够的html文本提取来处理基本内容,如果您需要更复杂的内容,可以尝试bs3(注意:使用bs4,它比Python更好)。

理想情况下,您应该在后台进行抓取/爬行,并以某种方式将缓存写入本地数据库。比如MariaSql、Postgres、Sqlite (多达一百万页左右),或者NoSQL解决方案之一。

如果你这样做了,并且你存储的格式是合理的标准,那么你可以很容易地替换代码,或者你以后使用的语言。

然后你可以把前面的web代码放在你喜欢的任何地方- php,python,任何东西,然后换成一个新的更高效的后端爬虫。如果你需要的话。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/21874177

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档