问可能的反爬行者
EN

Stack Overflow用户

提问于 2011-04-07 19:50:48

回答 1查看 124关注 0票数 1

对于一个教育NLP项目，我需要一个所有意大利语单词的列表。我想我会写一个爬虫，从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时：

 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制？

回答已采纳

发布于 2011-04-08 05:07:12

我建议使用现有的数据集，以下是此acl wiki page中的一些示例

语料：

WordNets

请查看acl维基页面上的完整列表，我认为您应该找到意大利语语料库，该语料库允许您定义意大利语单词。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5580557

复制

相似问题

问可能的反爬行者EN