首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >可能的反爬行者

可能的反爬行者
EN

Stack Overflow用户
提问于 2011-04-07 19:50:48
回答 1查看 124关注 0票数 1

对于一个教育NLP项目,我需要一个所有意大利语单词的列表。我想我会写一个爬虫,从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时:

代码语言:javascript
运行
复制
 br = mechanize.Browser()
 br.open("http://www.wordreference.com/iten/abaco")
 html = br.response().get_data()
 print html

我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-04-08 05:07:12

我建议使用现有的数据集,以下是此acl wiki page中的一些示例

语料:

  • ...
  • Oxford Text Archive Corpus of Italian Newspapers ...
  • ...

WordNets

  • EuroWordNet
  • MultiWordNet -一个多语言词汇数据库,其中的意大利语WordNet与普林斯顿WordNet 1.6严格一致...

请查看acl维基页面上的完整列表,我认为您应该找到意大利语语料库,该语料库允许您定义意大利语单词。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/5580557

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档