对于一个教育NLP项目,我需要一个所有意大利语单词的列表。我想我会写一个爬虫,从www.wordreference.com获取单词。我在机械化爬虫框架中使用Python。但当我使用代码时:
br = mechanize.Browser()
br.open("http://www.wordreference.com/iten/abaco")
html = br.response().get_data()
print html
我从"yahoo.com“那里得到了一些页面。这个网站有没有可能有防爬虫机制?
发布于 2011-04-08 05:07:12
我建议使用现有的数据集,以下是此acl wiki page中的一些示例
语料:
WordNets
请查看acl维基页面上的完整列表,我认为您应该找到意大利语语料库,该语料库允许您定义意大利语单词。
https://stackoverflow.com/questions/5580557
复制相似问题