前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NLTK-003:词典资源

NLTK-003:词典资源

作者头像
李玺
发布2021-11-22 14:17:15
4640
发布2021-11-22 14:17:15
举报
文章被收录于专栏:爬虫逆向案例

词典或者词典资源的意思是一个 词或短语 以及一些相关信息的集合。例如:词性和词意定义等相关信息。词典资源附属于文本,通常在文本的帮助下创建和丰富。

词汇列表语料库

nltk.corpus.words 仅仅包含词汇列表的语料库,可以用来寻找文本语料中不常见的或者拼写错误的词汇

代码语言:javascript
复制
import nltk
def unusual_words(text):
    text_vocab = set([w.lower() for w in text if w.isalpha()])
    english_vocab = set([w.lower() for w in nltk.corpus.words.words()])
    unusual = text_vocab.difference(english_vocab)#集合的差集
    return sorted(unusual)

print unusual_words(nltk.corpus.gutenberg.words('austen-sense.txt'))

输出:[u’abbeyland’, u’abhorred’, u’abilities’, u’abounded’, u’abridgement’, u’abused’, u’abuses’, …u’years’, u’yielded’, u’youngest’]

停用词语料库

代码语言:javascript
复制
print(nltk.corpus.stopwords.words('english'))#英语停用词

输出:[‘i’, ‘me’, ‘my’, ‘myself’, ‘we’, ‘our’, ‘ours’, …wouldn’t"]

代码语言:javascript
复制
print(nltk.corpus.stopwords.words('French'))#法语停用词

名字语料库

nltk.corpus.names 包括8000个按性别分类的名字。男女的名字存储在单独的文件

代码语言:javascript
复制
names = nltk.corpus.names
cfd = nltk.ConditionalFreqDist(
    (fileid, name[-1])
    for fileid in names.fileids()
    for name in names.words(fileid))

cfd.plot()
在这里插入图片描述
在这里插入图片描述

发音的词典 属于表格词典 ,NLTK中包括美国CMU发音词典,它是为语音合成器使用而设计的。

代码语言:javascript
复制
entries = nltk.corpus.cmudict.entries()
for entr in entries:
    print(entr)

输出结果:

在这里插入图片描述
在这里插入图片描述

对任意一个词,词典资源都有语音的代码——不同的声音有着不同的标签称作音素

比较词表 nltk.corpus.swadesh 包括几种语言的约200个常用词的列表

代码语言:javascript
复制
from nltk.corpus import swadesh
swadesh.fileids()

输出结果:[‘be’, ‘bg’, ‘bs’, ‘ca’, ‘cs’, ‘cu’, ‘de’, ‘en’, ‘es’, ‘fr’, ‘hr’, ‘it’, ‘la’, ‘mk’, ‘nl’, ‘pl’, ‘pt’, ‘ro’, ‘ru’, ‘sk’, ‘sl’, ‘sr’, ‘sw’, ‘uk’]

代码语言:javascript
复制
swadesh.words('en')#英语

输出结果:[u’I’,u’you (singular), thou’,u’he’,u’we’,…u’if’, u’because’, u’name’]

简单的翻译器

代码语言:javascript
复制
fr2en = swadesh.entries(['fr','en'])
translate = dict(fr2en)
print(translate['chien'])
print(translate['nom'])

输出: dog、name

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/05/17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音合成
语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档