前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自然语言处理 NLP(1)

自然语言处理 NLP(1)

作者头像
村雨遥
发布2022-06-15 09:17:31
2690
发布2022-06-15 09:17:31
举报
文章被收录于专栏:JavaParkJavaPark

NLP

  • 自然语言:指一种随着社会发展而自然演化的语言,即人们日常交流所使用的语言;
  • 自然语言处理:通过技术手段,使用计算机对自然语言进行各种操作的一个学科;

NLP研究的内容

  • 词意消歧;
  • 指代理解;
  • 自动生成语言;
  • 机器翻译;
  • 人机对话系统;
  • 文本含义识别;

NLP处理

  • 语料读入
    • 网络
    • 本地
  • 分词
代码语言:javascript
复制
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time    : 2018-9-28 22:21
# @Author  : Manu
# @Site    : 
# @File    : python_base.py
# @Software: PyCharm

import urllib
from nltk import word_tokenize
from bs4 import BeautifulSoup

# 在线文档下载
url = 'http://www.gutenberg.org/files/2554/2554-0.txt'
res = urllib.request.urlopen(url)
raw = res.read().decode('utf8')
print('length', len(raw))
print('type', type(raw))
print(raw[:100])

# 分词
tokens = word_tokenize(raw)
print(tokens[:50])
print('length:' + str(len(tokens)))
print('type:', type(tokens))

# 创建文本
text = nltk.Text(tokens)
print('type', type(text))
print('length', len(text))
print(text)
  • 基于此单位的文本分析
    • 正则表达式
  • 分割
    • 断句
    • 分词
  • 规范化输出

中文分词及相应算法

  • 基于字典、词库匹配;
    • 正向最大匹配;
    • 逆向最大匹配;
    • 双向最大匹配;
    • 设立切分表执法;
    • 最佳匹配;
  • 基于词频度统计;
    • N-gram模型;
    • 隐马尔科夫模型;
    • 基于字标注的中文分词方法;
  • 基于知识理解;

分词方法比较

结巴分词

  • 安装 在控制台使用pip install jieba即可安装;
  • 功能
    • 分词;
      • jieba.cutjieba.cut_for_search
    • 添加自定义词典;
      • jieba.load_userdict(file_name)add_word(word, freq=None, tag=None)jieba.del_word(word)jieba.suggest_freq(segmen, tune=True)
    • 关键词提取;
      • jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
      • jieba.analyse.set_idf_path(file_name)
      • jieba.analuse.set_stop_words(file_name)
    • 词性标注;
      • jieba.tokenize()
      • jieba.posseg.cut()
    • 并行分词;
    • 词汇搜索;
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-09-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • NLP
  • NLP研究的内容
  • NLP处理
  • 中文分词及相应算法
  • 分词方法比较
  • 结巴分词
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档