村雨遥
自然语言处理 NLP(2)
关注作者
前往小程序,Get
更优
阅读体验!
立即前往
腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
村雨遥
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
社区首页
>
专栏
>
自然语言处理 NLP(2)
自然语言处理 NLP(2)
村雨遥
关注
发布于 2022-06-15 09:17:53
1.1K
0
发布于 2022-06-15 09:17:53
举报
文章被收录于专栏:
JavaPark
词性标注
标注语料库;
各词性标注及其含义
自动标注器;
默认标注器;
正则表达式标注器;
查询标注器;
N-gram标注器;
一元标注器;
分离训练和测试数据;
一般的N-gram的标注;
组合标注器;
标注生词;
储存标注器;
性能限制;
跨句子边界标注;
隐马尔科夫标注器;
生成模式;
确定模式;
非确定模式;
隐藏模式;
隐马尔科夫模型 HMM
是一种统计模型,用于描述一个含有隐含未知参数的马尔科夫过程,难点在于从可观察的参数中确定此过程的隐含参数,然后利用这些参数进行下一步的分析,可当做一种转移矩阵;
一个隐马尔科夫模型是一个三元组(pi, A, B);
隐马尔科夫模型的三大基本问题与解决方案包括:
对于一个观察序列匹配最可能的系统一一评估,使用前向算法(forward algorithm)解决;
对于已生成的一个观察序列,确定最可能的隐藏状态序列一一解码,使用维特比算法(Viterbi algorithm)解决;
对于已生成的观察序列,决定最可能的模型参数一一学习,使用前向-后向算法(forward backward algorithm)解决;
文本分类
分类的使用
根据名字判别性别;
文本分类;
词性分类;
句子分割;
识别对话行为;
分类算法
朴素贝叶斯分类器;
决策树
建立分类器的步骤:
确定输入特征—特征提取器;
划分数据集;
使用训练集构建分类器;
使用测试集测试分类器效果;
分类的类别
文档分类
特征提取器:关键字是否在文档中;
分类器训练;
词性判断
特征提取器:词后缀
分类器训练:决策树分类器
基于上下文的词性判断;
序列分类
贪婪序列分类;
隐马尔科夫模型;
句子分割:标点符号的分类任务
识别对话行为类型;
评估
训练集与测试集的划分
准确度
正确分类数目/待分类数目
精确度(precision)
TP/(TP+FP)
召回率(recall)
TP/(TP+FN)
F-度量值(F-score)
(2*Precison*Recall)/(Precison + Recall)
文本聚类
特征选择(feature selection)
近邻测度(proximity measure)
聚类准则(clustering criterion)
聚类算法(clustering algorithm)
结果验证(valida of the results))
结果解释(interpretation of the results)
聚类与分类的区别
聚类:通过把相似对象通过静态分类方法分成不同组别或子集的过程;
聚类分析的是研究事先在没有训练的条件下如何把样本划分为若干类的问题;
而在分类中,对于目标数据库中存在哪些类是事先知道的,需要做的是将每一条记录分别属于的类别标记出来;
聚类需要解决的问题是将给定的若干无标记的模式聚集起来让它们成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少泪的情况下,希望将所有记录组成不同的类或聚类,并在这种分类情况下,以某种度量为标准的相似度,在同一聚类之间最小化,而在不同聚类之间最大化;
与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据样本有类别标记;
本文参与
腾讯云自媒体同步曝光计划
,分享自作者个人站点/博客。
原始发表:2018-10-02,如有侵权请联系
cloudcommunity@tencent.com
删除
前往查看
编程算法
决策树
机器学习
神经网络
深度学习
本文分享自
作者个人站点/博客
前往查看
如有侵权,请联系
cloudcommunity@tencent.com
删除。
本文参与
腾讯云自媒体同步曝光计划
,欢迎热爱写作的你一起参与!
编程算法
决策树
机器学习
神经网络
深度学习
评论
登录
后参与评论
0 条评论
热度
最新
推荐阅读
LV.
文章
0
获赞
0
目录
词性标注
隐马尔科夫模型 HMM
文本分类
分类的使用
分类算法
建立分类器的步骤:
分类的类别
评估
文本聚类
聚类与分类的区别
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档
0
0
0
推荐