非主流自然语言处理——遗忘算法系列(三):分词

一、前言

  前面介绍了词库的自动生成的方法,本文介绍如何利用前文所生成的词库进行分词。

二、分词的原理

  分词的原理,可以参看吴军老师《数学之美》中的相关章节,这里摘取Google黑板报版本中的部分:

  从上文中,可以知道分词的任务目标:给出一个句子S,找到一种分词方案,使下面公式中的P(S)最大:

  不过,联合概率求起来很困难,这种情况我们通常作马尔可夫假设,以简化问题,即:任意一个词wi的出现概率只同它前面的词 wi-1 有关。

  关于这个问题,吴军老师讲的深入浅出,整段摘录如下:

  另外,如果我们假设一个词与其他词都不相关,即相互独立时,此时公式最简,如下:

  这个假设分词无关的公式,也是本文所介绍的分词算法所使用的。

三、算法分析

  问:假设分词结果中各词相互无关是否可行?

  答:可行,前提是使用遗忘算法系列(二)中所述方法生成的词库,理由如下:

  分析ICTCLAS广受好评的分词系统的免费版源码,可以发现,在这套由张华平、刘群两位博士所开发分词系统的算法中假设了:分词结果中词只与其前面的一个词有关。

  回忆我们词库生成的过程可以知道,如果相邻的两个词紧密相关,那么这两个词会连为一个粗粒度的词被加入词库中,如:除“清华”、“大学”会是单独的词外,“清华大学”也会是一个词,分词过程中具体选用那种,则由它们的概率来决定。

  也就是说,我们在生成词库的同时,已经隐含的完成了相关性训练。

  关于ICTCLAS源码分析的文章,可以参看吕震宇博文:《天书般的ICTCLAS分词系统代码》。

  问:如何实现分词?

  答:基于前文生成的词库,我们可以假设分词结果相互无关,分词过程就比较简单,使用下面的步骤可以O(N)级时间,单遍扫描完成分词:

  逐字扫描句子,从词库中查出限定字长内,以该字结尾的所有词,分别计算其中的词与该词之前各词的概率乘积,取结果值最大的词,分别缓存下当前字所在位置的最大概率积,以及对应的分词结果。

  重复上面的步骤,直到句子扫描完毕,最后一字位置所得到即为整句分词结果。

  3、算法特点

    3.1、无监督学习;

    3.2、O(N)级时间复杂度;

    3.3、词库自维护,程序可无需人工参与的情况下,自行发现并添加新词、调整词频、清理错词、移除生僻词,保持词典大小适当;

    3.4、领域自适应:领域变化时,词条、词频自适应的随之调整;

    3.5、支持多语种混合分词。

往期回顾 :

非主流自然语言处理——遗忘算法系列(一):算法概述

非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2016-09-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

Caffe2推出强化学习库,包含多个基于Caffe2的RL实现

安妮 编译自 Caffe2.ai 量子位 出品 | 公众号 QbitAI 今年4月,Facebook正式发布了轻量化和模块化的深度学习框架Caffe2。将近5个...

37270
来自专栏深度学习与数据挖掘实战

基于PredictionIO的推荐引擎打造,及大规模多标签分类探索

在2015年3月21日的北京Spark Meetup第六次活动上,一场基于Spark的机器学习专题分享由微软Julien Pierre、新浪网白刚与Intel研...

16840
来自专栏量子位

一样的打游戏,不一样的酷

夏乙 问耕 假装发自 凹非寺 量子位 出品 | 公众号 QbitAI ? 假期模式已经开启了~ 学生党已经赋闲在家,工业党不少也已带着橘子返乡。 阖家欢乐,面对...

38770
来自专栏新智元

【TensorFlow开发者峰会】重磅发布TensorFlow.js,完全在浏览器运行机器学习

18970
来自专栏CVer

【CVPR 2018】979篇录用论文合集下载

CVPR 2018 共计录用979篇论文,现已将所有 PDF文件打包成一个文件夹,并提供检索表格。前几天,CVPR 2018大会上刚刚发布了最佳论文奖、学生最佳...

18120
来自专栏大数据文摘

边玩边入门深度学习,我们帮你找了10个简易应用demo

44630
来自专栏ATYUN订阅号

TensorFlow:如何通过声音识别追踪蝙蝠

在之前的教程中,我们利用TensorFlow的Object Detector API训练了浣熊检测器,在这篇文章中,我将向你展示如何使用TensorFlow构建...

33550
来自专栏racaljk

人工智能各种技术与算法

>搜索策略(Search Strategies)//详细请参见http://blog.csdn.net/racaljk/article/details/1888...

42530
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/4/1

注意下面很多链接需要科学上网,无奈国情如此 1. TensorFlow开发者峰会昨天召开,我觉得有趣的演讲有 - TF Hub ("一键"transfer l...

33880
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/6/3

1. Judea Pearl上次在NIPS有一张令人唏嘘的照片,不过现在他又回来了,发了新书也给了一个访谈,说深度学习就像是curve fitting(我觉得没...

12440

扫码关注云+社区

领取腾讯云代金券