00:00
7.8高级分词磁干提取与词形还原正如前面所说,Countr和t fidf中特征提取相对简单,还有更为复杂的方法。在更加复杂的文本处理应用中,通常需要改进的步骤是磁带模型的第一步分词organization,这一步骤为特征提取定义了一个单词是如何构成的。我们在前面看到,词表中通常同时包含某些单词的单数形式和复数形式。比如drawback和drawbacks draw和draws drawing和drawings。对于子弹模型而言,Drawback和drawbacks的语义非常的接近,区分二者只会增加过拟合,并导致模型无法充分利用训练数据。同样,我们还发现词表中项replace replaced。
01:03
Replacementplas和placing这样的单词,它们都是动词replace的不同动词形式,或者说相关的名词,与名词的单复数形式一样。将不同的动词形式及相关单词视为不同的词,这不利于构建具有良好泛化性能的模型。这个问题可以通过词干what。表示每个单词来解决。这一方法涉及找出或合并conflict。所有具有相同词干的单词,如果基于规则的写发法来实现,比如删除常见的后缀,那么通常将其称为词干提取得。如何使用的是由已知单词形式组成的字典,明确的且经过人工验证的系统,并且考虑了单词在句子中的作用,那么这个过程被称为词形还原。
02:07
The Mo。单词的标准化形式被称为词源。那么。词干提取和词性还原这两种处理方法都是标准化normalization的形式之一。标准化是指尝试提取一个单词的某种标准形式。标准化的另一个有趣的例子是拼写校正,这种方法在实践中很有用,但是超出了本书的范围。为了更好的理解标准化,我们来对比一种词干提取方法。Porter磁干提取器,一种广泛使用的启发法集合,从NLTK包中导入与space包。当中实现磁性还原。安装space包之后,需要下载相应的语言包。
03:05
在终端下输入杠M。Download e。来下载英语的语言包。按回收执行这条命令就进行下载,当然火器已经下载好了。当然,如果你想要了解NLTK和space的接口的细节,可以参考一下。文档,我们这里更关注一般性的原则。我们将用一个句子来比较磁性还原与port磁干提取器,以显示二者的一些区别。
04:05
注意一点,7.5版的space将all等代词全部还回。Pro。前面后面各一个中华线,也就各一个简号,详情可以参考一下space的官方文档。磁干提取总是局限于将单词简化成为磁干。因此。What?变为o wa。而词形还原可以得到正确的动词基本原型。B。同样,磁性还原可以将卧室标准化。为在。而此战比举得到的是沃W。另一个主要区别在于实干提取。将两处的谜。
05:05
都化为了me。利用词性还原,第一处的meeting被认为是名词,所以没有变化。而第二步的。MY。被认为是动词,所以变为meet。一般来说,磁性还原是一个比磁干提取更复杂的过程,但由于机器学习的磁力标准化时,通常可以给出比词干提取更好的结果。虽然S没有实现这两种形式的标准化,但count rise允许使用ton参数来指定使用你自己的分词器将每个文档转换为磁力列表。我们可以使用space的词性还原。
06:01
创建一个可交互对象,它接受一个字符串,并生成一个词源列表。我们尝试变换数据。并检查词表的大小。从输出中可以看到。磁性还原将特征数量从27271个标准的con right处理过程减少到了21610个。磁性还原可以被看作是一种正则化,因为它合并了某些特征。因此我们预计数据集很小时磁性还原对性能提升最大。为了说明磁性还原的作用,我们将使用strict shale split做交叉验证,只使用1%的数据。
07:05
作为训练数据,其余的作为测试数据。在这个例子中,磁性还原对性能有较小的提高。与许多特征提取技术一样,其结果因数据集的不同而不同。词性还原与词干提取有时有助于构建更好的模型或至少是更简洁的模型。所以我们建议你在特定任务中努力提升最后一点性能时,可以尝试一下这样的技术。
我来说两句