文章/答案/技术大牛

发布

首页视频第 7 章处理文本数据（3）

第 7 章处理文本数据（3）原创

2021-08-202021-08-20 09:08:23播放1.3K

点赞1 收藏 0

高级分词、词干提取与词形还原

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
7.8高级分词磁干提取与词形还原正如前面所说，Countr和t fidf中特征提取相对简单，还有更为复杂的方法。在更加复杂的文本处理应用中，通常需要改进的步骤是磁带模型的第一步分词organization，这一步骤为特征提取定义了一个单词是如何构成的。我们在前面看到，词表中通常同时包含某些单词的单数形式和复数形式。比如drawback和drawbacks draw和draws drawing和drawings。对于子弹模型而言，Drawback和drawbacks的语义非常的接近，区分二者只会增加过拟合，并导致模型无法充分利用训练数据。同样，我们还发现词表中项replace replaced。
01:03
Replacementplas和placing这样的单词，它们都是动词replace的不同动词形式，或者说相关的名词，与名词的单复数形式一样。将不同的动词形式及相关单词视为不同的词，这不利于构建具有良好泛化性能的模型。这个问题可以通过词干what。表示每个单词来解决。这一方法涉及找出或合并conflict。所有具有相同词干的单词，如果基于规则的写发法来实现，比如删除常见的后缀，那么通常将其称为词干提取得。如何使用的是由已知单词形式组成的字典，明确的且经过人工验证的系统，并且考虑了单词在句子中的作用，那么这个过程被称为词形还原。
02:07
The Mo。单词的标准化形式被称为词源。那么。词干提取和词性还原这两种处理方法都是标准化normalization的形式之一。标准化是指尝试提取一个单词的某种标准形式。标准化的另一个有趣的例子是拼写校正，这种方法在实践中很有用，但是超出了本书的范围。为了更好的理解标准化，我们来对比一种词干提取方法。Porter磁干提取器，一种广泛使用的启发法集合，从NLTK包中导入与space包。当中实现磁性还原。安装space包之后，需要下载相应的语言包。
03:05
在终端下输入杠M。Download e。来下载英语的语言包。按回收执行这条命令就进行下载，当然火器已经下载好了。当然，如果你想要了解NLTK和space的接口的细节，可以参考一下。文档，我们这里更关注一般性的原则。我们将用一个句子来比较磁性还原与port磁干提取器，以显示二者的一些区别。
04:05
注意一点，7.5版的space将all等代词全部还回。Pro。前面后面各一个中华线，也就各一个简号，详情可以参考一下space的官方文档。磁干提取总是局限于将单词简化成为磁干。因此。What？变为o wa。而词形还原可以得到正确的动词基本原型。B。同样，磁性还原可以将卧室标准化。为在。而此战比举得到的是沃W。另一个主要区别在于实干提取。将两处的谜。
05:05
都化为了me。利用词性还原，第一处的meeting被认为是名词，所以没有变化。而第二步的。MY。被认为是动词，所以变为meet。一般来说，磁性还原是一个比磁干提取更复杂的过程，但由于机器学习的磁力标准化时，通常可以给出比词干提取更好的结果。虽然S没有实现这两种形式的标准化，但count rise允许使用ton参数来指定使用你自己的分词器将每个文档转换为磁力列表。我们可以使用space的词性还原。
06:01
创建一个可交互对象，它接受一个字符串，并生成一个词源列表。我们尝试变换数据。并检查词表的大小。从输出中可以看到。磁性还原将特征数量从27271个标准的con right处理过程减少到了21610个。磁性还原可以被看作是一种正则化，因为它合并了某些特征。因此我们预计数据集很小时磁性还原对性能提升最大。为了说明磁性还原的作用，我们将使用strict shale split做交叉验证，只使用1%的数据。
07:05
作为训练数据，其余的作为测试数据。在这个例子中，磁性还原对性能有较小的提高。与许多特征提取技术一样，其结果因数据集的不同而不同。词性还原与词干提取有时有助于构建更好的模型或至少是更简洁的模型。所以我们建议你在特定任务中努力提升最后一点性能时，可以尝试一下这样的技术。

展开

我来说两句

0 条评论

登录后参与评论

作者

不可言诉的深渊

【合辑】《Python 机器学习基础教程》演示视频_已获出版社授权

（45/47）

24分48秒

第 1 章引言（1）

7.3K44

55分54秒

第 1 章引言（2）

6.1K9

6分12秒

第 1 章引言（3）

53分35秒

第 1 章引言（4）

3.4K8

28分33秒

第 2 章监督学习（1）

3K3

52分48秒

第 2 章监督学习：k 近邻

3.4K2

57分13秒

第 2 章监督学习：线性模型（1）

1时8分

第 2 章监督学习：线性模型（2）

37分11秒

第 2 章监督学习：朴素贝叶斯分类器

46分27秒

第 2 章监督学习：决策树

2.2K1

31分24秒

第 2 章监督学习：决策树集成

7171

36分15秒

第 2 章监督学习：核支持向量机（1）

50分55秒

第 2 章监督学习：核支持向量机（2）

1.2K0

30分16秒

第 2 章监督学习：神经网络（1）

1K0

42分38秒

第 2 章监督学习：神经网络（2）

1.1K0

1时1分

第 2 章监督学习（2）

42分12秒

第 3 章无监督学习与预处理（1）

45分52秒

第 3 章无监督学习与预处理：主成分分析（1）

8700

34分54秒

第 3 章无监督学习与预处理：主成分分析（2）

32分42秒

第 3 章无监督学习与预处理：非负矩阵分解

110

15分55秒

第 3 章无监督学习与预处理：用 t-SNE 进行流形学习

1.2K0

23分30秒

第 3 章无监督学习与预处理：k 均值聚类（1）

1.2K0

15分48秒

第 3 章无监督学习与预处理：k 均值聚类（2）

6600

23分14秒

第 3 章无监督学习与预处理：凝聚聚类

1.2K0

11分57秒

第 3 章无监督学习与预处理：DBSCAN

25分23秒

第 3 章无监督学习与预处理（2）

38分30秒

第 3 章无监督学习与预处理（3）

5分17秒

第 3 章无监督学习与预处理（4）

32分31秒

第 4 章数据表示与特征工程（1）

20分16秒

第 4 章数据表示与特征工程（2）

26分39秒

第 4 章数据表示与特征工程（3）

40分50秒

第 4 章数据表示与特征工程（4）

11分56秒

第 4 章数据表示与特征工程（5）

1.2K0

38分40秒

第 5 章模型评估与改进（1）

18分42秒

第 5 章模型评估与改进（2）

1.2K0

34分43秒

第 5 章模型评估与改进（3）

7分14秒

第 5 章模型评估与改进（4）

37分1秒

第 5 章模型评估与改进（5）

1.2K0

55分53秒

第 5 章模型评估与改进（6）

9660

29分27秒

第 5 章模型评估与改进（7）

29分14秒

第 6 章算法链与管道（1）

16分48秒

第 6 章算法链与管道（2）

27分3秒

第 7 章处理文本数据（1）

16分43秒

第 7 章处理文本数据（2）

7分45秒

第 7 章处理文本数据（3）

1.3K1

15分22秒

第 7 章处理文本数据（4）

26分7秒

第 8 章全书总结

第 7 章处理文本数据（3）原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 7 章 处理文本数据（3）原创

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

第 7 章处理文本数据（3）原创