数学之美(二)

总第75篇

本篇为数学之美连载篇二,你还可以看:数学之美(一)

11|矩阵运算与文本处理:

无论是词汇的聚类还是文本的分类,都可以通过线性代数中的奇异值分解来进行,这样自然语言的处理问题就变成了数学问题。

我们在前面讲过利用余弦定理去对新闻进行分类,这种方法需要对所有新闻做两两的计算,而且要进行很多次迭代,耗时会特别长,尤其是当新闻的数量很大且词表也很大的时候,所以我们就在想,有没有一种办法可以一次性把所有的新闻相关性计算出来。这种方法就是奇异值分解,简称SVD。

奇异值分解是将一个大矩阵分解成三个小矩阵相乘

  • 其中这个大矩阵行表示文章,即每一篇对应一篇文章,每一列对应文章中的一个词。三个小矩阵的第一个小矩阵是对词进行分类的一个结果。他的每一行表示一个词,每一列表示一个语义相近的词类,这一行的每个非零元素表示这个词在每个语义类中的重要性(或相关性),数值越大越相关。
  • 最后一个矩阵是对文本的分类结果,他的每一列对应一篇文本,每一行对应一个主题。
  • 中间的矩阵表示词的类和文章的类之间的相关性。

余弦分类和奇异值分类两种方法的优缺点:

奇异值分解的优点是能够快速得到结果,但是结果较为粗糙,适合于大规模文本的初分类。而余弦分类计算较慢,结果较为准确,在实际应用中可以先进行奇异值分解得到粗分类结果,再利用向量余弦在粗分类的基础上进行迭代。

12|信息指纹及其应用:

信息指纹和人类指纹是一样的道理,人与人之间是不存在相同指纹的,所以可以用指纹来辨别某个人。而每条信息(视频、文字、音频等内容)也会有自己所特有的表征信息,这就是信息指纹。

信息指纹最常见的应用就是反盗版,通过对比原创和非原创的信息指纹即可。

13|搜索引擎反作弊和搜索结果权威性:

搜索引擎的反作弊是因为有人针对搜索引擎作弊,而这些作弊的人看到了搜索引擎的排名,好的排名就可以获得好的流量就可以获得好的商业价值。在前面的章节说过,排名与网站的本身的质量度(即指向这个网页的其他网页的次数)有关。所以就有人抓住这个点,贩卖链接,对质量度进行干扰。而反作弊就是找到这些作弊的(噪声),然后把他们的这些虚假质量度去掉,就是正常的排名情况。

搜索引擎的权威性 在前面的章节中我们有提到搜索引擎的相关性,就是指搜索词与目标网页的相关程度。而权威性是用来反应目标网页的可信程度,用权威度来衡量。

计算权威度的步骤: 1、对每一个网页正文(包括标题)中的每一句进行句法分析,然后找到涉及主题的短语(比如吸烟有害健康)以及对信息来源(比如国际卫生组织)的描述。 2、利用互信息,找到主题短语和信息源的相关性。 3、对主题短语进行聚合,把相同意思,不同表达方式的词语进行整合,其实和新闻分类类似,把相同主题的聚集成一类。(比如吸烟的危害和煤焦油的危害),采用矩阵运算即可。 4、对网站内容进行聚合,有一些是与主题有关的,有一些是无关的。

14|逻辑回归和搜索广告:

逻辑回归主要被用来预测用户可能会点击哪些广告。就是我们常听说的点击率预测。预测的原理把用户的一些信息(搜索词,性别,地域,身份等信息)当做回归参数,然后去预测该用户点击哪种广告的可能性较大,然后去显示哪种广告。

15|各个击破算法:

对于一些计算量较大的问题,我们将其分解成若干小问题,单独运行,最后进行合并即可,也就是所谓的分布式运算,对于这种算法现在已经有现成的平台-mapreduce。

原文发布于微信公众号 - 张俊红(zhangjunhong0428)

原文发表时间:2017-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

谷歌大规模机器学习:模型训练、特征工程和算法选择 (32PPT下载)

【新智元导读】在 ThingsExpo 会议上,谷歌软件工程师 Natalia Ponomareva 作了有关如何在大规模机器学习中取得成功的讲座。Natali...

39610
来自专栏目标检测和深度学习

听说了吗?你也可以在18分钟内训练ImageNet了

该团队的主要训练方法是:fast.ai 用于分类任务的渐进式调整大小和矩形图像验证;英伟达的 NCCL 库,该库整合了 PyTorch 的 all-reduce...

1134
来自专栏GAN&CV

Rules of Machine Learning: Best Practices for ML Engineering

原文地址:https://developers.google.com/machine-learning/rules-of-ml/ 作者:Martin Zin...

1483
来自专栏机器之心

斯坦福提出机器学习开发新思路:无Bug的随机计算图Certigrad(已开源)

选自Github 机器之心编译 参与:李泽南、蒋思源 在实践中,机器学习算法经常会出现各种错误,而造成错误的原因也经常难以找到。近日,斯坦福大学的研究者提出了...

2807
来自专栏深度学习之tensorflow实战篇

协同过滤算法概述与python 实现协同过滤算法基于内容(usr-item,item-item)

协调过滤推荐概述   协同过滤(Collaborative Filtering)作为推荐算法中最经典的类型,包括在线的协同和离线的过滤两部分。所谓在线协同,...

7684
来自专栏美团技术团队

美团技术团队博客:推荐算法实践

前言 推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。 随着互联网的深...

48511
来自专栏ArrayZoneYour的专栏

TensorFlow强化学习入门(2)——基于策略的Agents

在本教程系列的(1)中,我演示了如何构建一个agent来在多个选择中选取最有价值的一个。在本文中,我将讲解如何得到一个从现实世界中获取 观测值 ,并作出 长期收...

7816
来自专栏非著名程序员

GitHub 上最火,最热门的机器学习和人工智能,数据科学项目

最近,普拉纳夫 · 达尔(Pranav Dar)发文总结了 2018 年 2 月份 Github 上最火的 5 个数据科学和机器学习项目。

1133
来自专栏机器之心

初学者怎么选择神经网络环境?对比MATLAB、Torch和TensorFlow

选自arXiv 机器之心编译 参与:吴攀、蒋思源、李亚洲 初学者在学习神经网络的时候往往会有不知道从何处入手的困难,甚至可能不知道选择什么工具入手才合适。近日...

45810
来自专栏企鹅号快讯

强化学习从入门到放弃

重要概念 强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。 强化学习的目的是学习一个策略...

3495

扫码关注云+社区

领取腾讯云代金券