深度学习方式会被“计算机视觉”颠覆吗

文章来源：企鹅号 - 青亭网

hi188｜撰文

深度学习可以看作是机器学习研究的细分领域，其主要目的是建立、模拟人脑进行分析学习的神经网络，已到达模拟或实现人类的学习行为。

深度学习自21世纪以来，已经发展了很长一段时间。从最初简单的智能语音助手，到安防解决方案，再到自动驾驶/无人车等领域，如今应用愈加广泛。作为一个综合性的科学学科，深度学习这种极具潜力的技术，分析机构marketsandmarkets，预测今年深度学习市场规模达319亿美元，到2023年将达181.6亿美元。

不过，想要让深度学习充分理解并发挥出潜力，他也必须“学习”如何自我学习。

熟悉的朋友可能知道，深度学习的方法又分为：监督学习和无监督学习两种，不同学习框架下的模型不尽相同。

自我监督的深度学习

深度学习的魅力在于他们拥有够识别不同种类的模型的能力，例如声音信息、面部信息、图像信息，甚至是一段代码。

实际上，人工智能程序并不了解这些背后是什么，他们看到和处理的信息只是些字符串，毕竟这才是他们所擅长的。

深度学习的算法足够强大，基于深度学习的计算机视觉应用可以轻松的将不同种类的物体区分开，甚至还能够自动将其分类。

之所以机器能做到这一点，那是因为要对软件进行“监督”。

目前，这种“监督”方法使用最多的依然是最传统的“人工标注”方法，这个过程则需要通过人类大量、重复性的手工标注动作，目的就是引导机器去学习，然后把学到的东西应用到类似的场景中，以完成学习的过程。

可是，构建和标记大型数据集是一个重复性高、耗时耗力的程序，而且这个过程中一旦出错，那么则会直接影响机器学习的结果，当然随着大量数据的分析对结果可能影响不大，但准确度要求依然及高。

虽然无监督学习可以自主完成这部分内容，他们的方式是直接在应用环境中收集数据，以此进行分析和推测预期的结果。而且，无监督学习具备不可控性，往往被用于尝试性探索试验。而多数的应用场景中，往往使用监督学习的方式。

实际上，研究人员在设计无监督学习或监督学习系统之前，都会按照人类的动作方式来寻找灵感，这也是让人工智能“更像人类”的重要设计。

如今，一个由计算机视觉专家组成的国际化团队已经开发出一种新的学习方法，其旨在通过深度学习软件学习图像的视觉特征，无需进行手动标注。

通过计算机视觉将图片文字化处理

据青亭了解，该团队的研究人员来自卡内基梅隆大学、巴塞罗那大学、国际信息技术研究所（印度）的研究员共同合作研发，目前已发表论文。

计算机视觉反哺深度学习模型

该研究团队构建的这个计算模型中，这些模型使用有关维基百科等网站的图像文本信息，并将他们与这些图像视觉特征相关联。

研究人员表示，“我们的目标是让计算机能够阅读和理解现实世界中任何类型的图像信息。”

基于维基百科的深度学习方法，同时基于图像和文字

接下来的步骤中，研究员们还将使用这个模型进一步优化深度学习算法，目的就是收集挑选出合适的视觉特征，然后把图像中的信息以文字的形式表示出来。

维基百科中指定一样东西去分析，羚羊a，马b，然后c食草性动物就很容易诞生出来

该团队的这个模型与监督学习方法不同的是，他不是对特定的图像进行标注以达到训练的目的，而是从图像提取出文本等非视觉信息作为提示。

维基百科图像检索，左侧列举3个词，整体词频为蓝色，估计词频为红色，右侧是最相关的5幅图

研究人员在论文中讲到，“与现有的监督学习和无监督学习方法相比，我们的方法通过实验已被证明将在图像分类、目标物体检测、多模态检索方面性能足够领先。”

实际上，该方法严格意义上讲并不是“完全无监督学习”，因为它的算法仍然需要模型去训练，不过如今来看，深度学习算法已经在通过互联网大量的资源提升其无监督学习能力。

我们将继续致力于文本和视觉信息联合嵌入，通过互联网和社交网络中可用的信息，继续寻找实现语义检索的新方法。

（END）

发表于: 2018-07-262018-07-26 19:32:59
原文链接：https://kuaibao.qq.com/s/20180726A1LHDK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

深度学习方式会被“计算机视觉”颠覆吗

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐