首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

立即开始使用人工智能:技术爱好者的快速指南

很多科技朋友问我:“如何向人工智能领域介绍自己?”

在我看来,最好的介绍是通过计算机视觉和深度学习领域。原因有两个:首先,该领域的任务自然且易于理解。其次,围绕这些任务进行编码很简单,而且结果非常令人印象深刻

我没有找到这样的介绍,因此我将其写在这里,考虑到三个目标:

背景历史课

当今很酷的应用程序

看看编写第一个人工智能算法是多么容易

我希望你和你的朋友会发现这个很有用。

它是如何开始的

计算机视觉是专注于教导计算机理解和解释图像或视频中的视觉信息的领域。计算机视觉中的一项常见任务是图像分类,其目标是教会计算机根据图像内容对图像进行分类。例如,识别图像是否包含猫或狗。

在计算机视觉的早期,重点是基于规则的算法,这些算法依赖于手动设计的特征来检测图像中的对象。例如,为了识别人脸,我们搜索人脸中的常见模式,例如眼睛、鼻子等。

这些基于规则的算法在不同照明条件、视角和背景下识别物体的能力受到限制。这促使研究人员探索计算机视觉的新方法,深度学习成为一种有前途的技术。

深度学习涉及训练神经网络(一种受人脑启发的计算模型)来自动学习图像中的复杂模式。

训练通过向神经网络显示大量标记数据来进行,例如具有相应对象标签的图像。在训练过程中,网络根据在数据中发现的模式调整其内部参数,逐渐提高其识别和理解不同对象的能力。通过自动学习特征,深度学习模型变得更加擅长识别不同照明条件、视角和背景下的物体,解决了早期方法的局限性。

视觉深度学习的第一个重大突破出现在 2012 年,当时由 Geoffrey Hinton 领导的研究团队使用深度卷积神经网络(CNN) 赢得了ImageNet 大规模视觉识别挑战赛。该挑战涉及识别来自 1,000 个不同类别的超过 100 万张图像的数据集中的对象。

Hinton 团队的错误率仅为 16.4%,比上一年获胜算法 25.8% 的错误率有了显着改善。这一突破为计算机视觉应用广泛采用深度学习铺平了道路。

深度学习在计算机视觉中的酷炫应用

在深入编写我们的第一个深度学习算法之前,值得探索广泛的可用应用程序。幸运的是,有许多开源工具和框架可以轻松访问来解决以下每项任务。我们将从一些基本的应用程序开始,然后继续介绍更令人兴奋的应用程序。

首先,深度学习擅长对象检测、准确定位和分类图像或视频中的对象等任务。其次,它能够进行图像分割,为医学成像和增强现实等应用提供精确的像素级标记。此外,深度学习有助于姿势识别、估计人类或物体的位置和方向,并在健身监测和沉浸式游戏中得到应用。

上述功能已集成到各种系统中:

自动驾驶:深度学习可实现实时物体检测、识别和跟踪。通过分析来自摄像头、激光雷达和雷达的传感器数据,深度学习算法可以识别和定位道路上的行人、车辆、交通标志和其他物体。

工业质量控制:可以训练深度学习模型来识别制造过程中的缺陷和异常,确保产品质量控制。这在汽车、电子和制药等行业都有应用。

医疗保健中的视觉理解:深度学习可以帮助分析 X 射线、CT 扫描和 MRI 等医学图像,使医疗保健专业人员能够做出更准确、更及时的决策。

计算机视觉中的生成式人工智能

最后,我将介绍最近引起公众极大关注并展现出令人印象深刻的能力的生成人工智能领域。

在计算机视觉中,生成式人工智能系统可以根据文本提示生成图像。例如:

请注意,上面的图像从未存在过,系统能够理解语言并相应地创建图像。这项技术于 2021 年推出,此后得到了爆炸式增长。

目前,该领域的主要参与者有 OpenAI 的 DALL-E 2、Midjourney、Stable Diffusion 等。他们的产品生成的高质量图像可以彻底改变内容创作、产品设计和广告等创意领域。我鼓励您进一步阅读有关这些产品的信息并亲自尝试。

请注意,此处使用的技术基于深度学习技术,类似于我们之前讨论的用于更简单任务的技术。

编写您的第一个人工智能算法

“你好,世界!” AI的程序是MNIST手写数字分类任务。下面我们来实现一下。

完整的代码可以在 Google Colab 上找到,这是一个用于运行 Python 代码的免费云环境。您可以与下面链接中的代码进行交互。

然后,我们下载数据并将其可视化。

接下来,我们创建“深度学习”模型。请注意,从技术上讲,它并不“深”,因为为了举例,我们对快速运行时间感兴趣。尽管如此,这个小型神经网络仍然可以完成如此简单的任务。

最后,我们训练我们的模型并评估其性能。为此,我们将数据分为两个部分,一个用于训练,另一个用于测试。我们这样做是为了在现实场景中估计我们的模型,其中模型被输入了新的看不见的数据。

我们的准确率达到 95%。也就是说,我们的模型对 95% 的手写数字图像的预测是正确的,令人印象深刻。

值得检查我们模型的错误,以便我们知道如何改进。也许有一些数据已损坏,或者我们没有足够的示例,但这是另一天的主题。

这就完成了我们的数据获取、模型训练和预测的流程。我们现在可以拍摄任何手写数字的图像并识别它。想象一下将数据集更改为路标或 X 射线图像 - 功能是无穷无尽的。

下一步是什么?

如需深入了解,我强烈推荐密歇根大学的“计算机视觉深度学习”课程。该课程可以追溯到 2019 年,但在今天仍然非常重要。它基于斯坦福经典的CS231n,其最新的视频讲座是2017年的,有点过时了。

开始一门课程是相当繁重的(尽管值得),所以如果您想继续探索,我建议您阅读本文中介绍的新术语,网上有很多关于它们的材料。

我们没有讨论神经网络学习的技术方面,因为它可以被视为一个独立的主题。也就是说,由于有许多可用的库,您仍然可以在不完全理解深度学习技术的情况下实现它们。当您准备好深入了解技术细节时,上面的课程可以在教学上发挥巨大作用(需要大学一年级数学背景)。

要在读完本文后继续学习,您可以按照有关图像分割或对象检测的 TensorFlow 文档启动一个小项目。

结论

人工智能领域广阔且不断发展。然而,每个人都必须从某个地方开始,而计算机视觉是一个很好的起点。它提供了无限的应用程序,并且在该领域进行编码可以非常令人满意。一旦你在计算机视觉方面获得了足够的经验,你就会发现探索其他人工智能领域很容易。继续探索,祝你好运!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O0g63xZnhF40jCAZkb6V481g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券