科罗拉多州立大学的研究人员杰森·斯托克和汤姆·卡维发表了一篇关于人工智能系统的论文,研究人员训练AI来奖励对命令做出反应的狗。
计算机科学专业的学生训练了图像分类网络,以确定狗是坐着,站着还是躺着。如果狗通过采用正确的姿势对命令做出反应,则机器会进行投食奖励。
学生们使用Nvidia Jetson 边缘人工智能平台来实时识别和处理。斯托克和卡维将他们的原型系统视为驯狗师的辅助工具——它可以投食——或者是一种让狗在家里表现更好的方法。
斯托克在一份声明中说:“我们已经展示了未来产品的潜力。”
他们的原型产品是酱样子:
研究人员需要展示三种指定姿势的狗图像。他们找到了斯坦福狗的数据集,其中有20,000多种不同大小的图像,描绘了许多位置的狗。这些图像需要进行预处理,因此他们编写了一个程序来帮助快速标记它们。
为了改进模型,研究人员应用了ImageNet中的狗的特征来启用转移学习。接下来,他们应用了后期训练和优化技术来提高速度并减小模型大小。
为了进行优化,他们利用了Jetson上Nvidia的Jetpack软件开发套件,该套件是用于无人机和其他系统的轻量级AI平台。斯托克说,它提供了一种简便的方法来使事情快速启动并运行以及访问TensorRT和cuDNN库。他补充说,Nvidia TensorRT优化库提供了“速度上的显着提高”。
借助大学的计算机系统,斯托克在两个24GB Nvidia RTX 6000图形处理单元(GPU)上训练了模型。
研究人员在凯维的澳大利亚牧羊犬亨利(Henry)身上测试了他们的模型。该模型在测试中达到了高达92%的精度,并展示了以每秒近40帧的速度进行瞬间推断的能力。
该系统使用Jetson Nano做出关于狗的行为的实时决策,并通过投食增强积极行动,传递信号以释放奖励。
卡维说:“我们研究了Raspberry Pi和Coral,但都不足够,选择使用Jetson Nano显然是我们的选择。”
可解释的AI有助于提供有关神经网络组成的透明度。作为理解金融科技模型的一种方法,在金融服务行业中越来越普遍。Stock和Cavey在他们的论文中包括模型解释,以为宠物行业提供可解释的AI。
他们使用显示姿势分析的视频图像进行此操作。一组图像依赖于GradCAM,这是一种用于显示卷积神经网络模型聚焦位置的常用技术。另一组图像通过利用“集成梯度”来解释模型,该梯度有助于分析像素。
研究人员表示,为培训人员和一般用户创建AI系统中值得信赖且符合道德的组件非常重要。否则,如果有疑问,就无法解释该方法。
“我们可以解释我们的模型在做什么,这可能对某些利益相关者有帮助-否则您如何备份您的模型真正学习到的东西?”卡维说。