前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AIoT应用创新大赛-基于TencentOS Tiny 实时手语交互方案

AIoT应用创新大赛-基于TencentOS Tiny 实时手语交互方案

原创
作者头像
flavorfan
修改2022-03-25 16:50:15
1.5K0
修改2022-03-25 16:50:15
举报

演示视频

视频内容

PPT

实时手语交互方案_for_blog.pptx

AIoT创新应用比赛是一个命题作文,AIoT = AI + IoT 是基本了解;要求使用RT1062和TencentOS-tiny是限制条件,也是IDEA创意的出发点。充分利用前提条件的产品形态(IDEA)是正确的进入方式。

个人角度:“终端强大AI模型 + MQTT上云及物联网平台-小程序-手机端生态加持”是理想IDEA形态;本文从创意IDEA条件筛选出发,到IDEA分解为嵌入式工程工作流,数据科学工作流,及总结构成,内容构成如下:

Content Flow
Content Flow

1. IDEA

1) 条件

2) 手语定义

手语是使用视觉-手动方式来传达意义的语言。 手语是成熟的自然语言,有自己的语法和词典。 ASL(Argentinian Sign Language) 是一种完整而复杂的语言,它使用通过移动双手与面部表情和身体姿势相结合的符号。

现实生活也有很多无接触、又无声、基于视觉信号序列传递消息及控制的场景:你和家人看投影,你想不打扰他人调高音量,于是你对着“无接触视觉解析控制器”做了个手势,于是播放音量调高了;你在图书馆看书,你从听音乐切换到听订阅号,你对着手机做出几个手势;类似的场景很多。人类与机器&系统交互信息是结构化的,不需要像聋哑人使用手语一样复杂,通常只需要5-10个基础手势,可以定义组合使用就可以完成几种特定场景结构化环境与系统的交流目的。

墙上安装了带有摄像头的“手语交互器”,在房间摄像头的视野中,你举起一个拳头,2-3秒后系统就为你就打开音乐;给出一个“布”,一回而系统就关闭音乐。当然事情不止这么简单。比如给出,“拳头-布-1个指头”,系统就为了下单定了个1号咖啡收藏店的咖啡。感觉就是结手印,做暗号,而且这个暗号是你独家定制的。

再想象一个场景,你邀请心仪的对象来家里;时间场景合适了,你很酷的、表演性质做出一方魔法手势、姿态,于是灯光黯淡了,背景音乐想起来了,扫地机器人拖着一个盒子过来了,这不成功率大增。

你需要一个心灵一点通的“管家”,一个眼神、一个手势、一个姿态,她就理解了你,一切都为你准备好。 这就是“实时手语交互”技术的出场时机!

重新定义

本文定义的手语是人与机器(智能系统)信息输出的方式,是手势识别、序列到特定语义转换的框架。

本文提出了一个基于计算机视觉的模型,可以识别少量特定手势(石头、剪刀、布),并建立手势序列到命令的检测。

手势-序列-含义
手势-序列-含义

3) Core Value

  • 特立独行 “酷”

有别于常见按钮、声音的交互,我们隔空无声的传递消息;

  • 我的语言我定义 “酷”

在于恋人们的灵犀一点的默契;

在于群体的共同语言

  • 姿势帅 “酷”

比如手指舞

4) 工作流

方案数据流图
方案数据流图

5) 架构图 及 关键技术

Embedded Engineering Flow (黄色粗虚线框)

  • 手语框架:图像à语义信息“语言 ”

‒模型选择(OD、CLS)

‒噪声抑制

‒断句

‒鲁棒性

‒灵活性(变长输入)

‒输出后处理

‒输入前处理

‒流畅(2s时延 人类无感知)

Data Science Flow(绿色粗虚线框)

  • AI模型

推理延迟

资源消耗(内存、存储)

精度

  • 数据Pipeline

真实场景数据采集

数据增广

数据合成

2. Embedded Engineering Flow

1) AI Model Type Select

2) Sign Language Framework

3) 基于TencentOS-Tiny的多任务设置

多任务设置
多任务设置

4)手势识别数据流

3 Data Science Flow

4. 后记

1)一些中间结果

2) 反思

Demo现状精度问题的原因及后续思考:

3) 感想

对于TencentOS-Tiny

  • 代码简洁、可做RTOS学习参考
  • 架构清晰、移植简便
  • 中间件强大
  • 物联网MQTT和腾讯物联网无缝结合,接入方便,生态很好

NXP RT1062 & eIQ

  • mcu基础定位(价格、性能),近1G的处理性能
  • eIQ提供了机器学习模型数据端到模型验证部署的工具链,切实提供云端模型到终端的实现框架;还提供了多种嵌入式部署方式(tflm、glow、deepview)

过程反思

  • 一个人就像“单脚跳”着跑1千米,有队友就是“两脚走”
  • 群友好有才,说话好好听;上下限都高,但很包容;
  • 经历过的人,一句话点拨,节省数十根头发
  • 可怕的拖延症…
  • 不到deadline,不知道你有多大生产力
  • 比赛就像一个旅程,在乎不是终点,而是沿途的风景

4)代码

https://gitee.com/flavorfan/realtime-sign-language-interact

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 演示视频
  • PPT
  • 1. IDEA
    • 1) 条件
      • 2) 手语定义
        • 重新定义
      • 3) Core Value
        • 4) 工作流
          • 5) 架构图 及 关键技术
            • Embedded Engineering Flow (黄色粗虚线框)
            • Data Science Flow(绿色粗虚线框)
        • 2. Embedded Engineering Flow
          • 1) AI Model Type Select
            • 2) Sign Language Framework
              • 3) 基于TencentOS-Tiny的多任务设置
                • 4)手势识别数据流
                • 3 Data Science Flow
                • 4. 后记
                  • 1)一些中间结果
                    • 2) 反思
                      • 3) 感想
                        • 对于TencentOS-Tiny
                        • NXP RT1062 & eIQ
                        • 过程反思
                      • 4)代码
                      相关产品与服务
                      TencentOS Server
                      TencentOS Server 是腾讯云推出的 Linux 操作系统,它旨在为云上运行的应用程序提供稳定、安全和高性能的执行环境。它可以运行在腾讯云 CVM 全规格实例上,包括黑石物理服务器2.0。
                      领券
                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档