这应该是第二篇,站在技术的角度,解决社会问题的文章。
第一篇,查阅:如何技术地识别双十一的“骗”局
这次围绕的是人工智能,我们探索下解决方案:
1 背景
幼儿园虐童事件又发生了。这次,是喂十几个月大的孩子,吃大量芥末,还把消毒水往孩子的眼睛和嘴里灌。
很多人看了视频,都气炸了,前阵子看到携程给员工提供了亲子园都福利,还挺羡慕的,这下好了……
幼师虐童事件,透露出了为人父母一直所担忧的问题:
把孩子交给一个陌生人照料,是要冒着多大的风险?
据各种渠道统计:
乘坐飞机,发生坠毁事件的概率是 0.000085%
(117.65万次飞行才发生1次死亡性空难)
日本儿童虐待发生概率约为0.0964%
(日本官方统计数据显示,全国210处儿童咨询求助站2016年度受理的儿童虐待事件数达到122578件,2015年总人口为1亿2709万5000人)
不知中国的虐童事件发生的概率有多少,保守估计0.1%?
2 问题
回到本文的重点,我们讨论下:
如何利用人工智能,避免再次发生虐童事件?
问题痛点在于虐童行为发生非常隐蔽,幼龄儿童又不会表达。有人会说,我们在早教中心部署监控设备,不就能预防了吗?
传统的监控有太多的缺点 :
比如,人类自身不可靠弱点,无法保持警惕,注意力难以持久,容易错过重要画面信息。
据调查,值班员连续盯着监控屏幕22分钟,对于之后95%的画面信息会视而不见。
目前大部分监控系统摄像机数量都是大于监视器数量,采用轮巡显示、多画面小图像的方式,很可能错过异常现象,听任事态发展。
尤其是值班员疲惫的时候,难以集中注意力;往往在不经意间,刚刚留意到异常,但画面却已消失,难以及时通过录像,对刚才出现的异常去分析、判断、消除怀疑。
等等,靠人肉去监控,明显不可取,我们要用技术解决这个问题。
3 AI产品
AI应用于监控,简单的系统组成是这样的:
1.部署监控系统
2.实时分析监控数据
3.显示预测结果
监控系统采集视频、声音数据,传输给服务器,服务器实时通过AI来分析,输出可视化的预测结果。涉及到硬件、通讯、AI、数据可视化等等内容。
我们希望这一套系统,避免早教机构发生虐待幼儿事件的发生,通过幼儿哭泣声音的采集,早教老师的行为数据采集,交谈话语的采集等,达到实时监控,及预测行为倾向。
3.1 关键技术:
儿童哭泣声音识别与分类
成人虐童行为识别与分类
成人粗口声音识别与分类。
需识别出有几个小孩的哭声,判断幼儿的情绪,视频识别虐童动作的等级及倾向。
3.2 降级方案:
只解决“是”跟“否”的二分类问题,相对简单,只需判断幼儿是否哭泣,成人是否有虐童行为,成人是否用语言攻击幼童。
这个降级方案比较可行,我会结合近期的keras更新,尝试下实现。
4 关键技术
关于成人粗口声音识别与分类,这个做起来还是比较简单的,只要把语音转成文字,然后通过分类,即可完成。相关的语音转文字,科大讯飞已经完成的很深入了,我们只需收集一些粗口形成针对本文课题的语料,进行训练使用,下面真对另2项关键技术,做一些简单梳理。
4.1 儿童哭声的识别与分类
目前没有发现很好的数据集(有读者知道相关的数据集,欢迎提供线索,有奖!),需要我们自己来制作,数据来源可以是各类视频网,把涉及到幼儿哭泣的视频都切割出来,提取声音。
学术界其实有不少研究,如心理学,教育学等领域有类似于《基于幼儿以及学前儿童哭声的研究》这样的课题,可以合作联手开发ai产品。
在市场上,一般号称“婴儿哭声检测”的产品,实际上并不具备真正的识别功能,只是针对声音的强度作检测,任何突然爆发的声音,比如电话铃声,拍巴掌声,大人说话声,都会触发。
相关的产品应用,我收集了这些,以供参考:
声联网-婴儿哭声检测 SDK
婴儿声音检测SDK主要是提供对婴儿哭声事件检测的一套解决方案。
http://www.avsnest.com/
婴语App
一款可以让新手爸妈知道他们的宝宝为何啼哭的App在中国台湾上线了。 中国台湾云林科技大学开发的这款“婴语”翻译App可以录下婴儿的哭声,并把哭声与数据库中的各种哭声做比较,然后告诉焦急的爸妈宝宝到底需要什么。辨识四种哭声的状态,肚子饿、尿布湿、想睡觉、还有疼痛。
通过使用者的回馈得出来的准精确度是,对于出生两个礼拜的小朋友,正确率可以到达92%。”
科大讯飞输入法
科大讯飞顺利攻克“婴语识别”的超级难题,实现机器翻译“婴语”功能。
4.2 成人虐童行为识别与分类
目前没有相关的针对成人虐童的数据集,近年来随着深度学习技术的发展,以及计算能力的进步(GPU等),现在基于视频的研究领域越来越受到重视。视频与图片最大的不同在于视频还包含了时序上的信息,此外需要的计算量通常也大很多。
简单的行为识别即动作分类,给定一段视频,只需将其正确分类到已知的几个动作类别,复杂点的识别是视频中不仅仅只包含一个动作类别,而是有多个,系统需自动的识别出动作的类别以及动作的起始时刻。行为识别的最终目标是分析视频中哪些人在什么时刻什么地方,在干什么事情。
中科院深圳先进技术研究院的乔宇研究员《视频行为识别年度进展》,在报告中提到
“行为识别现在是一个正在进行的领域。随着更大的数据库和更复杂的挑战的出现,我想这个问题远远还没有到解决的时候,从短时特征的提取到长时时间序列的建模,还有很多工作需要去做,包括后面提到的检测、跟踪、姿态估计”。
要构建一套人工智能产品,还是需要很多相关的技术支撑的,本文从声音分类,视频动作识别,语义理解等技术出发,作为抛砖引玉,希望我的想法能够引导大家带来更好的想法。
技术让生活更美好。