前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >原来冰冷的AI,还有如此温暖的一面

原来冰冷的AI,还有如此温暖的一面

作者头像
mixlab
发布2021-10-25 16:08:41
5050
发布2021-10-25 16:08:41
举报

这是shadow老师《人工智能设计》课程学生的投稿

人工智能设计,一门自己生长的课

宋沫

@shadow 老师老师!想投稿一篇关于SpringVibe的文章在mixlab,这次保证不鸽辽!

已经拖稿2个多月的总结,终于完成了。。。这个项目是黑客松作品,为我们展现了AI、人文科技的无限可能

shadow

opus

听图团队的五位成员是今年夏天 X Academy 的学员(其中三位同学是shadow的亲学生),他们来自天南地北,从事不同的专业,甚至拥有不同的国籍。在一周的通力合作和爆肝下,他们的网站SpringVibe取得了hackathon(黑客马拉松)软件赛道第一名的好成绩

👆🏻戳视频快速浏览作品

"It's spring and I'm blind. Please help."

“今天是春天,但是我却看不到。”

看不见春天的盲人,是我们设计建造这个网站的灵感来源。我们的世界有万千光彩:春天盎然的绿意、秋天满目的金黄...,但视障群体的世界,却是色彩单一、模糊不清、或没有色彩的。

由此,在hackathon正式开始前的构思阶段,经过一阵头脑风暴,我们便迅速敲定出了一个hackathon项目的大方向:

针对摄影展的图片与声音匹配,让视障群体用听觉感受视觉。在调动大家更多感官感受艺术作品的同时,还能够给视觉障碍者提供感受图像的新方式。

网站的主要功能分为两个:首页的摄影展厅和“Try now”界面的在线图像与声音匹配。

“用听觉感受世界”,其实是目前有很多人在做的。例如说有声漫画或是广播剧,其实都是在从听觉的角度来描绘世界。在我们的前期调研阶段,我们也发现了蛮多的专注于声音的网站,例如说有一个网站就收集了世界各地的森林的声音,并把他们都标注在了地图上。

timberfestival.org.uk/soundsoftheforest-soundmap

但我们发现,主要针对于视障群体的“视觉与听觉的转换”,其实是很少的。中国大约有1700多万的视障人士,这便意味着:每90个人中就有一人处于灰暗的世界。他们除了基础的衣食住行需要被满足外,我们也应当升级互联网产品的无障碍设计来丰富他们的精神文化生活。

于是,在网站的UI设计中,我们参考了WCAG和Google的材料设计给出的视觉无障碍指南、万维网联盟(W3C) 的无障碍网页内容指引2.0,并使用了内置屏幕阅读器,来帮助视障群体更好的使用这个网站。

在想法逐渐落地的过程中,我们发现,由于训练CV(计算机视觉)模型来识别图像主体并进行分类是需要较长时间的,所以在hackathon期间实现所有类型的摄影展的图像识别、分类、并与声音库中的声音进行匹配是不现实的。于是我们将范围缩小到了“针对野生动物摄影展的图片与声音匹配”,因为野生动物的叫声与环境音都更加丰富与生动。

我们的匹配流程主要分为了三个阶段:

- 识别动物

- 推断动物的动态或静态

- 匹配动物的声音与环境音

前两个阶段的技术要点都是CV,我们训练了Faster R-CNN和ResNet50这两个深度学习模型来识别动物。为了匹配一个更真实的声效,我们还开发了一套基于规则的(rule-based)可以将动物的动静态推断出来的模型。

动物的声音与环境音主要是从一个叫Animal Sound Archive的网站上下载。

www.gbif.org/zh/dataset/b7ec1bf8-819b-11e2-bad2-00145eb45e9a/metrics

这个网站上有超级多的动物的声音,并且将动物的种类划分的很细致。

如此一来,当用户上传一张动物的照片后,SpringVibe不但可以识别出该动物,还能推断出该动物当前的状态(如捕食中或者被捕食中,群体行动亦或单独行动),并给这张图片匹配上正确的、生动的声音。(支持多个相同动物,及两种不同的动物。)

这个就是我们的Try now界面,用户可以从本地上传图片,并得到与之匹配的音频输出。我们的上传和播放键都非常的大,视障群体使用起来会很方便。

我们的UI是治愈设计的风格,贴合野生动物摄影展这一主题,很有大自然的气息。并且很重要的一点是,我们没有使用任何的模版!所以前端的工作量真的有很大。

在首页,我们设置了一个“摄影展厅”的功能:用户可以戳图片来聆听声音。此外,我们给所有图片都添加了注释,视觉障碍者结合屏幕阅读器能够无障碍地使用我们的网站。

我们还添加了“一键切换到黑白模式”这一功能,点击右上角的眼睛,界面便会切换到黑白的样子,帮助没有视觉障碍的用户体验到视障群体眼中的“没有色彩的世界”。

用对话框来介绍下我们!

Muki(潘梦琪)是日语专业的学生,以后将从事设计方面的工作;

莹莹(王莹)是工业设计专业的学生,目前正在米兰继续深造;

Maggie(宋沫)是一个正在申请季的高三学生,计划学习的专业方向是计算机科学;

David(苗桐源)和William(范九成)都是很厉害的高二学生,有很深的理科造诣;

还有特别感谢shadow!选择了AI设计课是这个夏天最不后悔的决定

这是一门会自己生长的课程,课程的学生都非常年轻有活力,他们短时间掌握了算法、前后端、数据挖掘等技术思维和设计思维,期待他们未来的“进化”。

在学习中实践,听图团队的作品让我们感受到了满满的人文关怀。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档