专栏首页新智元贵州河南量产数据标注师傅,却成为中国AI获胜的秘密武器!

贵州河南量产数据标注师傅,却成为中国AI获胜的秘密武器!

新智元原创

编辑:鹏飞

【新智元导读】AI技术的发展依赖大量手工标记数据,在无人驾驶汽车、计算机视觉等领域手工标记数据都非常重要。手工标记费时费力,在国外是一项成本很高的工作,但中国在贵州等劳动力廉价的地区建立了很多数据标签公司,成本低样本大的手工标记数据,将成为中国在AI竞争中的秘密武器。「福利:1月16日,腾讯微信人工智能高级研究员钱桥手把手教你“推荐系统与数据思维”,戳右边链接上 新智元We站公开课 了解更多!」

人工智能行业流传着一句古老的讖言:有多少智能,就有多少人工

中国人工智能崛起速度如此的迅猛,引起了老牌智能强国美国越来越紧密的关注。就在不到一个月前,中科院院士、中国科学技术大学教授潘建伟等人与德国、荷兰的科学家合作,在国际上首次实现了20光子输入60×60模式干涉线路的玻色取样量子计算,在四大关键指标上均大幅刷新国际记录,逼近实现量子计算研究的重要目标“量子霸权”!

还没有完全脱离对中国“山寨”“抄袭”印象的外国人,难以理解为什么中国在人工智能这样的高尖端技术方面,走的这么快、这么远?速度远远自己国家?

他们观察中国的人工智能发展,分析其中的原因,预测未来的走势。他们意识到,并非所有国家有能力以及魄力,像中国这样投入如此大量资金去扶持一个产业。

AI发展的三大支柱:数据、算法、算力,算法和算力差距显然没有那么大。于是他们盯上了AI的基石:数据。

被忽视的数据标注,最关键的AI基石

谷歌AI和谷歌大脑负责人Jeff Dean曾在公开场合这样强调数据对于人工智能算法的重要性:

可以看到,深度学习算法精度的提升严重依赖于数据,也就是说,谁掌握了更多的数据、更精准的数据,那么谁的算法精度也就会更领先一步,谁的AI发展速度自然就更快一些。

数据是人工智能赖以发展的基石,可他偏偏又是劳动密集型的。如果说算法和算力体现的是人工智能的“智能”部分,那么数据标注就体现了“人工”。

数据标注没有什么神秘性,很多时候一个训练有素的技工可以非常出色的完成数据标注任务。

Vice曾有记者实地探访河南AI村,考察那些给人工智能贴标的新“富士康工人”;支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,作为一种 “AI+扶贫”的公益新模式。

像河南、贵州这些从业者不需要背井离乡,培训后即可上岗。

这就导致数据标注一直以来存在感极低。从下图我们可以看出,数据标注占据了一个机器学习任务25%的时间。

实际上,虽然表面上看起来数据标注毫无技术含量可言,实际上却是人工智能成功的关键制约因素之一。只有给算法投喂足够精准的数据,才有可能将其落地用于实际场景中。

数据标注是实实在在的军备竞赛

数据标注是如此的不显眼,又如此的重要,称其为军备竞赛并不为过。

实际上,中国人工智能的迅猛发展,和当年中国经济发展颇有些相似之处。开局都是用劳动密集型项目,用低成本迅速扩大规模占领市场。

相比欧美等国而言,我们海量的劳动力资源以及相对低廉的劳动力成本,成为克敌制胜的攻坚利器。人工数据标注弥补了我们在算法和算力上的差距,加速了我们赶超对手的步伐。

虽然现在各种自监督学习、半监督学习等方法的提出,试图不断的降低对人工标注数据的依赖,然而就该目的实现尚有很长一段路要走。

根据智研发布的《2019-2025年中国数据标注与审核行业市场专项分析研究及投资前景预测报告》显示:中国数据标注与审核行业快速发展,2018年市场规模已达到52.55亿元,其中,有三分之一是AI公司内部的标注部门消化,

人工智能外包公司、人工智能企业部门、第三方数据标注与审核公司三分市场。报告预测至少在未来的5年内,数据标注行业的增长空间还很大,数据标注的市场才刚打开,数据需求将紧随人工智能的大规模落地引来一波爆发式增长。

经济学人一篇文章认为,中国虽然依旧缓慢,却在不断缩短和美国之间的差距。精美的美国人自然早就嗅到了危机,将数据标注是为是一场结结实实、实实在在的军备竞赛。

数据服务进入精细化阶段

随着人工智能技术的不断发展,技术含量低的数据标注基础性的工作也在趋于减少。取而代之的是更偏情绪判断、考验理解能力甚至推理能力的数据标注任务。

而数据标注服务也从通用、开源、免费、集中走向细分、定制、收费、众包,可以想象未来将会有出现经过严格培训、更专业化的数据标注师,数据标注行业的进入门槛也开始拉大差,专业化、场景化、定制化将成为行业趋势。

数据标注,AI的基石,正在越砌越厚、越垒越高。

本文分享自微信公众号 - 新智元(AI_era),作者:新智元

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 谷歌强力推出数据集搜索!Dataset Search神器重磅来袭

    还记得曾经的你,在做科研的时候,为了得到一份儿数据集,绞尽脑汁各种百度、各种google,但结果往往一无所获。从今儿起,再也不用担心这个问题了!

    新智元
  • 【巨头升级寡头】AI产业数据称王,GAN和迁移学习能否突围BAT垄断?

    【新智元导读】AI时代,数据为王让巨头越来越难以被打败。谷歌和 CMU 的10亿+数据集的设想,似乎又将这一假设往前推进了一步。数据为王还是算法为王,这是人工智...

    新智元
  • 深度报告:“数据革命”终极方向是人工智能,金融/汽车最快落地

    【新智元导读】移动互联红利正在消退,数据红利才刚刚开始。全球数据量爆发,基于海量数据深度学习的人工智能第三次浪潮可能走得更远。 “数据”+“人工智能”将成为未来...

    新智元
  • 深度学习的核心:掌握训练数据的方法

    Hello World! 今天我们将讨论深度学习中最核心的问题之一:训练数据。深度学习已经在现实世界得到了广泛运用,例如:无人驾驶汽车,收据识别,道路缺陷自动检...

    企鹅号小编
  • 用python实现K-近邻算法改进约会网站的配对效果

    摘自:《机器学习实战》,用python编写的(需要matplotlib和numpy库)   海伦一直使用在线约会网站寻找合适自己的约会对象。尽管约会网站会推荐不...

    机器学习AI算法工程
  • 如何打造高质量的机器学习数据集?这份超详指南不可错过

    针对以上的问题,本篇文章就如何选择适合自己算法的数据集以及如何创建机器学习数据集作一些讨论,希望能为各位同学提供帮助。

    AI科技大本营
  • AI时代,谈数据分析时我们要谈些什么?

    根据维基百科的定义,数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数...

    AI科技大本营
  • 数据湖和数据仓库 - 了解其中的差异

    在过去的几年中,您可能已经听说某个地方放弃了“数据湖”这个词。随着数据量呈指数级增长,流式数据已经取消,非结构化数据持续低于结构化数据,这个概念已经越来越受到重...

    首席架构师智库
  • 洞察|大数据变现独角兽——十种商业模式

    数据已经成为各行各业重要的生产因素和变革力量,数据的积累、合作、整理、挖掘、利用是现代企业所必须的基本素养。让人欣喜的是,很多大数据公司已经从实际的项目中找到...

    灯塔大数据
  • Python数据分析-数据预处理

    主题 数据预处理 一、数据清洗 主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作 1. 缺失...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券