【编者按】7 月 22 - 23 日,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会(CCAI 2017)将在杭州国际会议中心盛大开幕。在大会第二天上午的 Keynote 中,美国微软雷德蒙研究院首席研究员周登勇博士将分享他与团队在众包中的统计推断与激励机制方面的研究进展与成果。 提到众包,想必大多数人都不陌生,“一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常由个人来
No.48期 众包的定义 Mr. 王:平常遇到不知道的概念或者名词,你一般会怎么办? 小可:有维基百科啊,我去查一查就知道了。对于一个名词,维基百科能给出很多的解释,而且这些解释往往非常准确和专业。
众包(Crowd-sourcing)是一种新型的外包模式,它将一群松散的任务发包方(Requester)和任务完成者(简称工人,Worker)联系起来,实现任务发包、匹配、完成和付款等一系列操作。
近年来,众包标注为大规模、快速、多样性、低成本、高质量的数据标注提供了一种强大的工具,它可以满足各种领域应用的数据标注需求,推动了人工智能和机器学习技术的发展和应用。然而,随着大型语言模型(LLMs)的发展,众包工作人员为增加收入,开始普遍使用LLMs来提高生产效率。由于基于LLMs合成的数据可能会延续偏见和意识形态,这势必会影响众包数据的质量,「那么未来的众包标注数据还可靠吗」?
大多数AI实验室、初创型AI公司在发展初期如果雇佣大量的人力进行数据标注,就不得不面临下面两种处境:
美国微软雷德蒙研究院首席研究员周登勇 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。大会第二天上午,美国微软雷德蒙研究院首席研究员周登勇(Denny Zhou)发表了《众包中的统计推断与激励机制》主题报告,从“为什么众包”、“众包的挑战”、“统计推断”、“激励机制”着手,结合多个生动形象的案例,具体总结了微软雷德蒙研
美国微软雷德蒙研究院首席研究员周登勇 文/CSDN贾维娣 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。 大会第二天上午,美国微软雷德蒙研究院首席研究员周登勇(Denny Zhou)发表了《众包中的统计推断与激励机制》主题报告,从“为什么众包”、“众包的挑战”、“统计推断”、“激励机制”着手,结合多个生动形象的案例,
📷 美国微软雷德蒙研究院首席研究员周登勇 文/CSDN贾维娣 7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。 大会第二天上午,美国微软雷德蒙研究院首席研究员周登勇(Denny Zhou)发表了《众包中的统计推断与激励机制》主题报告,从“为什么众包”、“众包的挑战”、“统计推断”、“激励机制”着手,结合
本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注 编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了Spark 实践案例——PageRank的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】
作者:茅明睿 单位:北京市城市规划设计研究院 Email:maomingrui@gmail.com 新浪微博:@放小浪 回复“数据开放”可下载相应完整版PPT(36页) 1开放与众包 开源和众包是两个伴随互联网而流行的词汇,近年来兴起的开放和众包运动不仅带来了新的商业模式,更对多个社会领域和政府治理带来了一系列影响。开放数据 (Open data) 指的是一种经过挑选与许可的数据,这些数据不受著作权、专利权以及其他管理机制所限制,可以开放给社会公众,任何人都可以自由出版使用。开放数据运动带来了开放政府、开放
RLHF 通过学习人类偏好,能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导,得到了很高的关注,在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要。
AI 科技评论按:本文为亚利桑那州立大学在读计算机博士生周耀的独家投稿,他给大家介绍了一个基于机器教学为基础的自适应交互型众包教学框架——JEDI ,它假设每个 learner 都有指数型的记忆遗忘曲线,并且能够保证教学的有效性,多样性,以及教学样本的质量。作者的原论文(http://cn.arxiv.org/abs/1804.06481)入选了今年的 KDD 会议。以下为投稿全文。
华盛顿大学计算机科学家最近展示了众包如何快速高效教育机器人完成任务。机器人将不再只是从一个人身上学习,而是有可能在更大范围的在线社区内,询问摆放餐具或者为花园浇水的最佳方法。 研究团队6月初在香港举行的2014 IEEE国际机器人与自动化大会上发表了这项研究成果。 “我们想开发一种方法,使机器人在遇到问题时,可以向整个世界寻求帮助。”华盛顿大学计算机科学和工程副教授,感觉运动神经工程中心主管Rajesh Rao说,“这种理论不仅可以使机器人和人一对一互动,而且可以从世界各地的人们身上学习。” 模仿学习已被证
AI成了新基建的C位,不论是原本就以AI立身的百度,还是纷纷在技术上加大投入以拥抱新基建的阿里、腾讯等巨头,最近都显出强化AI地位的态势。
张江,北京师范大学系统科学学院副教授。主要关注领域:计算社会科学、复杂系统、人工智能。2003年创办早期的集智俱乐部网站,2007年开始俱乐部的线下活动,组织多学科研讨会、读书会。和俱乐部成员合力打造
NO.50 众包特点 Mr. 王:我们讨论了这么多众包的例子,现在来研究一下众包的一些特点。你先来说说,一个众包算法需要由哪些部分组成? 小可:首先要有一批请求任务的人;其次要有一群完成任务的人;还应该有一个管理任务的平台。请求任务的人把任务发布到平台上,平台会去搜寻有兴趣来做这些任务的人,然后这些工作者将答案返回给平台。平台收集了大量的答案之后,还要将答案交给提交任务的人。 Mr. 王满意地说:总结得不错,这些提交任务的人,我们一般称之为请求者。而这些完成任务的人,我们称之为工人。整个结构梳理得很清楚,不
精心制定旅游攻略欢欢喜喜下订单,然而不免有一丝遗憾——总是抢不到优惠券。OTA (在线旅游社)服务提供商与“驴友”们有着同样的困惑,“砸”下真金白银的优惠反馈活动却收效甚微。钱都去哪儿了?这一切源于“真人众包”升级版黑产作弊手段,薅平台“羊毛”毫不手软,抢用户红包从不心疼! 所幸破局之道,已经来临。 近日,刚刚在香港上市的同程艺龙,进一步推进了与腾讯云的生态战略合作落地。双方以同程艺龙小程序为合作切入点,携手建立了“同御计划——业务安全联合项目组”(以下称“项目组”),共同探讨微信生态下的OTA产业智慧风
理论上来讲,可以在车载系统检测和获取所有道路信息(可行驶路径、车道优先级、红绿灯与车道的关联关系、车道与人行横道与红绿灯的关系等),但是目前的AI能力无法保证实现很高的MTBF(Mean Time Between Failures, 平均无故障时间),所以需要提前把这些信息都准备好。
知识是有价值的,即使是权限可控的单一机构内部,知识来源也是多样化的,必定存在知识的价值量化、确权、溯源、隐私及可信等多方面问题。要在知识生产和消费闭环中平衡知识的责、权、利,并有效的激励众包,一种方法就是让知识上链,并构建知识的区块链系统。OpenKG 作为新技术测试床,在相关方向努力做一些粗浅尝试,也希望为各企业机构建立知识图谱众包平台提供参考。在实践过程中,我们也发现很多问题和挑战,如细粒度知识确权带来的性能问题、细粒度知识众包的价值计算公平性问题、知识图谱的去中心化存储问题等,这些都需要更深入的研究和实践。
No.50期 众包应用举例 小可:那除了维基百科之外,众包还有哪些应用呢? Mr. 王:其实众包在业界的应用还是非常广泛的。大量的公司和网站都使用了众包算法, 有些众包算法是显性的任务分配和任务处理,也有些众包算法是隐性的。比如这种特殊的验证码: 小可:哦,验证码还是很常用的,只是这个验证码中有两个单词。在登录网站时,为了防 止一些自动的脚本攻击网站,会将一个机器难以识别而人容易识别的图像文字放在登录窗口中,只要把相应的文字输进去就可以登录了。 Mr. 王:不错,但是这个验证码比较特殊,之所以使用了两个
选自arXiv 机器之心编译 参与:刘晓坤、李亚洲 受最近 AI 游戏研究的启发(self-play),谷歌提出了 M2M 的机器对话框架,其结合了众包模式和聚焦任务特定经验的方法,并通过增加自动化程度,以快速引导智能体进行目标导向的对话,并可生成高质量对话数据集。 1. 介绍 使用监督学习方法训练的目标导向的智能体,通常在使用相同任务的对话训练的时候才能得到最佳表现。然而,当开发对话智能体帮助用户完成新任务的时候,例如通过在线网站进行医生预约,可能不存在该任务的人类-智能体对话数据集,因为目前还没有
选自arXiv 机器之心编译 参与:刘晓坤、路雪 本文通过在深度神经网络中引入一种新型众包层(crowd layer),通过反向传播方式,直接利用噪声标签实现端到端的训练。该方法可获取不同标注者的可信
---- 新智元报道 来源:学术头条 编辑:好困 【新智元导读】最近,来自苏黎世大学的研究团队发现,ChatGPT在多个NLP标注任务上胜过众包工作者,具有较高一致性,且每次标注成本仅约0.003美元,比MTurk便宜20倍。 当前,很多自然语言处理(NLP)应用需要高质量的标注数据来支撑,特别是当这些数据被用于训练分类器或评估无监督模型的性能等任务中。 例如,人工智能研究人员通常希望过滤嘈杂的社交媒体数据的相关性,将文本分配到不同的主题或概念类别,或衡量其情绪或立场。 而且,无论这些任务使用什
编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新 上期回顾&查看方式 在上一期,我们学习了众包算法实践——认识 AMT的相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看 No.77 众包算法实践——成为众包工人 小可 :再来看一个任务。咦,为什么这个任务无
NO.52 众包算法例析 小可:讨论了这么多,我还是想通过一个具体的众包例子来了解一下众包算法。 Mr. 王:好,我们就从计算机的角度用具体的例子来分析一下众包算法。通过我们前面讨论的内容,你能不能想
Pine 发自 凹非寺 量子位 | 公众号 QbitAI 又一“人类饭碗”被AI抢走,还是和训练AI息息相关的: 数据标注。 苏黎世大学研究发现,在ChatGPT面前,无论成本还是效率,人类可以说是毫无优势: 成本上,ChatGPT平均每个标注成本低于0.003美元,比众包平台便宜20倍; 效率上,在相关性、立场、主题等任务中,ChatGPT也是以4:1的优势“碾压”人类。 论文发出后,有网友调侃,“生成训练数据需要人工”的说法已经成为过去式了。 还有人直呼“古籍修复数字化工作是不是有希望提速了”。
大数据文摘授权转载自学术头条 当前,很多自然语言处理(NLP)应用需要高质量的标注数据来支撑,特别是当这些数据被用于训练分类器或评估无监督模型的性能等任务中。 例如,人工智能研究人员通常希望过滤嘈杂的社交媒体数据的相关性,将文本分配到不同的主题或概念类别,或衡量其情绪或立场。 而且,无论这些任务使用什么具体方法(监督、半监督或无监督),都需要标注好的数据来建立一个训练集或黄金标准。 然而,在大多数情况下,要完成高质量的数据标注(data annotation)工作,依然离不开数据标注平台上的众包工作者或诸如
本文由人工智能观察编译 译者:Sandy 科学家们正将Twitter、公民科学和尖端人工智能技术结合起来,为易发生洪水的社区开发预警系统。英国邓迪大学(UniversityofDundee)的研究人员展示了如何利用人工智能从Twitter中提取数据,以及从手机应用程序中获得众包信息,从而建立对城市洪水的超高分辨率的监控。 由于数据收集和处理的复杂性,城市洪水很难得到监测。从一定程度上,这也就阻碍了科学家们进行详细的风险分析、洪水控制以及数值模型的验证。现在,研究人员试图通过探索如何使用最新的人工智能技术来挖
服务计算,也称为面向服务的计算,可以定义为寻求开发计算抽象、体系结构、技术和工具以广泛支持服务。服务导向将物理、硬件和软件资产转变为一种范式,在这种范式中,用户和资产建立按需交互、绑定资源和运营,提供一种抽象层,将重点从基础设施和运营转移到服务。
来源:学术头条 大数据文摘本文约1000字,建议阅读5分钟能否让机器帮助人类完成这一基础任务呢? 当前,很多自然语言处理(NLP)应用需要高质量的标注数据来支撑,特别是当这些数据被用于训练分类器或评估无监督模型的性能等任务中。 例如,人工智能研究人员通常希望过滤嘈杂的社交媒体数据的相关性,将文本分配到不同的主题或概念类别,或衡量其情绪或立场。 而且,无论这些任务使用什么具体方法(监督、半监督或无监督),都需要标注好的数据来建立一个训练集或黄金标准。 然而,在大多数情况下,要完成高质量的数据标注(data
2009 年,由知名科学家李飞飞发起,来自全球 167 个国家近 5 万名工作者以众包的方式,通过三年合作努力,完成了日后触发人工智能领域发展浪潮的伟大数据集 ImageNet。数据规模巨大,标注错误极低,ImageNet 发布十余年以来,已成为淬炼图像处理算法不断升级的试金石。2010-2017 连续开展八年的 ImageNet 全球挑战赛,推动了物体识别平均准确率等 AI 领域关键指标不断提升,更让深度学习算法自 2012 年在此舞台之上大放异彩,进一步引发了人工智能领域的革命。
作为世界上最好的语言PHP,在2018年发展依然一路凯歌。PHP语言受到众多企业家们的喜爱。众所周知,PHP技术主要用于一个网站的后台开发。那么如何用PHP开发一个完整的网站呢?本文小编与你们分享PH
随着自动驾驶和无人物流的快速发展,高精地图将成为重要设施。目前主要的高精地图数据采集包括集中制图模式和众包模式。集中制图模式通过配有激光雷达的数据采集车进行路测,但是会受到成本限制。众包模式借用大量车辆上的摄像头获取数据和数据实时更新。但其发展受到需和主机厂合作,车辆底层数据封闭以及如何提高数据贡献者积极性等制约。
迈克尔•苏德森(Michael Schudson)在《聚光灯,不是“真相的机器”》中指出:“新闻不是‘真相的机器’,而是李普曼所说的‘聚光灯’和‘探照灯’。在大数据与信息过剩的风险社会,真正有价值的新闻应当是基于数据分析得出的‘预计明天将有暴风雨’式的对公众的忠告、指南、通知、预警。”概言之,大数据时代的新闻传播较之传统的新闻业态是一种深刻的转型,本文集中探讨大数据对于新闻业态重构的若干革命性改变。 一、生产信息提供者层面的变化 (一)个性化信息推荐:新闻生产机制的颠覆性转变 1.基于个
代码、数据、实验地址:https://worksheets.codalab.org/worksheets/0x9a15a170809f4e2cb7940e1f256dee55/
大数据时代如何活用数据可视化、大数据与众包、群体智慧、贝叶斯方法等为失联搜救出谋献策?请看下文。 引子 “MH370”作为航班代码,是近日震惊世界的马来西亚航空公司客机失去联络事件(后简称“马航事件”)留给公众最深刻的数字印象。时至今日,有关马航事件的调查和搜救工作仍在继续。 在历史上的多次飞机船只等交通工具出现失联情况的突发事件中,数据的收集、分析以及信息的及时发布都在搜寻中起到过关键的作用。比如在2009年,法国航空公司曾有一架民航客机失去联络和踪迹。当时,有不少基于数据
作者:王喆 链接:https://www.zhihu.com/question/23273263/answer/65433220 先说结论:大数据的终极核心价值在于“资源优化配置”。 无论是大数据在
今天遇到这么一个问题,Android App使用百度地图定位上传服务器的时候,发现有几段不同时间但是经纬相同的情况,Android调查是因为有的手机GPS定位关了,所以导致这个问题出现,说可能关了GPS导致经度不高导致的。所以让iOS也判断一下如果GPS关了就提示。
随着气候变化的加速,世界各地的沿海社区面临着海平面上升的威胁。研究人员认为他们可以通过结合人工智能、社交媒体和众包应用等工具,帮助这些社区为自然灾害做准备。 苏格兰邓迪大学的一组科学家和工程师最近展示
今天为大家介绍的是来自Fabrizio Gilardi的一篇讨论chatgpt能力的论文。许多自然语言处理(NLP)应用需要进行手动文本标注,用于训练分类器或评估无监督模型的性能,这是一个常见的任务。根据任务的规模和复杂程度,这些任务可能由众包工作者在MTurk等平台上进行,也可能由经过培训的标注员,比如研究助理,来完成。作者使用包含六千一百八十三个样本的四个推文和新闻文章数据集,展示了ChatGPT在多个标注任务中的表现优于众包工作者。在这四个数据集上,ChatGPT的零样本准确率平均超过众包工作者约25个百分点,同时ChatGPT的标注员间一致性在所有任务上均超过众包工作者和经过培训的标注员。此外,ChatGPT每个标注的成本不到0.003美元,比MTurk便宜约30倍。这些结果表明大型语言模型的潜力,能够大幅提高文本分类的效率。
【新智元导读】本文综合了IDC和Gartner等机构的预测,对2018 AI领域的发展进行预测,包括大公司、算法、兼并等多个方面。 计算分析大数据绝不是一时性的。随着数据量的不断增长,分析大数据的方式也将改善。涉及到预测性分析(Predictive Analytics)的应用时,我们只看到冰山一角。它通过数据挖掘、机器学习、AI技术帮助组织机构分析现有数据,比如预测销售额、优化营销活动等。这些人工智能技术都在深刻地改变着我们的生活。 以下是AI世界、大数据、预测分析、机器学习的关键数据: 2018年,75%
选自Google Research Blog 作者:Praveen Paritosh等 机器之心编译 参与:蒋思源 近日,谷歌官方研究博客发布了一个开源数据集,该数据集包含10万多条经标注的在线讨论语料,是迄今为止最大的在线讨论标注数据集。该数据集的构建者希望其能进一步推动机器学习和自然语言处理研究的进步。 项目地址:https://github.com/google-research-datasets/coarse-discourse 论文地址:https://research.google.com/pu
波士顿市政府推荐自己的市民,使用一款智能手机应用——“颠簸的街道(Street Bump,网站访问链接:http://www.streetbump.org/)”。
在《国家科学评论》(National Science Review, NSR) 的机器学习专题期刊中,介绍了南京大学周志华教授发表的一篇论文《A brief introduction to weakly supervised learning》,本文对此做编译介绍,希望这篇文章能对你有所帮助,让你在学习和应用AI技术的道路上更进一步!
摘要:监督学习技术通过学习大量训练样本来构建预测模型,其中每个训练样本都有一个标签标明其真值输出。尽管当前的技术已经取得了巨大的成功,但是值得注意的是,由于数据标注过程的高成本,很多任务很难获得如全部真值标签这样的强监督信息。因此,能够使用弱监督的机器学习技术是可取的。本文综述了弱监督学习的一些研究进展,主要关注三种弱监督类型:不完全监督:只有一部分训练数据具备标签;不确切监督:训练数据只具备粗粒度标签;以及不准确监督:给出的标签并不总是真值。
首先讲一下Wizard-of-Oz如何通过众包工作者产生task oriented多轮对话。
作者:American Psychological Association 译者: Tinkerer 摘自:译言(www.yeeyan.org) 导读:工作游戏化、众包方式的设计,原来需要10年才能收集的数据量,现如今,只要1天,效率提升3000多倍! 根据美国心理学协会出版的一篇文章,有这样一款节奏快速的游戏应用软件以创纪录的速度为研究人员提供了数十亿项数据,游戏中玩家扮演机场安检人员操作X光扫描仪筛查旅客的行李箱包。 这是一份发表于美国心理学会期刊《实验心理学:人类知觉与绩效》Experiment
核心观点泛分享经济 2017年,分享经济在中国翻开了历史上全新的一页。传统意义上的分享经济来源于对经济剩余的循环再利用,体现为公众将闲置资源通过社会化平台与他人分享,进而获得收入的现象。但如今,许多人注意到,当前分享经济至少产生四个新变化: 第一个变化,供需双方已经从个体参与衍生出企业; 第二个变化,出现了非闲置资源的分享,比如共享单车,企业采购自行车供分享使用; 第三个变化,过去单个分享经济平台已经开始生态化发展; 第四个变化,随之而来,由个人收入变成企业收入。 可以看到,分享经济产生了新的社会示范意义,
如果有想学习java的程序员,可来我们的java学习扣qun:94311,1692免费送java的视频教程噢!我整理了一份适合18年学习的java干货,送给每一位想学的小伙伴,并且每天晚上8点还会在群内直播讲解Java知识,欢迎大家前来学习哦。
领取专属 10元无门槛券
手把手带您无忧上云