机器阅读理解的任务就是让机器阅读文本,回答和阅读内容相关的问题,其中涉及到语言理解、知识推理、摘要生成等复杂技术,极具挑战。在当今互联网应用中,智能搜索、内容推荐、语音助手与智能客服等领域的发展,都大量依靠于机器阅读理解阅读真实问题、真实互联网材料,给出完整答案的AI能力。从海量真实数据中训练AI,是自然语言处理和人工智能领域的重要前沿课题。
为此,本次竞赛中将提供面向真实应用场景的大规模中文阅读理解数据集。数据集包含来自百度搜索的30万个真实问题,每个问题对应5个候选文档文本,以及人工撰写的优质答案。竞赛任务是对于给定问题q及其对应的文本形式的候选文档集合D=d1, d2, ..., dn,要求参评阅读理解系统自动对问题及候选文档进行分析,输出能够满足问题的文本答案a。为了便于参赛选手快速了解竞赛任务,竞赛还提供了两个开源的阅读理解基线系统,并采用ROUGH-L和BLEU作为评价指标。
百度与CIPS、CCF联合举办2018机器阅读理解技术竞赛并开放数据集,旨在为研究者提供学术交流平台,进一步提升机器阅读理解技术的研究水平,并希望更多研究者能够利用数据集产出更好更优质的机器阅读理解模型,推动语言理解和人工智能领域技术研究和应用的发展。对此,百度自然语言处理首席科学家兼百度技术委员会主席吴华表示,“我们希望能够与领域内的其他同行者一起,推进机器阅读理解技术和应用的研究,使 AI 能够理解人类的语言、用自然语言与人类交流,让 AI 更‘懂’人类。”
有数据显示,中国人工智能人才缺口超过500万,在自然语言处理技术成为人才竞争核心领域之一的今日,百度通过开展机器阅读理解技术竞赛、百度之星开发者大赛、PaddlePaddle AI大赛等多个人工智能行业竞赛并开放海量优质AI数据资源,正是希望携手并赋能AI行业的优质人才,进一步推动人工智能领域的技术交流和发展,为研究者提供强大的学习驱动力与创造力,培养与成就更多中国人工智能领域的精英技术人才,最终持续推进中国AI产业的发展,让越来越多的中国面孔亮相于人工智能领域的世界舞台。
未来,百度将继续在AI人才培养中发挥重要作用,助力产学研各方开展研究,增强我国在机器阅读理解领域的影响力,让人才成为AI领域持续领跑的强力引擎。
领取专属 10元无门槛券
私享最新 技术干货