CGED官网 大数据文摘作品 作者:魏子敏 “相比英文,中文是连写的,所以首先要识别出词语的边界(即分词),这个是巨大的难点。”...11月24日,阿里巴巴iDST在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军。...前者是英文的实体识别,主要处理自然语言处理中的经典课题,实体识别问题;而 CGED是中文的语法纠错,相比来看,任务更综合,语法纠错需要依赖很多预处理模块来做,比如分词、词性标注、实体识别、句法分析等。...CGED是自然语言处理领域的权威赛事,由IJCNLP联办,今年已是第四届。本次比赛中,主办方挑选了一些外国友人写的中文作文片段,希望参赛者用人工智能算法自动识别里面的语法语义错误。...根据组委会公开的结果,司罗团队在所有的3个level的正确率都以较大优势位居第一,获取2017 CGED比赛的冠军。他们通过在深度学习中引入无监督的语法知识,同时结合了集成学习等方法。
11月24日,阿里巴巴iDST在中文语法错误自动诊断大赛(Chinese Grammatical Error Diagnosis,以下简称 CGED)三个level中全面夺得冠军。...CGED是自然语言处理领域的权威赛事。比赛的背景是:学习中文的外国人数不断增加,由于中文的博大精深,外国友人在中文写作中会出现各种错误。
汉语水平考试(HSK)和lang8原始平行语料HSK+Lang8[190MB],该数据集已经切词,可用作数据扩增 以上语料,再加上CGED16、CGED17、CGED18的数据,经过以字切分,繁体转简体
Workshop on Natural Language Processing Techniques for Educational Applications workshop 的主席,向雷锋网重点介绍了 CGED...CGED 是自然语言处理领域的权威赛事,由 IJCNLP 联办,今年已是第五届,参赛选手需要用人工智能算法自动识别中文里面的语法错误。...在去年,阿里巴巴 iDST 团队在 CGED 三个 level 中全面夺冠,今年哈工大、科大讯飞联合拿了第一名,社科院取得了第二名,阿里排名第三。
图 2 动态自校正策略 共识引导决策策略 为了解决复杂的数学问题,FoT 设计了共识引导专家决策(CGED)策略,以确保最终答案的高准确性和可靠性。...CGED 方法结合了集体智慧和专家判断,引导推理过程从基于共识的决策转向专家评估。在 FoT 方法中,每个独立树通过其独特的推理路径生成一个或多个可能的答案。
另外,现在的文本错误不再局限于字词粒度上的拼写错误,需要提高中文语法错误检测(CGED, Chinese Grammar Error Diagnosis)及纠正能力,列在TODO中,后续调研。...(密码cHcu) 383M NLPCC 2018 GEC官方数据集 NLPCC2018-GEC 官方trainingdata 114M NLPCC 2018+HSK熟语料 nlpcc2018+hsk+CGED...汉语水平考试(HSK)和lang8原始平行语料[HSK+Lang8]百度网盘(密码n31j),该数据集已经切词,可用作数据扩增 以上语料,再加上CGED16、CGED17、CGED18的数据,经过以字切分
数据分析本次评测中,官方提供了CGED的历年比赛数据(41,239条)和Lang8数据(1212,457条)供模型训练,同时提供了3767条评测数据用以验证模型的效果和性能。...CGED-21验证集中的错误分布情况如图1所示,由此可以看出数据集中占绝大多数的均为用词错误,其次为缺失错误,而乱序错误的占比最少。...图1 验证集错误占比统计图 同时在数据测验的过程中还发现了CGED和Lang8数据集中存在的一些数据问题。
deletion ② 表2-Correctly and wrongly predicted examples for word deletion and insertion. ③ 表3-Results on CGED
NLPTEA2020中文语法错误诊断(CGED)。CGED旨在诊断四种类型的语法错误,即单词缺失(M),单词冗余(R),错误单词选择(S)和单词乱序(W)。...CGED包含两个部分,包括错误检测和错误纠正。...比赛2020 CGED冠军 - 哈工大讯飞实验室哈工大讯飞实验室使用了两种模型来分别应对中文纠错中的S型错误(selection,删、改)和M型错误(missing,增),并且将残差resnet集成到模型中去
赛道二的参赛队伍可自行使用前七届CGED评测任务中提供的训练集、测试集和所有外源性数据资源。...赛道二提供CGED-8数据集。数据来源为HSK动态作文语料库[11]和全球汉语中介语语料库[12]。CGED-8共包括约1400个段落单元、3,000个错误。
团队成员拥有自然语言处理方向的丰富研究经验,特别是对中英文的拼写、语法纠错有长期的研究和积累,相关研究成果已经在自然语言处理顶级学术会议EMNLP、NAACL等发表, 获得过CGED、CTC等纠错评测的多次冠军...与传统的中文纠错评测(NLPCC18,CGED系列)不同,本次赛事评测主要面向的是汉语母语者文本,更贴近真实场景。
现在的文本错误不再局限于字词粒度上的拼写错误,需要提高中文语法错误检测(CGED, Chinese Grammar Error Diagnosis)及纠正能力,列在TODO中,后续调研。...(密码cHcu) 383M NLPCC 2018 GEC官方数据集 NLPCC2018-GEC 官方trainingdata 114M NLPCC 2018+HSK熟语料 nlpcc2018+hsk+CGED...NLPCC 2018 + HSK + CGED16、17、18的数据,经过以字切分,繁体转简体,打乱数据顺序的预处理后,生成用于纠错的熟语料(nlpcc2018+hsk) ,百度网盘(密码:m6fg)
情况2 当前决策完毕的格子(即格子(i,j),亦即下面的正方形CGED)在上一次决策完毕产生的轮廓线 A->B->C->D->E->F中既有左插头,又有上插头,亦即CD和DE上都有插头. ?...上一次决策完毕正方形BCDH(即格子(i,j-1)) 之后轮廓线变成 L1=A->B->C->D->E->F , 然后当前决策的格子是正方形CGED (即格子(i,j)),当前决策完毕之后,轮廓线变成L2
另外,现在的文本错误不再局限于字词粒度上的拼写错误,需要提高中文语法错误检测(CGED, Chinese Grammar Error Diagnosis)及纠正能力,列在TODO中,后续调研。
领取专属 10元无门槛券
手把手带您无忧上云