前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >国际中文教育大模型“桃李” 1.0发布

国际中文教育大模型“桃李” 1.0发布

作者头像
zenRRan
发布2023-08-22 14:17:56
3470
发布2023-08-22 14:17:56
举报
文章被收录于专栏:深度学习自然语言处理

随着ChatGPT引起全社会的关注,及各类大语言模型(Large Language Model)争相亮相,通用域自然语言处理任务已获得巨大成功,引起了国际中文教育领域的普遍关注。国际中文教育人士纷纷展开了对大模型的探讨:大模型是否可以根据学习者的水平,提供合适的语言表达,或根据学习者的问题给出详细的解答,从而在一定程度上辅助甚至充当学习伙伴、语言教师?然而,目前通用领域的大模型在垂直领域的效果仍有限。为解决上述问题,我们全面推出适用于国际中文教育领域的大模型“桃李”(Taoli)1.0,以期成为大模型在国际中文教育领域应用的引玉之砖。

“桃李”(Taoli)

· “桃李”在通用中文基座模型上扩充了国际中文教育领域专有词表,使用了该领域专有数据集进行指令精调,增强了大模型在该领域多项任务上的理解能力。

· “桃李”可以根据学习者的情况作出反馈,帮助学生模拟真实的语言交际场景。例如,与汉语水平等级为三级的学生对话时,能够控制其使用的语言尽量不超过三级的难度。

· “桃李”具有文本纠错功能,能够分别进行最小改动纠错与流利提升纠错,并能深入分析错误原因;具有作文评分功能,能够自动对作文水平进行评判,帮助学生自主学习。

· “桃李”能够方便国际中文教师整合教学资料,提供教学思路,提升教学质量。例如辅助生成教学过程中需要做的教案、幻灯片中需要展示的例句、课堂需要给学生提供的课外素材等。

“桃李”(Taoli)大模型: https://github.com/blcuicall/taoli

训练数据

我们基于目前国际中文教育领域流通的500余册国际中文教育教材与教辅书、汉语水平考试试题以及汉语学习者词典等,构建了国际中文教育资源库。我们设置了多种形式的指令来充分利用知识,构造了共计 88000 条的高质量国际中文教育问答数据集,数据示例如下:

"instruction": "修改句子的表达方式,使其更流畅、自然。",

"input": "我去中国的时候,我希望我要认识很多中国人。",

"output": "我去中国后,希望可以认识很多中国人。"

模型效果对比

1.考试能力

我们从教师与学习者两个方面出发,分别对几个模型在国际汉语教师资格证考试与汉语水平考试(HSK)上的表现进行了测评。其中HSK考试采用2018年官方出版的考试真题,从一级到六级各选择一套。国际汉语教师资格证考试采用2021年出版的官方真题。试题以客观题为主,主观题不参与计分。

以HSK4-6级为例:

试题(客观题)

Taoli 1.0

GPT-4

HSK4

55

78

HSK5

60

85

HSK6

42

76

2.样例展示

输入

Taoli 1.0‍

请遵循最小改动原则纠正下面这句话:北京与西安有很多好象一样的地方。

北京和西安有很多类似的地方。

请生成词语在当前上下文中的释义。词语:折服上下文:我深深地被他的奉献精神所折服。

被说服或被感动。

请使用下列所有词语,写一个30字左右的段落。词语:元旦、放松、礼物、表演

元旦是一年中最重要的节日之一,人们会庆祝并享受放松的时间。在节日中,人们会收到礼物,表演,并享受各种活动。

合作单位

本项目由北京语言大学、清华大学、东北大学、北京交通大学合作完成。

总结与展望

通过对中文基座模型的指令微调,我们推出了国际中文教育大模型“桃李”(Taoli)1.0

“桃李”有助于提供个性化、智能化的汉语学习指导,有助于推动国际中文教育领域的智能化发展。在未来,我们将继续拓展其在语言教育领域的应用范围,为更多学习者带来智能化的教育场景体验。

多种高阶版本的“桃李”教育大模型正在研发中,敬请期待!

编辑:孔存良、朱君辉、常鸿翔

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档