智能教育系统中文本内容的知识点标注

文章来源：企鹅号 - 科技创新与创业

UMAP 2017

作者：Zachary A. Pardos（UC Berkeley），Anant Dadu（IIT-BHU Varanasi）

一、背景简介

1、研究背景：在智能教育系统（ITS）中，有大量crowdsourcing的内容，但这些内容往往缺少一些类似于“标签”的元数据，以至于这些内容无法很好地组织起来。所谓的“标签”其实就是知识点，以ASSISTments平台为例，共有198种知识点，但平台上大多数内容都是由普通用户提供，缺少知识点标签。

3、相关工作：简单文本表示+分类器（如BoW+SVM）；非负矩阵分解（item-skill）；神经网络（Deep Knowledge Tracing）

二、模型算法

(a) 基于距离对problem所属的skill进行分类（即找最相似的skill）：首先skill的embedding可以通过计算problem的均值得到，用了几个不同的距离函数（方差、cosine、euclidean）

(b) 有监督的分类方法：使用有label的problem集合进行训练，input是embedding，一个隐藏层，output是softmax，loss用交叉熵（只包含一个知识点）

2、Bag-of-Words：用了tf-idf作为problem的特征表示，模型采用神经网络和朴素贝叶斯

三、实验结果

1、数据集：50000+个problem，28000+个user，2630000+个record

2、combine两种方法（representation和BoW）：两个模型的vector直接拼接，作为一个神经网络的输入，训练一个分类器

3、实验内容：skip-gram调参、使用距离函数进行分类（不同距离函数没太大差异、是否使用答对的record）、使用有监督方法（设置min-count会有提升）、BoW（神经网络>NB）、ensemble方法最好

四、思考

1、怎么迁移到MOOC上？（MOOC题目太少、有天然的划分）

2、怎么加入知识点的难度关系、先修关系？（做题的context一般来说是从简单到难以及课本顺序等）

作者：朱纪乐，北京大学在读硕士，研究方向为教育数据挖掘、推荐系统

发表于: 2017-12-122017-12-12 13:17:25
原文链接：http://kuaibao.qq.com/s/20171212G0CVGC00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

智能教育系统中文本内容的知识点标注

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐