首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

智能教育系统中文本内容的知识点标注

UMAP 2017

作者:Zachary A. Pardos(UC Berkeley),Anant Dadu(IIT-BHU Varanasi)

一、背景简介

1、研究背景:在智能教育系统(ITS)中,有大量crowdsourcing的内容,但这些内容往往缺少一些类似于“标签”的元数据,以至于这些内容无法很好地组织起来。所谓的“标签”其实就是知识点,以ASSISTments平台为例,共有198种知识点,但平台上大多数内容都是由普通用户提供,缺少知识点标签。

3、相关工作:简单文本表示+分类器(如BoW+SVM);非负矩阵分解(item-skill);神经网络(Deep Knowledge Tracing)

二、模型算法

(a) 基于距离对problem所属的skill进行分类(即找最相似的skill):首先skill的embedding可以通过计算problem的均值得到,用了几个不同的距离函数(方差、cosine、euclidean)

(b) 有监督的分类方法:使用有label的problem集合进行训练,input是embedding,一个隐藏层,output是softmax,loss用交叉熵(只包含一个知识点)

2、Bag-of-Words:用了tf-idf作为problem的特征表示,模型采用神经网络和朴素贝叶斯

三、实验结果

1、数据集:50000+个problem,28000+个user,2630000+个record

2、combine两种方法(representation和BoW):两个模型的vector直接拼接,作为一个神经网络的输入,训练一个分类器

3、实验内容:skip-gram调参、使用距离函数进行分类(不同距离函数没太大差异、是否使用答对的record)、使用有监督方法(设置min-count会有提升)、BoW(神经网络>NB)、ensemble方法最好

四、思考

1、怎么迁移到MOOC上?(MOOC题目太少、有天然的划分)

2、怎么加入知识点的难度关系、先修关系?(做题的context一般来说是从简单到难以及课本顺序等)

作者:朱纪乐,北京大学在读硕士,研究方向为教育数据挖掘、推荐系统

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171212G0CVGC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券