我目前正在与CHILDES语料库合作,试图创建一个分类器,以区分患有特定语言障碍(SLI)和典型发育障碍(TD)的儿童。
在我的阅读中,我注意到确实没有一组令人信服的特征来区分这两个已经被发现的特征,所以我突然产生了一个疯狂的想法,试图创建一个可能会更好的特征学习算法。
这个是可能的吗?如果是这样的话,你建议我怎么做呢?从我所做的阅读来看,大多数特征学习都是在图像处理上完成的。另一个问题是,我拥有的数据集可能太小,无法让它工作(在100年代),除非我找到一种方法从孩子们那里获得更多的抄本。
发布于 2016-08-31 15:01:55
创建一个由具有三个标签的子文本组成的数据集: 1- Normal,2- SLI,3- TD
所以你会有3个标签。
您可以将数据集的40%、20%用于开发,20%用于测试。
然后,使用bag of character n-gram功能运行LogisticRegression分类器(例如,使用scikit learn)。你可以在scikit learn中通过TfidfVectorizer很容易地做到这一点。
然后,您在60%的训练集上训练模型,并通过选择性能最佳的开发模型来调整超参数(例如正则化强度)。
然后,您使用选择的超参数再次训练,您将获得此example中最重要的功能。
对于每个类别,它会给出与每个标签相关联的特征权重,因此您将获得两种疾病的最高语言症状。
https://stackoverflow.com/questions/39239728
复制相似问题