首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >是否可以将特征学习用于二进制文本分类?

是否可以将特征学习用于二进制文本分类?
EN

Stack Overflow用户
提问于 2016-08-31 10:17:40
回答 1查看 206关注 0票数 1

我目前正在与CHILDES语料库合作,试图创建一个分类器,以区分患有特定语言障碍(SLI)和典型发育障碍(TD)的儿童。

在我的阅读中,我注意到确实没有一组令人信服的特征来区分这两个已经被发现的特征,所以我突然产生了一个疯狂的想法,试图创建一个可能会更好的特征学习算法。

这个是可能的吗?如果是这样的话,你建议我怎么做呢?从我所做的阅读来看,大多数特征学习都是在图像处理上完成的。另一个问题是,我拥有的数据集可能太小,无法让它工作(在100年代),除非我找到一种方法从孩子们那里获得更多的抄本。

EN

回答 1

Stack Overflow用户

发布于 2016-08-31 15:01:55

创建一个由具有三个标签的子文本组成的数据集: 1- Normal,2- SLI,3- TD

所以你会有3个标签。

您可以将数据集的40%、20%用于开发,20%用于测试。

然后,使用bag of character n-gram功能运行LogisticRegression分类器(例如,使用scikit learn)。你可以在scikit learn中通过TfidfVectorizer很容易地做到这一点。

然后,您在60%的训练集上训练模型,并通过选择性能最佳的开发模型来调整超参数(例如正则化强度)。

然后,您使用选择的超参数再次训练,您将获得此example中最重要的功能。

对于每个类别,它会给出与每个标签相关联的特征权重,因此您将获得两种疾病的最高语言症状。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39239728

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档