首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >二元分类问题的标注训练数据的解决方案

二元分类问题的标注训练数据的解决方案
EN

Data Science用户
提问于 2020-11-08 12:09:33
回答 1查看 25关注 0票数 2

我有一个巨大的数据集,我正在尝试使用80-20 (保留方法)方法来训练和测试我的模型。

这里的预期结果是“它没有损坏97%的准确性”,这是一些木星笔记本等的实现细节和输出。

我的问题是-除了手工标注这样大的数据集之外,还有其他选择吗?

人工标记-我指的是一个人(或一个群体)通过所有600万行(!)。而且,并不是所有的输入字符串都有相同的内容,因此很难仅仅通过某些脚本/csv并将其自动化。但我想弄清楚这是不是唯一的办法。

EN

回答 1

Data Science用户

发布于 2020-11-08 13:34:59

当然不是。以下是一个简单可行的解决方案。

做无监督的学习。如果你做得好,效率高,你只会在你的数据中看到这两个组(二进制分类)。你的银发得分会很高。因此,您可以自动标记这些组/集群。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/85104

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档