问二元分类问题的标注训练数据的解决方案
EN

Data Science用户

提问于 2020-11-08 12:09:33

回答 1查看 25关注 0票数 2

我有一个巨大的数据集，我正在尝试使用80-20 (保留方法)方法来训练和测试我的模型。

这里的预期结果是“它没有损坏97%的准确性”，这是一些木星笔记本等的实现细节和输出。

我的问题是-除了手工标注这样大的数据集之外，还有其他选择吗？

人工标记-我指的是一个人(或一个群体)通过所有600万行(！)。而且，并不是所有的输入字符串都有相同的内容，因此很难仅仅通过某些脚本/csv并将其自动化。但我想弄清楚这是不是唯一的办法。

发布于 2020-11-08 13:34:59

当然不是。以下是一个简单可行的解决方案。

做无监督的学习。如果你做得好，效率高，你只会在你的数据中看到这两个组(二进制分类)。你的银发得分会很高。因此，您可以自动标记这些组/集群。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/85104

复制

相似问题

问二元分类问题的标注训练数据的解决方案EN