我有一个巨大的数据集,我正在尝试使用80-20 (保留方法)方法来训练和测试我的模型。
这里的预期结果是“它没有损坏97%的准确性”,这是一些木星笔记本等的实现细节和输出。
我的问题是-除了手工标注这样大的数据集之外,还有其他选择吗?
人工标记-我指的是一个人(或一个群体)通过所有600万行(!)。而且,并不是所有的输入字符串都有相同的内容,因此很难仅仅通过某些脚本/csv并将其自动化。但我想弄清楚这是不是唯一的办法。
发布于 2020-11-08 13:34:59
当然不是。以下是一个简单可行的解决方案。
做无监督的学习。如果你做得好,效率高,你只会在你的数据中看到这两个组(二进制分类)。你的银发得分会很高。因此,您可以自动标记这些组/集群。
https://datascience.stackexchange.com/questions/85104
复制相似问题