我有一个包含标题和情绪与这些标题相关的数据集。标题已经从另一个更大的数据集中筛选出来,使用以下标准:保留那些具有非常负面或非常积极情绪的内容。最后,我有一个数据集,有一个非常正面的和非常负面的情绪标题。
我的目标是利用tf和keras创建一个深度学习分类器,将新的观察分为三类:积极情绪、消极情绪和中性情绪。换句话说,我的目标是使用二进制标记数据集来创建一个分类器,该分类器输出一个3标签分类器,我想通过预测标题的正负概率来实现它。
如果一个标题的预测概率是:
p(positive) = 80%
p(negative) = 20%
比标题更积极。但如果:
p(positive) = 50%
p(negative) = 50%
而不是标题是中性的。
你认为如何?
发布于 2020-10-16 15:01:46
是的,这是一个很好的策略。唯一需要弄清楚的是负值到中性值和中性值到正值。
你能做的是决定一些你想要达到的精度值(比如95%),当你把一篇正面的文章和一篇负面的文章归类为否定的时候。基于这种期望的精度,您可以通过在一个持久化集合上评估您受过训练的模型来计算您需要设置的阈值(如果正阈值太低,您可能无法达到95%的精度,或者如果它太高,则可能限制太大,并将大多数标题标记为中性)。
这些阈值的设计决策取决于您要解决的“业务问题”或您的工具的理想客户/使用。
https://datascience.stackexchange.com/questions/84097
复制相似问题