我们在我们的项目中面临着问题。我们有一个大约25000行的数据集,我们有一个列名标题,它包含文本数据,我们在数据中有一个分数列,set.We想要使用机器学习技术来知道什么是使标签高的因素,我的意思是什么是关键词等等。因为使用可以看到我们有一个简短的文本,所以从这篇短文中提取与标签相关的最大知识的最合适的技术是什么,我对文本做了一些预处理,然后使用tf加权函数提取数字特征,然后我尝试使用决策树算法对文本进行分类,例如:
Score Label Tactic Title
1. High Opportu
我的任务是分类免费文本来源于客户对我们产品的抱怨。
我创建了一个分类法,并有大约10个不同的类别。我意识到这些类别包括关键词。
示例:
"Customer doesn't understand how to use the product".
关键词:理解,知识,了解,意识。
记录:
Training, Customer doesn't understand how to use the product
我在用谷歌预测API。在培训模型时,我会将以前的文本归类为:“客户不知道如何使用该产品”--培训。
如何添加关键字到免费的文本/培训数据,以帮助模型更好的表现,