在准确性和性能方面,基于文本分类相似度(余弦距离)的算法和常规分类方法(如SVM或决策树),哪种方法表现更好?SVM是否可以在4 4GB 8 4GB系统中有限时间内解析,同时使用大型文本数据进行训练?
发布于 2018-07-31 22:55:05
为了回答这个问题,你可以考虑“没有免费的午餐”理论,1.如果你对数据没有假设,那么你不能偏爱其中一种方法。因此,您可以尝试不同的方法,并使用K折叠来估计每种方法的误差度量。然后,执行适当的统计测试,以查看结果是否在统计上不同。
我希望这能帮到你。
参考文献:
1 D. H. Wolpert和W. G. Macready,“优化没有免费的午餐定理”,IEEE翻译。埃弗尔。计算机,第一卷,67-82页,1997年4月
https://stackoverflow.com/questions/51615777
复制相似问题