我对带有数字和非数字特性的朴素贝叶斯表示怀疑。就像我有5个独立的参数一样,我想对数据进行分类。
男性,怀疑酗酒,工作日,上午12点至凌晨4点,75,30-39男,交通违规,平日,12点-4点,0,20-24岁,怀疑酗酒,周末,凌晨4点-8点,12点40-49男,怀疑酗酒,工作日,12点至4点,0 50-59女,道路交通碰撞,周末,下午12点-4点,0,20-24次,道路交通碰撞,工作日,下午12点至下午4点,0,25-29男,工作日,晚上8-12点,下午0,其他男性,其他,工作日,上午8点至下午12点,23,60-69男,移动周末,女性,道路交通碰撞,周末,上午4时至上午8时,61,16-19男,移动交通违章行为,周末,下午4时至晚上8时,74,25-29男,道路交通碰撞,平日,12时至4时,0时,其他男性,移动交通违规行为,平日,下午8时至下午12时,016-19男,道路交通碰撞,工作日,下午8时至下午12时,0,其他男性,移动交通违规行为,周末,上午4时至上午8时,上午030至39号。
您可以看到一些参数是数字的,有些是非数字的。任何人都知道如何将非数字数据转换为数字数据。
发布于 2016-06-18 23:23:17
可以从以下几个方面开始:
factorizer将每个特性转换为分类值。举个例子:诸若此类。
在分解结果中,每个不同的“列”可能值都应该有自己特定的数值表示。希望像4pm-8pm这样的东西是不重叠的:但是如果是的话,你可以从忽略这些细节开始,然后在时间允许的情况下做一些更智能的手工特性。
输入中的每一个条目/行都由十几个“功能”组成。然后,可以从每一行中创建一个特征向量。现在的结果是tf-idf ready (TM)。您可以将NB算法应用到新创建的特征向量中,并找到相对相似之处。
https://stackoverflow.com/questions/37874463
复制相似问题