文章/答案/技术大牛

发布

社区首页 >问答首页 >文本类型自变量到数值类型火花朴素贝叶斯

问文本类型自变量到数值类型火花朴素贝叶斯
EN

Stack Overflow用户

提问于 2016-06-17 06:19:30

回答 1查看 74关注 0票数 1

我对带有数字和非数字特性的朴素贝叶斯表示怀疑。就像我有5个独立的参数一样，我想对数据进行分类。

男性，怀疑酗酒，工作日，上午12点至凌晨4点，75，30-39男，交通违规，平日，12点-4点，0，20-24岁，怀疑酗酒，周末，凌晨4点-8点，12点40-49男，怀疑酗酒，工作日，12点至4点，0 50-59女，道路交通碰撞，周末，下午12点-4点，0，20-24次，道路交通碰撞，工作日，下午12点至下午4点，0，25-29男，工作日，晚上8-12点，下午0，其他男性，其他，工作日，上午8点至下午12点，23，60-69男，移动周末，女性，道路交通碰撞，周末，上午4时至上午8时，61，16-19男，移动交通违章行为，周末，下午4时至晚上8时，74，25-29男，道路交通碰撞，平日，12时至4时，0时，其他男性，移动交通违规行为，平日，下午8时至下午12时，016-19男，道路交通碰撞，工作日，下午8时至下午12时，0，其他男性，移动交通违规行为，周末，上午4时至上午8时，上午030至39号。

您可以看到一些参数是数字的，有些是非数字的。任何人都知道如何将非数字数据转换为数字数据。

如何将非数字转换为数字
如果我使用TF，那么它就会正确与否。
如果TF是对的那为什么

apache-spark

apache-spark-mllib

naivebayes

回答 1

Stack Overflow用户

发布于 2016-06-18 23:23:17

可以从以下几个方面开始：

通过应用factorizer将每个特性转换为分类值。举个例子：
Feature1:男性=0女性=1
Feature2:Alcohol=0 collision=1移动-违规=2
。。

诸若此类。

在分解结果中，每个不同的“列”可能值都应该有自己特定的数值表示。希望像4pm-8pm这样的东西是不重叠的:但是如果是的话，你可以从忽略这些细节开始，然后在时间允许的情况下做一些更智能的手工特性。

输入中的每一个条目/行都由十几个“功能”组成。然后，可以从每一行中创建一个特征向量。现在的结果是tf-idf ready (TM)。您可以将NB算法应用到新创建的特征向量中，并找到相对相似之处。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/37874463

复制

相似问题

问文本类型自变量到数值类型火花朴素贝叶斯
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本类型自变量到数值类型火花朴素贝叶斯EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本类型自变量到数值类型火花朴素贝叶斯
EN