首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >文本类型自变量到数值类型火花朴素贝叶斯

文本类型自变量到数值类型火花朴素贝叶斯
EN

Stack Overflow用户
提问于 2016-06-17 06:19:30
回答 1查看 74关注 0票数 1

我对带有数字和非数字特性的朴素贝叶斯表示怀疑。就像我有5个独立的参数一样,我想对数据进行分类。

男性,怀疑酗酒,工作日,上午12点至凌晨4点,75,30-39男,交通违规,平日,12点-4点,0,20-24岁,怀疑酗酒,周末,凌晨4点-8点,12点40-49男,怀疑酗酒,工作日,12点至4点,0 50-59女,道路交通碰撞,周末,下午12点-4点,0,20-24次,道路交通碰撞,工作日,下午12点至下午4点,0,25-29男,工作日,晚上8-12点,下午0,其他男性,其他,工作日,上午8点至下午12点,23,60-69男,移动周末,女性,道路交通碰撞,周末,上午4时至上午8时,61,16-19男,移动交通违章行为,周末,下午4时至晚上8时,74,25-29男,道路交通碰撞,平日,12时至4时,0时,其他男性,移动交通违规行为,平日,下午8时至下午12时,016-19男,道路交通碰撞,工作日,下午8时至下午12时,0,其他男性,移动交通违规行为,周末,上午4时至上午8时,上午030至39号。

您可以看到一些参数是数字的,有些是非数字的。任何人都知道如何将非数字数据转换为数字数据。

  1. 如何将非数字转换为数字
  2. 如果我使用TF,那么它就会正确与否。
  3. 如果TF是对的那为什么
EN

回答 1

Stack Overflow用户

发布于 2016-06-18 23:23:17

可以从以下几个方面开始:

  • 通过应用factorizer将每个特性转换为分类值。举个例子:
  • Feature1:男性=0女性=1
  • Feature2:Alcohol=0 collision=1移动-违规=2
  • 。。

诸若此类。

在分解结果中,每个不同的“列”可能值都应该有自己特定的数值表示。希望像4pm-8pm这样的东西是不重叠的:但是如果是的话,你可以从忽略这些细节开始,然后在时间允许的情况下做一些更智能的手工特性。

输入中的每一个条目/行都由十几个“功能”组成。然后,可以从每一行中创建一个特征向量。现在的结果是tf-idf ready (TM)。您可以将NB算法应用到新创建的特征向量中,并找到相对相似之处。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/37874463

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档