有多个重复值的工程师特性最好的方法是什么?我想解析这些数据,并最终保存在熊猫df中进行进一步的分析。例如,我有一些人的个人资料,其中包括
Name, Age, Gender, Company, Degree
现在很容易保留具有单一价值的姓名、年龄和性别,但公司可以拥有多个价值或多个价值,就像某人曾与谷歌或微软合作,或同时与谷歌、微软合作一样。
与度相同的情况下,人们可以同时拥有单一的和多个的价值。
现在,我把它们保留为逗号分隔的值,比如如果某人有不止一家公司,那么价值就是谷歌、微软。当我使用例如sklearn标签编码器对它们进行编码时,我得到了不同的代码,比如Google =1 Microsoft =2 Google,Microsoft =3。
我想这不是很准确,因为当数据增加时,它也会随着组合数量的增加而爆炸,如果我必须找到那些在谷歌工作的人的类似特性,我可能无法得到正确的答案,因为代码2和代码3永远不会匹配。
是否有更好的方法来处理这些数据?
发布于 2021-03-06 22:45:52
根据您所面临的ML问题的类型,可能会有或多或少合适的方法。
你试过单热编码了吗?它实际上应该回答你的问题,定义人的密集向量填充0
s除外,在给定的公司坐标,他们将显示一个1
。这有点蛮力,缺点是它肯定会增加特征向量的维数,但这是一个很好的起点。
https://datascience.stackexchange.com/questions/90345
复制