首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Apache :如何将csv中的多列(特性)与Java中的Tokenizer连接起来?

Apache :如何将csv中的多列(特性)与Java中的Tokenizer连接起来?
EN

Stack Overflow用户
提问于 2016-03-05 23:40:55
回答 1查看 1.4K关注 0票数 1

我有一个csv文件,有三个列: Id、Main_user和用户。Id是标签,也是作为特性的其他值。现在,我想从csv中加载这两个特性(main_user和users),将它们矢量化,并将它们组装成一个向量。在使用HashingTF之后,如文档中所述,除了“用户”特性之外,如何添加第二个特性"Main_user“。

代码语言:javascript
运行
复制
DataFrame df = (new CsvParser()).withUseHeader(true).csvFile(sqlContext, csvFile);
Tokenizer tokenizer = new Tokenizer().setInputCol("Users").setOutputCol("words");        
DataFrame wordsData = tokenizer.transform(df);
int numFeatures = 20;
HashingTF hashingTF = new HashingTF().setInputCol("words")
                .setOutputCol("rawFeatures").setNumFeatures(numFeatures);
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-03-06 03:03:37

好的,我找到了解决办法。依次加载列、标记、hashTF,并在最后组装它们。我希望这方面有任何改进。

代码语言:javascript
运行
复制
DataFrame df = (new CsvParser()).withUseHeader(true).csvFile(sqlContext, csvFile);

Tokenizer tokenizer = new Tokenizer();
HashingTF hashingTF = new HashingTF();
int numFeatures = 35;

tokenizer.setInputCol("Users")
        .setOutputCol("Users_words");
DataFrame df1 = tokenizer.transform(df);
hashingTF.setInputCol("Users_words")
        .setOutputCol("rawUsers").setNumFeatures(numFeatures);
DataFrame featurizedData1 = hashingTF.transform(df1);

tokenizer.setInputCol("Main_user")
        .setOutputCol("Main_user_words");
DataFrame df2 = tokenizer.transform(featurizedData1);          
hashingTF.setInputCol("Main_user_words")
        .setOutputCol("rawMain_user").setNumFeatures(numFeatures);
DataFrame featurizedData2 = hashingTF.transform(df2);             

// Now Assemble Vectors
VectorAssembler assembler = new VectorAssembler()
        .setInputCols(new String[]{"rawUsers", "rawMain_user"})
        .setOutputCol("assembeledVector");

DataFrame assembledFeatures = assembler.transform(featurizedData2);
票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35821282

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档