专栏首页快乐学Pythonpyspark稠密向量(DenseVector)和稀疏向量(SparseVector)

pyspark稠密向量(DenseVector)和稀疏向量(SparseVector)

pyspark稠密向量和稀疏向量

pyspark的本地向量有两种:

DenseVctor :稠密向量 其创建方式 Vector.dense(数据)

SparseVector :稀疏向量 其创建方式有两种:

方法一:Vector.sparse(向量长度,索引数组,与索引数组所对应的数值数组)

方法二:Vector.sparse(向量长度,(索引,数值),(索引,数值),(索引,数值),...(索引,数值))

示例:

比如向量(1,0,3,4)的创建有三种方法:

稠密向量:直接Vectors.dense(1,0,3,4)

稀疏向量:

方法一:Vector.sparse(4,(0,2,3),(1,3,4))

表示该向量的第0个,第2个,第3个位置,(1,3,4) 表示(0,2,3)位置对应的数值分别为1,3,4

方法二:Vector.sparse(4,(0,1),(2,3),(3,4))

(0,1)就是(索引,数值)的形式。位置0的数值为1, 位置2的数值为3,位置3的数值为4。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • redis url 格式

    Connections to a Redis Standalone, Sentinel, or Cluster require a specification ...

    马哥Python
  • Pycharm新手零基础教程

    Pycharm是python的集成开发环境,有丰富的代码提示,可以一键搞定繁文缛节,细节规矩什么的,不存在的,专心发挥创意就好了。

    马哥Python
  • 写Python 2/3兼容代码

    正如Flask和Jinja2的作者所说,大部分需求来自用户。原因是大多数开发人员(一些好的第三方库和框架,例如请求,Flask ......)认为3不够好(没错...

    马哥Python
  • css中的inline-block

    windseek
  • 手札《nginx – A Practical Guide to High Performance》

    今晚无意发现Nginx官方出了一本Guide to Hight Performance的书,翻了一下,有一些蛮有意思的点。

    libo1106
  • greenplum 检测膨胀表shell脚本

    小徐
  • 10:简单密码

    10:简单密码 总时间限制: 1000ms 内存限制: 65536kB描述 Julius Caesar曾经使用过一种很简单的密码。对于明文中的每个字符,将它用...

    attack
  • 修复Incorrect string value-修改mysql表的collate

    新建一个表保存中文的时候提示: Incorrect string value xxx 。 通过错误提示可以看出来是mysql设置编码的问题了。

    the5fire
  • greenplum 检测表倾斜率高的shell脚本

    小徐
  • 小哥哥,检索式chatbot了解一下?

    小夕从7月份开始收到第一场面试邀请,到9月初基本结束了校招(面够了面够了T_T),深深的意识到今年的对话系统/chatbot方向是真的超级火呀。从微软主打情感...

    zenRRan

扫码关注云+社区

领取腾讯云代金券