腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
使用自定义函数将每行存储到自定义对象中,例如节点对象
、
、
、
有没有办法利用map函数将
pyspark
dataframe
的
每
一行
存储到自定义
的
python类对象中?
pyspark
dataframe
例如,在上面的图片中,我有一个spark数据帧,我想将id、features、label
的
每
一行
都存储到一个节点对象中(具有3个属性node_id、node_features我想知道这在
pyspark
中是否可行。我试过像这样
的
浏览 19
提问于2020-07-14
得票数 0
1
回答
如何
为
每
一行
创建重复
的
值,然后插入一个新
的
数据帧?
、
、
、
、
如何
复制原始
dataframe
的
每
一行
,然后添加
dataframe
2,这样我
的
最终输出就是:我用python在
pyspark
dataframe
中编写这段代码。
浏览 1
提问于2021-02-19
得票数 0
1
回答
PySpark
PCA:
如何
将数据行从多列转换为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)对存在于Hive表中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了
如何
在
PySpark
:中执
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
PySpark
:
如何
处理
DataFrame
的
每
一行
、
、
我想
处理
DataFrame
的
每
一行
。在这里,列feat包含许多格式为idx:value
的
元素。我想保留我想要
的
idx。 例如,我想保留idx=1或idx=5。
浏览 14
提问于2020-08-20
得票数 0
回答已采纳
1
回答
将数据帧转换为字符串
、
、
、
、
pandas as pd schema: pysark.sql.
dataframe
.
DataFrame
浏览 5
提问于2022-06-10
得票数 0
1
回答
在保留模式
的
同时导出熊猫数据
、
、
我正在
处理
一个
dataframe
,它
的
每
一行
都由不同
的
python字典组成。我希望能够将这些数据存储到磁盘中并移动这些数据,但是将数据保存到.csv文件格式将使格式化信息消失。是否有任何格式可以在不放松模式
的
情况下导出
dataframe
? 我可以用.parquet格式在
pyspark
中做类似的事情。熊猫中有类似的东西吗?
浏览 1
提问于2017-08-16
得票数 1
回答已采纳
1
回答
如何
通过增加时间戳列来创建数据帧?
、
我可以在
dataframe
列中插入timestamp。但是我希望timestamp列是唯一
的
值(或者在本质上增加,甚至是毫秒)。我现在所拥有的-from
pyspark
.sql.functions import lit df = spark.createDataFrame
浏览 3
提问于2019-11-27
得票数 0
回答已采纳
1
回答
我是否需要使用普通
的
python,除了
pyspark
,或者
pyspark
拥有我所需要
的
所有东西?
、
、
、
我
的
公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的,但是当我们切换到
pyspark
时,如果我们需要
的
东西还没有在
pyspark
中可用呢?而且,继续使用python可能更容易一些,因为我已经知道了python.So: 你能把它们混合在一起,用python编写一部分代码,用
pyspa
浏览 4
提问于2017-08-30
得票数 0
1
回答
使用自定义函数
的
火花
、
、
我是Spark
的
一个程序员,但是我需要在一个项目中用
PySpark
来做一些事情。我想知道
如何
在=>中使用自定义行
PySpark
行映射转换。例如:我有一个
dataframe
mydf:1 5 33 9 10 我想将这个
dataframe
转换为另一个
dataframe
,并在
每
一行
上执行map操作。因此,我设计了一个map函数,它以
一行
作为输
浏览 6
提问于2017-10-20
得票数 0
回答已采纳
2
回答
将火花数据
的
每
一行
写成一个单独
的
文件
、
、
我有一个列
的
,其中
每
一行
都是一个长字符串(实际上是一个xml文件)。我想遍历
DataFrame
并将
每
一行
中
的
字符串保存为文本文件,它们可以简单地称为1.xml、2.xml等等。我似乎找不到任何关于
如何
做到这一点
的
信息或例子。我刚刚开始与斯派克和
PySpark
合作。也许可以在
DataFrame
上映射一个函数,但是函数必须将字符串写到文本文件中,我无法找到
如何
做到这一点。
浏览 1
提问于2018-04-17
得票数 3
回答已采纳
1
回答
PySpark
-在写入PostgrSQL DB后获取插入
的
行id
、
、
、
、
我正在使用
PySpark
通过下面的JDBC命令向PostgreSQL数据库写入一个
DataFrame
。
如何
获取插入
的
行id?它被设置为具有自动增量
的
标识列。我使用
的
是下面的命令,而不是单独插入
每
一行
的
for循环。table="table1", mode=mode, properties=properties) 我知道我可以使用monotonicallyIncreasingId并在Spark中设置in,但我正在寻找D
浏览 2
提问于2019-09-18
得票数 2
2
回答
Python
Pyspark
-如果word (row
的
值)在停用词字典中,则文本分析/删除行
、
、
、
希望有人能帮助我在
Pyspark
中做一个简单
的
情感分析。我有一个
Pyspark
dataframe
,其中
每
一行
都包含一个word。我还有一本常见stopwords
的
字典。我想删除stopwords字典中word (行
的
值)所在
的
行。
浏览 40
提问于2021-11-12
得票数 0
回答已采纳
1
回答
从多个S3存储桶导入
pyspark
dataframe
,其中有一列指示条目来自哪个存储桶
、
、
这些存储桶中
的
每一个都存储我正在读取到
pyspark
dataframe
中
的
拼图文件。从每个存储桶生成
的
pyspark
dataframe
具有完全相同
的
模式。我想要做
的
是迭代这些存储桶,并将所有这些拼图文件存储到一个单独
的
pyspark
dataframe
中,该数据框有一个date列,表示
dataframe
中
的
每个条目实际来自哪个存储桶。因为单独
浏览 13
提问于2019-12-16
得票数 0
回答已采纳
2
回答
火花聚结和收集,哪一个更快?
、
、
我使用
pyspark
来
处理
50 15
的
数据,使用15 m4
的
AWS。for hour in range(24): hourly_df =
浏览 0
提问于2016-09-15
得票数 4
回答已采纳
2
回答
在
PySpark
中分解
、
、
、
我想将包含单词列表
的
DataFrame
转换为
DataFrame
,每个单词都在自己
的
行中。
如何
在
DataFrame
中
的
列上分解?下面是我尝试过
的
一个示例,您可以取消注释
每
一行
代码,并获得以下注释中列出
的
错误。我在Python2.7和Spark 1.6.1中使用
PySpark
。from
pyspark
.sql.functions import split, expl
浏览 2
提问于2016-07-06
得票数 30
回答已采纳
2
回答
星火read.json抛出java.io.IOException:换行符前
的
字节过多
、
、
、
、
在读取一个大
的
6gb单行json文件时,我得到了以下错误:spark不使用新行读取json文件,因此整个6 gb
的
json文件位于
一行
上:配置:
浏览 12
提问于2016-03-14
得票数 4
回答已采纳
1
回答
将
PySpark
DataFrame
中
的
每
一行
转换为s3中
的
文件
、
、
、
、
我正在使用
PySpark
,并且需要将
DataFrame
中
的
每
一行
转换为JSON文件(在s3中),最好使用选定列
的
值来命名该文件。 我不知道该怎么做。任何帮助都将不胜感激。
浏览 10
提问于2019-08-05
得票数 0
2
回答
替换星火
DataFrame
中
的
列值
、
、
请您帮助我替换dataframes spark中
的
列值: ["2", "xxx", "company 1"],company 44", "company 2"], ["5", &q
浏览 1
提问于2022-03-01
得票数 0
回答已采纳
2
回答
在Spark /
PySpark
中使用文件名连接数据
、
、
、
我正在从
PySpark
中
的
许多
PySpark
文件中读取数据。S3键包含创建文件
的
日历日期,我希望在数据和该日期之间进行连接。是否有任何方法在文件和文件名中
的
数据行之间进行连接?
浏览 2
提问于2015-10-16
得票数 0
回答已采纳
1
回答
从
Pyspark
中
的
数据帧列创建多行固定长度
的
行
我
的
输入是
pyspark
中
的
dataframe
列,它只有一个列DETAIL_REC。ABC12345678ABC98765543ABC98762345 root对于
每
11个字符/字符串,它必须位于下
一行
的
dataframe
中,以便下游进程使用它。预期输出应在
dataframe
中为多行。
浏览 2
提问于2022-03-04
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
大数据下Python的三款大数据分析工具
Python开源数据分析工具TOP 3!
Dataiku DSS Code Recipe 介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券