腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
-
从
带有
数组
字段
的
列表
列表
创建
DataFrame
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我想加载一些示例数据,因为它包含一个
数组
字段
,所以不能简单地将其另存为CSV并加载CSV文件。from
pyspark
.sql.types import * sample_data = [["prasad, jones",120,"M",[170,50],"brown","1999-10-15T19df2 = spark.createDataFrame(spark.sparkContext.parallelize(sample_data),schema=customSc
浏览 5
提问于2020-01-16
得票数 0
回答已采纳
2
回答
如何在火花放电中将密集向量
的
关系式转换成
DataFrame
?
apache-spark
、
pyspark
、
apache-spark-mllib
、
apache-spark-ml
、
apache-spark-2.0
我有这样
的
DenseVector RDD[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,0.0, 0.0]), DenseVector([0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0])]>>> spark.createDataFrame(frequencyDenseVectors
浏览 3
提问于2016-12-26
得票数 11
回答已采纳
1
回答
与单独运行相比,具有多个聚合
的
吡火花旋转数据要长/冻结得多。
apache-spark
、
pyspark
、
pivot
我使用
的
是电火花pivot函数。我做错了什么?df_groupby.pivot('day').agg(*aggs) aggs只是不同列(如f.sum(f.col(numeric_col))或f.first(f.col(string_col)) )上
的
聚合函数
的
列表
浏览 1
提问于2021-01-28
得票数 1
1
回答
从
嵌套
列表
创建
pyspark
dataframe
pyspark
我需要从嵌套
列表
创建
数据帧 我试过不同
的
方法,但都不管用。
浏览 16
提问于2019-08-28
得票数 0
1
回答
从
字典
列表
创建
pyspark
dataframe
python
、
python-3.x
、
apache-spark
、
pyspark
我有下面的字典
列表
[ "type:"check_datatype", "table":"cars","kwargs":{ }]
浏览 4
提问于2021-03-30
得票数 0
4
回答
如何
从
Spark中
的
列表
中
创建
数据?
python
、
apache-spark
、
pyspark
火花版本: 2.1test_list = [['Hello', 'world'], ['I', 'am', 'fine']]
DataFrame
[words: array<string>]
浏览 4
提问于2017-04-17
得票数 31
回答已采纳
1
回答
在
pyspark
中使用动态模式
从
元组
列表
创建
数据帧
pyspark
我正在尝试
从
pyspark
中
的
元组
列表
创建
一个具有动态模式
的
dataframe
下面是我
的
元组
列表
代码 outputlist= [] tmpListoutputlist) ('44038:4132','324772',1),('44038:4291','772122995105',1,'4
浏览 9
提问于2021-02-04
得票数 0
1
回答
如何将numpy.array作为新列添加到
pyspark
.SQL
DataFrame
?
python
、
apache-spark
、
apache-spark-sql
、
pyspark
、
pyspark-sql
下面是
创建
pyspark
.sql
DataFrame
的
代码import pandas as pddf = pd.
DataFrame
(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),sqlContext.createDataFrame(df, sampl
浏览 0
提问于2015-08-11
得票数 6
1
回答
使用
pyspark
从
元组
列表
创建
DataFrame
python-3.x
、
pyspark
、
spark-dataframe
我正在使用simple-salesforce包处理
从
SFDC中提取
的
数据。我使用Python3编写脚本和Spark1.5.2。我
创建
了一个包含以下数据
的
rdd:[('Id', 'a0w1a0000003xAAI(Name,StringType,true))) 我正在尝试
浏览 1
提问于2016-01-26
得票数 13
3
回答
如何
从
多个
列表
创建
pyspark
dataframe
python
、
pyspark
、
apache-spark-sql
我想将两个
列表
转换为
pyspark
数据帧,其中
列表
是各自
的
列。| a| b| _3| _4|| 1| 2| 3| 4|+---+---+---+---++---+---+| 2| 3|| 4| 5|有没有一种方便
的
方法来
创建
这个结果
浏览 0
提问于2018-10-13
得票数 3
回答已采纳
2
回答
无法
从
列表
中
创建
dataframe
:
pyspark
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个由函数生成
的
列表
。当我在
列表
中执行print时:我获得:df = sqlContext.createDataFrame(preds_labels, ["prediction", "label"]) 不支持
的</
浏览 1
提问于2016-08-07
得票数 7
回答已采纳
1
回答
从
星星之火数据中
的
列表
中提取值,而不转换为熊猫
pandas
、
loops
、
pyspark
我有一个火花数据框架,如下所示:每行包含一个
列表
,我想从中提取一个元素。我非常绿色
的
火花,所以我把它转换成一个熊猫
DataFrame
,然后使用地图功能,我提取所需
的
元素。问题是,数据是巨大
的
,因此这种方法是不可扩展
的
。让我花时间
的
是toPandas()命令。是否有
从
每一行访问
列表
中
的
值
的
选项? 谢谢!
浏览 5
提问于2021-12-09
得票数 1
回答已采纳
1
回答
如何在
pyspark
中解压list类型
的
列
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我在
pyspark
中有一个
dataframe
,df有一个
数组
字符串类型
的
列,所以我需要生成一个包含
列表
头部
的
新列,还需要包含尾
列表
连接
的
其他列。这是我
的
原始数据帧:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]|
pyspa
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
2
回答
熊猫:在第n行后新造一栏
pandas
、
dataframe
0990703643686265523我想在第三行之后
创建
一个新列。所以数据应该是这样
的
。提前谢谢。
浏览 2
提问于2022-10-17
得票数 -1
回答已采纳
1
回答
火花中
的
并行方法调用和传递方法中火花会话
的
使用
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-streaming
我需要处理一个表中
的
大量记录,当它通过电子邮件分组时,大约是100万条。我需要对、个人电子邮件、和执行多个逻辑计算,根据逻辑计算更新数据库。大概我
的
代码结构就像import sparkSession.implicits._ rdd.foreach(x => processDataAgainstEmail(x.getAs("email"
浏览 0
提问于2017-02-23
得票数 0
2
回答
如何将值传递给表中
的
pyspark
变量?
python
、
pyspark
、
apache-spark-sql
这可能是一个愚蠢
的
问题,但我有一个表,其中
的
每一列都包含要传递给变量
的
值: select sfObject from db.tblwhere Id = {} 我看到
的
是一个名为sfObject
的
列,它
的
预期值为'ValueA‘,我得到一个
pyspark
.sql
浏览 1
提问于2020-06-10
得票数 1
回答已采纳
1
回答
将多个
字段
创建
为
Pyspark
中
的
数组
?
apache-spark
、
pyspark
我有多个列
的
dataframe
,如下所示:|----|----------|----| B | C | M |我希望
创建
2个新列,并在新
字段
中存储现有列
的
列表
,并在现有
字段
上使用group by。这样,
浏览 0
提问于2020-11-20
得票数 0
回答已采纳
2
回答
如何将List[String]值添加到数据帧中
的
单个列
scala
、
apache-spark
我有一个
dataframe
,我有一个值
列表
(可能是
列表
字符串),我想在我
的
dataframe
中
创建
一个新列,并将这些
列表
值作为列值添加到这个新列。c_df)((df, column) => df.withColumn("newcolumnname" , lit(column))) 但它抛出了StackOverflow异常,我也尝试过迭代字符串值
列表
并添加到数据帧中,但结果值是一个数据帧
列表
,但我想要
的
浏览 0
提问于2019-01-03
得票数 0
3
回答
将模式数据类型JSON混合到
PySpark
DataFrame
python
、
json
、
pyspark
我需要将JSON
的
列表
转换为
pySpark
DataFrames。JSON都有相同
的
架构。问题是JSON中dicts
的
值条目有不同
的
数据类型。例如:
字段
complex是一个Dicts
数组
,Dict有四个键,但类型不同(整数、字符串、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df = spark.createDataFrame(json_list)
从
jsons中
创建
我
的
Data
浏览 23
提问于2022-03-28
得票数 0
回答已采纳
2
回答
从
PySpark
DataFrame
列中删除元素
pyspark
我知道
PySpark
DataFrames是不可变
的
,所以我想
创建
一个新列,该列是根据应用到
PySpark
DataFrame
的
现有列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该列是唯一int
列表
(在给定
列表
中不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataFrame
有一个最大长度为5
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
机器学习之计算工具库(三)
Python数据分析入门日记Day6:数据分析库Pandas:Series和Dataframe
数据分析工具Pandas的数据结构学习
终极加分技能,8个Python高效数据分析的技巧,数行代码焕然一新
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券