腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
pyspark
dataframe to dictionary:列作为键和列值列表
python
、
pyspark
您好,我需要将
pyspark
dataframe (或
rdd
)转换为
字典
,其中dataframe的列将是关键字,column_value_list将作为
字典
值。name amtb 20b 40我想要一本这样的
字典
: new_dict = {'name':['a','b', 'a', 'b', 'c'], 'amt
浏览 4
提问于2017-04-28
得票数 1
1
回答
在
pyspark
中
使用
RDD
从
字典
创建
数据
帧
python
、
apache-spark
、
pyspark
我有一个
字典
,它的名字是“Word_Count”,键代表单词,值代表文本
中
的数字词。我的目标是将其转换为包含两列word和count的
数据
帧
items = list(Word_Counts.items())[:5] items 输出: [('Akdeniz’in', 14), ('en', 13287), ('büyük', 3168), ('deniz', 1276), ('festivali:', 6)] 当我
浏览 17
提问于2019-02-25
得票数 1
回答已采纳
1
回答
在
使用
PySpark
时,如何在Spark
中
实现Python
数据
结构?
python
、
python-2.7
、
apache-spark
、
pyspark
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如何在
PySpark
中
使用
常规Python对象感到困惑。我了解Spark
中
的分布式
数据
结构,如
RDD
、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作,如.map()、.reduceByKey()来操作这些对象。但是,如果我
在
PySpark
中
创建
传统的
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
3
回答
我可以将pandas
数据
帧
转换为spark
rdd
吗?
pyspark
Pbm: a)读取一个本地文件到Panda dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe
中
。c)需要
使用
spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
3
回答
Spark
RDD
to DataFrame python
python
、
apache-spark
、
pyspark
、
spark-dataframe
我正在尝试将Spark
RDD
转换为DataFrame。我已经看到了将方案传递给sqlContext.CreateDataFrame(
rdd
,schema)函数的文档和示例。是否有其他方法可以
在
不事先知道列的信息的情况下指定模式。
浏览 0
提问于2016-09-26
得票数 47
回答已采纳
3
回答
取消持久化(py)spark
中
的所有
数据
帧
python
、
caching
、
apache-spark
、
pyspark
、
apache-spark-sql
这通常是
在
一个大的步骤之后,或者缓存一个我想要多次
使用
的状态之后。似乎当我第二次对我的
数据
帧
调用cache时,一个新的副本被缓存到内存
中
。
在
我的应用程序
中
,这会导致
在
扩展时出现内存问题。尽管
在
我当前的测试
中
,给定的
数据
帧
最大大约为100MB,但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例,该示例演示了此行为。C2'])d
浏览 9
提问于2016-04-28
得票数 39
回答已采纳
1
回答
如何
从
任何
数据
库表
创建
PySpark
RDD
?
pyspark
由于我是星火社区的新手,任何人都能解释如何
从
数据
库表
创建
PySpark
RDD
吗?我可以
使用
PySpark
方法的textFile()方法
从
CSV文件
创建
SparkContext
RDD
。但我不知道
从
数据
库表
中
创建
PySpark
RDD
。
浏览 0
提问于2018-02-10
得票数 1
回答已采纳
2
回答
从
RDD
中
的Pandas DataFrames
创建
Spark DataFrame
pandas
、
apache-spark
、
pyspark
我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的
RDD
)上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。= sc.parallelize(filelist)
rdd
=
rdd
.map(read_file_and_process_with_pandas) 前面的操作可以工作,所以我有一个Pandas DataFrames的
RDD
。
在
完成熊猫处理后,我如何将其转换为Spark DataFrame?我试着做
rdd</e
浏览 31
提问于2019-06-05
得票数 0
回答已采纳
1
回答
从
RDD
-
PySpark
创建
数据
帧
python-3.x
、
apache-spark
、
pyspark
、
rdd
在
执行
PySpark
代码时,通过提供所需的模式
从
现有的DataFrame
创建
DF时,我无法展示
在
什么情况下会引发以下异常,此代码
在
Databricks社区平台中执行。请帮助解决将
数据
框显示为输出的问题。代码: from
pyspark
import SparkConf, SparkContextsc = SparkContext.ge
浏览 108
提问于2021-10-25
得票数 0
回答已采纳
1
回答
Pyspark
-
在
空
数据
帧
上调用时withColumn不工作
python
、
pyspark
我为一些需求
创建
了一个空的dataframe,当我
在
它上面调用withColumn函数时,我得到了列,但
数据
是null,如下所示-df = sqlContext.createDataFrame
浏览 17
提问于2018-07-26
得票数 2
回答已采纳
1
回答
将行列表保存到
pyspark
中
的配置单元表
python
、
hive
、
pyspark
、
pyspark-sql
我有一个
pyspark
应用程序。我将一个hive表复制到我的hdfs目录
中
&
在
python
中
,我对这个表执行了sqlContext.sql查询。现在这个变量是我称之为rows的
数据
帧
。然后我
使用
shuffle(rows_list)将列表打乱到合适的位置。有没有一种方法可以提取rows的模式,以帮助我将allrows2add作为
数据
帧
或以某种方式保存为hive表?
浏览 1
提问于2016-04-28
得票数 5
回答已采纳
3
回答
从
csv文件向现有apache spark
数据
帧
添加
数据
python
、
apache-spark
、
pyspark
、
spark-dataframe
我有一个spark dataframe,它有两列: name,age,如下:
数据
帧
是
使用
以下命令
创建
的sqlContext.createDataFrame() 两个
浏览 9
提问于2016-09-16
得票数 0
回答已采纳
1
回答
为S3桶编写火花
数据
帧
字典
python-3.x
、
apache-spark
、
amazon-s3
、
pyspark
假设我们有一个
PySpark
数据
字典
。有办法把这本
字典
写到S3桶里吗?这样做的目的是读取这些
PySpark
数据
帧
,然后将它们转换为熊猫
数据
帧
。= spark.sparkContext.parallelize(data) df1.printSchema() columns = ["language","= spark.sparkContext.par
浏览 7
提问于2021-09-24
得票数 1
回答已采纳
1
回答
如何
从
np.arrays列表(由RDKit生成)
中
创建
Spark
数据
帧
以馈送给sparks随机森林实现?
python
、
numpy
、
apache-spark
、
rdkit
我正在尝试
使用
RDKit生成分子描述符,然后
使用
Spark对它们执行机器学习。我已经设法生成了描述符,并且我找到了。这段代码
从
以svmlight格式存储的文件中加载
数据
帧
,我可以
使用
dump_svmlight_file
创建
这样的文件,但写入文件感觉并不是很“闪亮”。的
RDD
中
创建
一个DataFrame。我想我还需要添加y值,并以某种方式告诉Random forest实现什么是
数据
帧
浏览 0
提问于2021-01-15
得票数 1
2
回答
如何
使用
CoordinateMatrix
在
星火中构建DataFrame?
pyspark
、
spark-dataframe
、
apache-spark-mllib
、
collaborative-filtering
我试图
在
推荐系统中
使用
ALS算法的Spark实现,因此我构建了下面描述的DataFrame,作为培训
数据
:|--------------|--------------|--------------| 现在,我想
创建
一个稀疏矩阵矩阵将是稀疏的,因为如果用户和项之间没有交互,则矩阵
中
的相应值将为零。因此,最终,大多数值将为零
浏览 4
提问于2017-06-28
得票数 5
回答已采纳
1
回答
将Spark
数据
帧
转换为Spark DenseMatrix进行操作
apache-spark
、
pyspark
、
spark-dataframe
、
apache-spark-mllib
我
在
互联网上找遍了,却找不到如何简单地将spark
中
的
数据
帧
转换成矩阵,这样我就可以对其进行矩阵运算。 我如何在Spark 2
中
简单地实现这一点?
浏览 0
提问于2017-02-18
得票数 2
1
回答
从
密钥和
字典
到
数据
帧
的
RDD
apache-spark
、
pyspark
、
pyspark-sql
我有来自不同时间和大陆的许多温度测量
数据
。我将
数据
加载到
rdd
(我在此代码示例
中
给出了
数据
的示例),按键组合它,然后将
字典
列表转换为dataframe。a.append(b) a.extend(b) sc =
pyspark
.SparkContext= sc.parallelize(parsing_obj)
rdd</
浏览 1
提问于2018-03-22
得票数 0
1
回答
PySpark
:
从
数据
帧
列表
创建
RDD
python
、
pyspark
、
rdd
我无法
从
pyspark
数据
帧
列表
创建
RDD
,如下所示:df = sqlContext.createDataFrame(l)df2Trace: py4j.Py4JException: Method __getnewargs__([]) does not exist
在
parallelize调用
中
。它适用于像[1,2,3]这样的简单列表,但是
浏览 4
提问于2017-04-10
得票数 1
1
回答
从
PySpark
数据
框
中
的重复行中提取和替换值
pyspark
、
apache-spark-sql
、
jupyter-notebook
、
rdd
我有重复的行,可能包含相同的
数据
或在
PySpark
数据
框中有缺失值。我写的代码非常慢,并且不能作为分布式系统工作。有谁知道如何
从
PySpark
数据
帧
中
的重复行中保留单个唯一值,该
数据
帧
可以作为分布式系统运行,并且具有快速的处理时间? 我已经写了完整的
Pyspark
代码,这个代码工作正常。但是处理时间真的很慢,不可能在Spark Cluster上
使用
它。(): print(r
浏览 25
提问于2019-06-21
得票数 0
1
回答
PySpark
-如何根据CoordinateMatrix中表示的相似项获取top-k in?
python
、
sorting
、
pyspark
、
cosine-similarity
我有一个
数据
字典
(键代表项目(项目的1,2,3..are I),它们的值(‘712907’,'742068')指的是用户)。742068']}我根据用户('712907','742068','326136'..)对
数据
框
中
的项进行分组因此,我想
使用
spark来计算行(1,2,3...)之间
浏览 0
提问于2018-01-08
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
机器学习实践:如何将Spark与Python结合?
PySaprk之DataFrame
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券