映射(Py)Spark DataFrame中的值

文章/答案/技术大牛

发布

1回答

、、

'The letter A', 'The letter A',]) 'a': 'The letter A', 'c': 'The third letter&

浏览 6提问于2018-08-02得票数 2

回答已采纳

1回答

无法将RDD转换为DataFrame (RDD有数百万行)

、、、

我正在使用ApacheSpark1.6.2但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。映射RDD很好，但是当涉及到将RDD转换为DataFrame时，火花抛出一个错误。\pyspark\context.py", line 939, in runJob File "c:\spark\python\lib\py4j-0.9-sr

浏览 3提问于2017-01-14得票数 4

回答已采纳

1回答

TypeError:需要一个类似字节的对象，而不是“行”星图

、、

我正试图在我的DataFrame中将XML转换为JSON。我有以下几点 return json.dumps(xmltodict.parse(line)) File "/usr/hdp/current/spark2-cli

浏览 0提问于2018-03-13得票数 0

回答已采纳

1回答

估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2_piece0存储为内存中的字节(估计大小为:块broadcast_3存储为内存中的值(估计大小为212.1 KB，空闲309.7 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:内存中存储为字节的块/dataf

浏览 5提问于2016-12-29得票数 1

1回答

如何从pyspark中的dataframe列中选择不同的非空值

、

如何从py-spark中的dataframe列中选择不同的非空值。

浏览 30提问于2021-07-03得票数 0

2回答

string for Python -不能将字符串列强制转换为十进制/双进制

、、

在所有发布的关于这个行动的问题中，我找不到有用的东西。我尝试了几个版本，在所有的版本中，我都有一个DataFramedataFrame.printSchema"/usr/local/spark/python/lib

浏览 1提问于2017-10-25得票数 3

回答已采纳

3回答

PySpark使用字典中的映射创建新列

、、、、

使用Spark1.6，我有一个Spark DataFrame column (假设命名为col1)，其值为A、B、C、DS、DNS、E、F、G和H，我想用下面dict中的值创建一个新列(比方说col2)，我该如何映射它？“A”需要映射到“S”，等等。)

浏览 3提问于2017-03-23得票数 42

回答已采纳

2回答

星火1.3.1 (PySpark)和MongoDB 3.4中的错误

、、

我有一个非常简单的脚本来持久化带有MongoDB中两列的数据文件：from pyspark.sql import); at(Option.scala:120) at org.apache.<em

浏览 4提问于2017-03-30得票数 0

回答已采纳

1回答

火花df、拼花物体和熊猫df之间的转换

、、

在创建火花会话之后，我运行了以下代码 spark_df.select('*').toPandas(我需要火花df和熊猫df的原因是，对于一些较小的DataFrame，我想很容易地使用各种熊猫EDA函数，但对于一些较大的，我需要使用火花sql。首先，把地板转向熊猫，然后再点燃df，这似乎有点迂回。

浏览 3提问于2019-10-20得票数 0

2回答

火花放电中RDD到DF的不完全转换

、、

使用PySpark 1.6.3，我试图将RDD转换为Dataframe。这是在齐柏林飞艇笔记本上运行的测试代码。感兴趣的是rdd_ret。将生成输出Dataframe对象，但我试图在其上运行的任何操作(.show()；.count()；.filter())都会在底部产生相同的堆栈跟踪。我不明白在这种情况下NoneType可能是什么？当然，Row对象中的一些值可能是错误的，但是为了计数或显示，您应该迭代Data

浏览 0提问于2018-06-21得票数 2

1回答

PySpark替换()函数不使用空值替换整数

、、、、

注意:这是用于Spark 2.1.1.2.6.1.0-129my_df = my_df.na.replace(0, None) File "<stdin>", line 1, in <module> File"/usr/hdp/

浏览 4提问于2021-10-24得票数 0

回答已采纳

1回答

用户定义函数返回序列

、、

该函数将列名与列值连接起来，然后以行方式连接生成的字符串。']}) d2 = dataframe.astype(str).radd(dataframe.columns + ':')def get_

浏览 3提问于2021-07-21得票数 2

回答已采纳

1回答

pyspark 1.3.0将数据帧保存到配置单元表中

、、

177070 我正在尝试将该DF保存到不存在配置单元表中"write" among (IMSI, Date, Hour, TimeInCluster, Cluster, Xcluster, Ycluster); at org.apache.spark.sql.DataFrame$$anonfun$resolve$1.apply(DataFrame.

浏览 0提问于2017-01-20得票数 0

1回答

对象中没有属性“map”错误的pyflem2.4.4中的

、、、

我正在使用python2.7运行Spark2.4.4，IDE是py魅力。.ʽ|!from pyspark.sql import SparkSession .builder \ .config("spark.some.config.option", "some

浏览 2提问于2019-09-22得票数 0

回答已采纳

1回答

将数据从Pyspark 1.5中的oracle数据库中提取到数据中

、、、、

我想从oracle数据库中检索数据。我的主要问题是创建jdbc url。 at org.apache.spark.sql.DataFrame.collect(DataFrame.

浏览 2提问于2018-10-06得票数 1

1回答

在PySpark中使用Scala对象时出错

、、、

以下是Scala中的代码 val usedNames = new mutable.HashSet[String]()}我刚刚复制了几行flattenSchema()方法在火花提交中导入jar之后，我尝试在PySpark中调用相同的</e

浏览 8提问于2020-04-07得票数 0

回答已采纳

2回答

Python Spark查询配置单元仅返回架构

、、、、

当我从Hive中选择data时，它会返回一个dataframe，但我不能访问模式以外的任何内容。")data.show()<class 'pyspark.sql.dataframe.DataFrame'> 如果我试图显示数据帧，它会返回一个引用dataframe.py</

浏览 1提问于2018-04-19得票数 0

2回答

为什么dropna()不能工作？

、、

系统: Spark 1.3.0 (Anaconda Python dist.)在Cloudera Quickstart VM 5.4上from pyspark.sql_jdf.apply(name) File "/usr/lib/spark/python/lib/py4j-0.8.2.1-src.zip/py4j/java_gateway.py

浏览 3提问于2015-05-15得票数 3

回答已采纳

1回答

无法推断Parquet的架构。必须手动指定。

、、、、

我正在从电子病历笔记本中运行所有的代码。pyspark.zip/pyspark/sql/readwriter.py", line 353, in parquet File "/usr/lib/spark/python/lib/py4j-0.10.9-src.zip/py4j/java

浏览 3提问于2021-01-01得票数 3

回答已采纳

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

、、、、

例如，我想获取其中包含特定ID的行数。from pyspark.sql.types import BooleanType from pyspark.sql.functions imp

浏览 1提问于2018-10-30得票数 2

回答已采纳

点击加载更多