Pyspark数据帧将false和true转换为0和1_避免pandas将0,1转换为True和False_在C#的XmlElement中将true和false转换为1和0 - 腾讯云开发者社区

python、pandas、dictionary、dataframe

我想要一本'item': [list_of_True_column_labels]字典，看起来像这样： pre_df = {'item1':['a','b','c'], 'item2':['c','d'], 'item3':['a', 'c', 'd', 'e'], 'item4':['e']} 并将其转换为bool的熊猫数据帧，如下所示： index

浏览 2提问于2016-12-07得票数 3

2回答

将结构类型列分解为pyspark中的两列键和值

python、struct、pyspark

浏览 11提问于2020-03-14得票数 1

1回答

Pyspark等同于pandas的所有函数

python、pandas、apache-spark、pyspark、apache-spark-sql

我有一个spark数据帧df： A B C D True True True True True False True True True None True None True NaN NaN False True NaN True True 在pyspark中，有没有一种方法可以根据A，B，C，D行获得第五列，这些行中没有值false，但返回一个int值，或者1表示True，0表示False。因此： A B C D E True True True True 1 Tr

浏览 22提问于2020-12-16得票数 0

回答已采纳

5回答

如何在pyspark环境下使用matplotlib和pandas进行绘图？

pandas、apache-spark、matplotlib、pyspark、pyspark-sql

我有一个非常大的pyspark数据帧，我取了一个样本，把它转换成pandas数据帧。 sample = heavy_pivot.sample(False, fraction = 0.2, seed = None) sample_pd = sample.toPandas() 数据帧如下所示： sample_pd[['client_id', 'beer_freq']].head(10) client_id beer_freq 0 1000839 0.000000 1 1002185 0.000000 2 1003366 1.0000

浏览 2提问于2018-05-09得票数 1

3回答

在Pyspark中将布尔值转换为字符串时使用when和values

apache-spark、pyspark

我在Pyspark中有一个数据框 df.show() +---+----+-------+----------+-----+------+ | id|name|testing|avg_result|score|active| +---+----+-------+----------+-----+------+ | 1| sam| null| null| null| true| | 2| Ram| Y| 0.05| 10| false| | 3| Ian| N| 0.01| 1| false| | 4| Jim|

浏览 0提问于2018-07-03得票数 5

回答已采纳

1回答

根据名称合并行，并根据原始熊猫数据帧中的外观标记它们的组

python、pandas、dataframe、python-2.7

浏览 8提问于2021-10-06得票数 1

回答已采纳

2回答

pyspark dataframe中类似元组的数据类型

python、pyspark

浏览 23提问于2020-11-06得票数 0

2回答

PySpark列向绑定

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

Spark:合并两个数据帧

apache-spark、dataframe、pyspark

用一个例子来解释我的问题。 table_name col1 col2 col3 1 aaa xxx 1 bba yyy 2 ccc yyy 我希望我的最终输出是这样的： table_name col1 col2 col3 1 aab xxx 1 bbc yyy 2 cc yyy 我有一个有3列(没有主键)的表，我必须更改这3列中的第2列中的数据，现在我想用这个新的第2列替换旧的列。 df1 = hc.sql("select col1 from table_name") df2 = hc.sql("sele

浏览 0提问于2017-10-09得票数 0

1回答

我应该添加什么到代码中，以避免使用pyspark时出现“超过最大允许的字节数”错误？

python、apache-spark、pyspark

我有一个有400万行和10列的数据帧。我正在尝试使用pyspark从Cloudera数据科学工作台将其写入hdfs中的一个表。我在尝试这样做时遇到了一个错误： [Stage 0:> (0 + 1) / 2]19/02/20 12:31:04 ERROR datasources.FileFormatWriter: Aborting job null. org.apache.spark.SparkException: Job aborted due to stage fail

浏览 103提问于2019-02-21得票数 1

回答已采纳

1回答

从数据帧列表生成单个DataFrame

list、pyspark、apache-spark-sql、jupyter-notebook、pyspark-dataframes

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * import pyspark.sql from pyspark.sql import SparkSession, Row customSchema = StructType([ StructField("col1", StringType(), True), Str

浏览 12提问于2021-01-28得票数 0

1回答

基于其他列比较PySpark数据帧中的某些列？

pyspark、feature-extraction

假设我有一个pyspark数据帧(df1)，其中包含一些用户的信息，如下所示： +--------+--------+--------+--------+ |user_id |event_id|code |City | +--------+--------+--------+--------+ | user1| event1 | ABC | LA | | user1| event2 | ABC | NYC | | user2| event3 | DEF | LA | | user2| event4 | GHK | LA

浏览 16提问于2020-08-25得票数 0

回答已采纳

1回答

转置的混合类型DataFrame的数据类型不正确

python、pandas、dataframe

我在处理转置数据帧的数据类型时遇到了困难。下面的示例改编自文档。kids列的整数类型保留在转置后的数据帧中，如文档所示。 >>> df = pd.DataFrame({'name': ['Alice', 'Bob'], ... 'score': [9.5, 8.6], ... 'employed': [False, True], ... 'kids': [5, 6]}) >>> df name score employed kids 0 Alic

浏览 0提问于2019-12-08得票数 1

5回答

Pyspark数据帧将false和true转换为0和1

python、apache-spark、pyspark

浏览 37提问于2018-06-15得票数 1

回答已采纳

1回答

用另一个dataframe pyspark中的值替换/查找spark df中一列的值

pyspark、vectorization、data-science

我有一个包含令牌列表的数据帧。 data1 = [(1, ["This","is", "category", "A"]), (2, ["This", "is", "category", "B","This", "is", "category", "B"]), (3, ["This", "is", "category", "F&#

浏览 0提问于2020-04-22得票数 1

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

pandas、apache-spark、pyspark

我有一个从熊猫数据帧创建的样本spark数据帧- from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StringType from pyspark.sql.types import * import pandas as pd spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(&

浏览 3提问于2020-09-09得票数 0

1回答

Pyspark:保存到Cassandra时日期不正确

apache-spark、pyspark、cassandra、spark-cassandra-connector

我是Spark和Cassandra的新手我准备了一个数据帧并保存到Cassandra中。Pyspark和Cassandra之间的日期不一致。 Pyspark显示'2020-10-04‘。Cassandra显示'2020-10-03 16:00:00.000000+0000‘。你知道怎么解决它吗？在皮斯帕克， >>> df_check.show() +-----------+-----+ |access_date|count| +-----------+-----+ | 2020-10-04| 120| +-----------+-----+ >

浏览 18提问于2020-10-09得票数 1

回答已采纳

1回答

将libsvm格式字符串("field1:value field2: DenseVector“)转换为值的值

apache-spark、pyspark、apache-spark-sql、pyspark-sql、apache-spark-ml

我有一个libsvm格式的专栏(spark的ml库) field1:value field2:value ... +--------------+-----+ | features|label| +--------------+-----+ | a:1 b:2 c:3| 0| | a:4 b:5 c:6| 0| | a:7 b:8 c:9| 1| |a:10 b:11 c:12| 0| +--------------+-----+ 我想提取这些值，并将它们保存在pyspark中每一行的数组中 features.printSchema() root

浏览 0提问于2019-06-19得票数 1

2回答

read_excel无法正确导入同一列中同时包含布尔值和"0“和/或"1”的Excel文件

python、pandas

我需要导入一张excel表格，就像在pandas的数据框中一样。当使用带有dtype=object的read_excel函数时，我仍然得到“解释”的值。我在anaconda环境中使用Python 3.5.4，pandas 0.23.4。我的(测试) excel表： header1 header2 header3 header4 header5 header6 mixed word11 word12 word13 word14 word15 word16 word17 word21 word22 word23 word24 word25 word26 word27 T

浏览 0提问于2019-06-16得票数 0

1回答

在pyspark中连接同名的Dataframe

python、apache-spark、pyspark、apache-spark-sql、apache-spark-2.0

我有两个数据帧，它们是从两个csv文件中读取的。 +---+----------+-----------------+ | ID| NUMBER | RECHARGE_AMOUNT| +---+----------+-----------------+ | 1|9090909092| 30| | 2|9090909093| 30| | 3|9090909090| 30| | 4|9090909094| 30| +---+----------+--------------

浏览 1提问于2018-10-03得票数 1

1回答

pyspark将数组类型的列拆分成多列

python-3.x、pyspark

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

2回答

将字符串转换为pyspark.sql.types.StructType pyspark

dataframe、pyspark

我试图在pyspark中创建空的dataframe，在pyspark中，我从外部JSON文件传递scehma，但是Json不允许我指定struct类型，所以我提到它是string。json文件： "OptionalEvents" : { "Event1": "StructType([StructField('id',StringType(), True),StructField('time',StringType(), True),StructField('ts',StringTyp

浏览 39提问于2021-08-23得票数 1

回答已采纳

1回答

如何使用Python比较太大而无法放入内存的数据帧？

python、pandas、dataframe、python-xarray

我有可能很大的数据帧，大约有10列和1e6行，具有不同的维度。假设行在两个数据帧中都是唯一的。由于这些数据帧不能加载到内存中，我如何找到一个数据帧中存在于另一个数据帧中的所有行？我目前只处理较小的数据帧，但我很快就会弄清楚这一点。我非常喜欢使用pandas，但我愿意使用不同的包(xarray?)如果有显著的好处。如果您推荐一个不同的包，请提供一些代码来进行比较。下面是我如何与内存中适合的pandas数据帧进行比较： import pandas as pd def row_intersection(df1, df2): noNA = df2.fillna(0) retur

浏览 23提问于2021-09-02得票数 0

回答已采纳

1回答

R使用逻辑变量转置数据帧

r、dataframe、types、transpose

我想在不丢失数据类型信息的情况下(即不将TRUE/FALSE转换为1/0)，转置一行中包含逻辑变量和数值变量的数据帧。下面是我的代码： xx <- data.frame( v1 = 200, v2 = 2, v3 = FALSE ) # v1 v2 v3 # 200 2 FALSE t(xx) # [,1] #v1 200 #v2 2 #v3 0 相反，我想要得到： t(xx) # [,1] #v1 200 #v2 2 #v3 FALSE 我的最终目标是在shiny with rhandsontable中显示数据帧，

浏览 19提问于2019-02-25得票数 1

1回答

优化两个大型pyspark数据帧的连接

apache-spark、join、pyspark、apache-spark-sql

浏览 9提问于2020-06-10得票数 2

回答已采纳

1回答

Spark dataframe访问Kafka源后失去流媒体能力

apache-spark、pyspark、apache-kafka、apache-spark-sql、spark-streaming

我使用Spark 2.4.3和Kafka 2.3.0。我想用从Kafka到Spark的数据做Spark结构化流媒体。一般来说，它可以在测试模式下工作，但由于我必须对数据进行一些处理(并且不知道另一种方法)，Spark数据帧不再具有流式传输功能。 #!/usr/bin/env python3 from pyspark.sql import SparkSession from pyspark.sql.functions import from_json from pyspark.sql.types import StructField, StructType, StringType, Doub

浏览 22提问于2019-09-10得票数 0

回答已采纳

1回答

pyspark使用一列元组列表从pandas创建数据帧

pandas、dataframe、apache-spark、pyspark

我正在尝试从pandas数据帧创建一个pyspark数据帧。 import pandas as pd from pyspark.sql.types import StructType, StructField, IntegerType, DoubleType a_dict = {0: [(0, 9.821), (1, 82.185)]} a_pd = pd.DataFrame.from_dict(a_dict.items()) a_pd.columns = ["row_num", "val"] a_str = StructType([StructField

浏览 0提问于2020-10-26得票数 0

1回答

如何从pyspark dataframe中更快地保存csv文件？

python、apache-spark、hadoop、pyspark

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

如何从另一个数据帧创建具有列名和类型的JSON

apache-spark、pyspark

我有一个数据帧，模式如下： root |-- Id: integer (nullable = true) |-- Id_FK: integer (nullable = true) |-- Foo: integer (nullable = true) |-- Bar: string (nullable = true) |-- XPTO: string (nullable = true) 根据该数据帧，我希望创建一个JSON文件，其列名和类型如下 { "Id": "integer", "Id_FK": "integer"

浏览 12提问于2019-09-03得票数 0

回答已采纳

1回答

当数据包含具有两个不同DataTypes的嵌套数组时，在PySpark中定义模式

python、apache-spark、pyspark、rdd

我正在尝试定义一个模式，以便从当前存储在rdd中的一些数据创建数据帧。然而，rdd包含一些数组，它们有两种不同的DataTypes，整型和浮点型，因此我不确定如何定义模式。有问题的文件中的一行示例数据 {"a":"string","b":[{"c":[[0,1.04,1.99],[1,1.03,5.26],[2,1.02,6]],"d":0.0,"e":132}]} 目前我的模式是这样的 StructType([ StructField('a', StringType()

浏览 15提问于2020-11-11得票数 0

1回答

箭头:转换为RuntimeError: VectorUDT时不支持的类型

pandas、apache-spark、dataframe、pyspark、pyarrow

我想转换一个大的spark数据帧到Pandas超过1000000行。我尝试使用以下代码将spark数据帧转换为Pandas数据帧： spark.conf.set("spark.sql.execution.arrow.enabled", "true") result.toPandas() 但是，我得到了错误： TypeError Traceback (most recent call last) /usr/local/lib/python3.6/dist-packages/pyspark/sql/da

浏览 3提问于2018-07-04得票数 7

1回答

如何阻止pyspark dataframe变为list？

pyspark、apache-spark-sql

我从一个pyspark dataframe开始，在对它使用.take()之后转换成一个列表。我怎么才能保持它是pyspark数据帧呢？ df1 = Ce_clean print(type(df1)) df1 = df1.take(1000) print(type(df1)) <class 'pyspark.sql.dataframe.DataFrame'> <class 'list'>

浏览 1提问于2020-09-17得票数 1

1回答

PySpark :将Spark Dataframe写入Kafka主题

apache-spark、pyspark、spark-structured-streaming

我正在尝试将数据帧加载到Kafka主题。我在选择键和值时遇到错误。任何建议都会很有帮助。下面是我的代码， data = spark.sql('select * from job') kafka = data.selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")\ .writeStream.outputMode(outputMode='Append').format('kafka')\ .option("kafka.boot

浏览 77提问于2020-06-14得票数 0

2回答

用于获取精度、召回、f1score的混淆矩阵

python-3.x、dataframe、pyspark、pyspark-sql

我有一个数据帧df。我已经对数据帧执行了decisionTree分类算法。这两列是执行算法时的标签和特征。该模型被称为dtc。如何在pyspark中创建混淆矩阵？ dtc = DecisionTreeClassifier(featuresCol = 'features', labelCol = 'label') dtcModel = dtc.fit(train) predictions = dtcModel.transform(test) from pyspark.mllib.linalg import Vectors from pyspark.mllib.re

浏览 0提问于2019-10-16得票数 4

1回答

在PySpark Dataframes中添加列需要时间

python、dataframe、pyspark、apache-spark-sql

我目前正在尝试集成PySpark和Cassandra，并且在优化代码以使其更快执行方面遇到了困难。 from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext, SparkSession from pyspark.sql.functions import sum as _sum def connect_cassandra(): spark = SparkSession.builder \ .appName('SparkCassandraApp') \

浏览 2提问于2019-06-06得票数 0

回答已采纳

1回答

如何在实际预测中使用吡火花mllib RegressionMetrics

apache-spark、pyspark、apache-spark-mllib

使用pyscema1.4，我尝试使用RegressionMetrics()来进行由LinearRegressionWithSGD生成的预测。在RegressionMetrics()中给出的所有示例都用于“人工”预测和观察，如 predictionAndObservations = sc.parallelize([ (2.5, 3.0), (0.0, -0.5), (2.0, 2.0), (8.0, 7.0)]) 对于这样的“人工”(用sc.parallelize生成的) RDD，一切都很好。但是，当对以另一种方式生成的另一个RDD执行相同的操作时，我将 TypeError: DoubleTy

浏览 2提问于2015-07-16得票数 4

回答已采纳

2回答

从单个pyspark dataframe返回多列

python、pandas、apache-spark、pyspark、apache-spark-sql

我正在尝试解析单个列的columns.My数据帧，并获取具有多个pyspark数据帧的数据帧，如下所示： a b dic 0 1 2 {'d': 1, 'e': 2} 1 3 4 {'d': 7, 'e': 0} 2 5 6 {'d': 5, 'e': 4} 我想要解析dic列并获得数据帧，如下所示。如果可能的话，我期待着使用pandas UDF。我的预期输出如下： a b c d 0 1 2 1 2 1 3 4 7

浏览 40提问于2020-03-01得票数 0

回答已采纳

1回答

处理依赖型PySpark DataFrames

python、apache-spark、pyspark、apache-spark-sql

浏览 4提问于2021-12-12得票数 0

回答已采纳

1回答

在读取excel工作表时出现异常。

python、pandas、pyspark、hdfs

我正在从excel中读取excel表，我需要将这些数据作为json存储在HDFS中。对于一些床单，我正面临例外 excel_file = pd.ExcelFile("export_n_moreExportData10846.xls") for sheet_name in excel_file.sheet_names: df = pd.read_excel(excel_file, header=None, squeeze=True, sheet_name=sheet_name) if sheet_name=='Passed': print '***

浏览 2提问于2018-01-23得票数 1

回答已采纳

2回答

PySpark 2.2爆炸删除空行(如何实现explode_outer)？

python、apache-spark、pyspark、apache-spark-sql

我正在处理PySpark数据帧中的一些深度嵌套数据。当我试图将结构扁平化为行和列时，我注意到当我调用withColumn时，如果该行在源列中包含null，那么该行将从我的结果数据帧中删除。相反，我希望找到一种方法来保留行，并在结果列中使用null。要使用的示例数据帧： from pyspark.sql.functions import explode, first, col, monotonically_increasing_id from pyspark.sql import Row df = spark.createDataFrame([ Row(dataCells=[Row(po

浏览 0提问于2018-10-11得票数 2

1回答

TypeError:字段客户:不能合并类型<class‘pyscapk.sql.type.’>和<class‘class’>pysck.sql.type.‘>

pandas、apache-spark、pyspark、apache-arrow

SL No: Customer Month Amount 1 A1 12-Jan-04 495414.75 2 A1 3-Jan-04 245899.02 3 A1 15-Jan-04 259490.06 我的Df在上面代码 import findspark findspark.init('/home/mak/spark-3.0.0-preview2-bin-hadoop2.7') import pyspark from pyspark.sql import SparkSession spark = SparkSession.bui

浏览 2提问于2020-02-02得票数 2

回答已采纳

1回答

数据帧到JSON

pyspark

如何在pyspark中处理dataframe并获得json格式的输出：数据帧： empid empname in out 1 A 1 1 1 A 1 1 json中需要的输出： { id:empid, name:empname, in:[1,1], out:[1,1] }

浏览 4提问于2018-03-18得票数 0

3回答

在带约束的Apache Spark (Scala)数据框中将布尔列转换为数值列？

scala、spark-dataframe

val inputfile = sqlContext.read .format("com.databricks.spark.csv") .option("header", "true") .option("inferSchema", "true") .option("delimiter", "\t") .load("data") inputfile: org.apache.spar

浏览 2提问于2017-11-01得票数 3

回答已采纳

1回答

按最常见的值汇总数据框列

pandas、dataframe、group-by、sum、frequency

我有一个数据帧，如下所示： source_ip destination_ip malware_tag ransomware_tag brutefore_tag source_bytes destination_bytes label ip_1 ip_2 True True False 10 20 0 ip_1 ip_2 True

浏览 11提问于2020-09-17得票数 0

回答已采纳

3回答

用自定义函数将PySpark数据帧中的纪元转换为日期时间

python、apache-spark、pyspark、apache-spark-sql

我有一个具有此模式的PySpark数据帧： root |-- epoch: double (nullable = true) |-- var1: double (nullable = true) |-- var2: double (nullable = true) 其中epoch以秒为单位，应转换为日期时间。为此，我定义了用户定义函数(udf)，如下所示： from pyspark.sql.functions import udf import time def epoch_to_datetime(x): return time.localtime(x) # re

浏览 2提问于2018-04-23得票数 11

回答已采纳

1回答

使用udf统计与pyspark dataframe中的某个值匹配的键值

python、apache-spark、dictionary、pyspark、apache-spark-sql

我有一个pyspark dataframe，它有一个值为string json的列。如何计算与字典内列表中的某个值匹配的值，并以列的形式返回报告？我想使用Python函数和pyspark udf来实现。例如，下面是数据帧df： +---------------------------------------------------------------------------+ |col | +---------------------------

浏览 15提问于2020-12-11得票数 0

1回答

在pyspark中显示奇怪输出的Sort或orderBy

python、pyspark

我试图排序我的pyspark数据帧中的值，但它显示了奇怪的输出。它不是按整数排序，而是按整数的第一位排序。我已经尝试了sort和orderBy方法，它们都得到了相同的结果 sdf=spark.read.csv("dummy.txt", header=True) sdf.sort('1',ascending=False).show() 我得到了以下输出 +---+ | 98| | 9| | 8| | 76| | 7| | 68| | 6| | 54| | 5| | 43| | 4| | 35| | 34| | 34| | 3| | 2| |

浏览 42提问于2019-03-23得票数 0

1回答

在pyspark sql中转换多个结构列数组

python、struct、pyspark

我有一个包含多列(大约30个)嵌套结构的pyspark dataframe，我想把它们写到csv中。(结构为了做到这一点，我想把所有的struct列都串起来。我在这里检查了几个答案：这是我的数据帧的结构(大约有30个复杂的键)： root |-- 1_simple_key: string (nullable = true) |-- 2_simple_key: string (nullable = true) |-- 3_complex_key: struct (nullable = true) | |-- n1: string (nullable =

浏览 0提问于2019-10-29得票数 1

1回答

使用Spark将列名附加到列值

pyspark、apache-spark-sql、azure-databricks、fpgrowth

我在逗号分隔的文件中有数据，我已经将其加载到spark数据框中:数据如下： A B C 1 2 3 4 5 6 7 8 9 我想在spark中使用pyspark将上面的数据帧转换为： A B C A_1 B_2 C_3 A_4 B_5 C_6 -------------- 然后使用pyspark将其转换为list of list： [[ A_1 , B_2 , C_3],[A_4 , B_5 , C_6]] 然后在上述数据集上使用pyspark运行FP增长算法。我尝试过的代码如下： from pyspark.sql.functions im

浏览 8提问于2019-08-12得票数 1

回答已采纳

1回答

从PySpark中的复杂列中提取值

apache-spark、pyspark、apache-spark-sql

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值： ID value 1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。如果Label为null，则字符串应包含value；如果label不为null，则string应为label:value。因此，对于上面的示例数据帧，输出应如下所示： ID

浏览 0提问于2021-02-09得票数 0