基于Spark Dataframe中不同值的Categories列_基于Spark Dataframe中的条件创建新列_基于Map的Spark Dataframe中的值替换 - 腾讯云开发者社区

scala、apache-spark、dataframe、nullpointerexception、apache-spark-sql

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

错误:重载的可选方法值选择：

scala、function、select、overloading

我正在dataframe1中读取CSV文件，然后在dataframe2中筛选一些列，在从dataframe1中选择dataframe2列时，我想将我的函数应用到列值上。喜欢 import utilities._ val Logs = sqlContext.read .format("csv") .option("header", "true") .load("dbfs:/mnt/records/Logs/2016.07.17/2016.07.17.{*}.csv") val Log = Logs.select( &

浏览 0提问于2018-11-04得票数 0

回答已采纳

1回答

转换spark数据框列

python、pandas、apache-spark

我有一个包含两列的spark dataframe : Stars (数值)和categories (标签字符串，例如："Restaurant，Italien，High-end")。我希望重新创建数据帧，这样类别就变成了标签的计数。在上面的示例中，类别将变为3。我曾尝试将数据帧视为熊猫数据帧，但似乎不起作用。我是Spark的新手，所以可能是因为我不太理解RDD的概念。

浏览 22提问于2020-04-13得票数 0

1回答

(py)Spark中分组数据的模式

python、apache-spark、pyspark、spark-dataframe

我有一个有多列的spark DataFrame。我想根据一列对行进行分组，然后为每组找到第二列的模式。与熊猫DataFrame一起工作时，我会这样做： rand_values = np.random.randint(max_value, size=num_values).reshape((num_values/2, 2)) rand_values = pd.DataFrame(rand_values, columns=['x', 'y']) rand_values['x'] = ra

浏览 1提问于2016-04-16得票数 10

回答已采纳

4回答

为什么AnalysisException失败了: AS子句中提供的别名数量与列数不匹配.？

apache-spark、apache-spark-sql

这是我的数据 +------------------------------------------ |value +------------------------------------------ |[0.0, 1.0, 0.0, 7.0000000000000036, 0.0] |[2.0000000000000036, 0.0, 2.9999999999999996, 4.0000000000000036, 5.000000000000002] |[4.000000000000006, 0.0, 0.0, 6.000000000000006, 7.000000000000004

浏览 7提问于2018-01-03得票数 9

回答已采纳

1回答

根据CSV记录过滤Spark数据帧中的部分数据

scala、apache-spark、apache-spark-sql、user-defined-functions

我有一个包含一些单词的CSV文件。总共没有。csv文件中的字数不会超过50k条记录。我有一个从具有keywords列的JSON文件创建的Spark Dataframe。我需要做的是从dataframe中过滤出其keywords列值与CSV文件中的值匹配的记录。这里，匹配表示csv文件中的单词是否出现在dataframe列中。举个例子，假设csv文件中有一个单词"baby toys"，spark dataframe看起来像这样 ***Keywords*** new baby toys baby toys for all costly baby toys price baby

浏览 2提问于2019-05-31得票数 0

1回答

Sparklyr的spark_apply函数似乎在单个执行器上运行，在中等大小的数据集上失败。

r、apache-spark、sparklyr

我试图使用spark_apply在星火表上运行下面的R函数。如果我的输入表很小(例如，5,000行)，但是在大约30分钟之后，当表适度大时(例如，5,000,000行)：sparklyr worker rscript failure, check worker logs for details，则会抛出一个错误。查看Spark显示，只创建了一个任务，并将单个执行器应用于此任务。有人能给出为什么这个函数在500万行数据集上失败的原因吗？，问题可能是单个执行器被指定来完成所有的工作，而失败吗？ # Create data and copy to Spark testdf <- data.

浏览 1提问于2017-09-25得票数 3

回答已采纳

3回答

火花放电数据栏:蜂箱列

apache-spark、dataframe、hive

我有一个蜂巢表如下： hive> describe stock_quote; OK tickerid string tradeday string tradetime string openprice string

浏览 0提问于2018-04-25得票数 2

回答已采纳

1回答

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

apache-spark、avro、spark-avro

我得到了按日期和时间划分的Avro格式的数据，我每小时都会收到新的数据。较新的分区可以包含比较旧分区更多的列。当我用Spark 2.4.3读取它时，我得到了第一个(最旧的)分区的模式的DataFrame，所有新添加的列都丢失了。我应该怎么做才能读取所有列？有什么变通方法吗？谢谢。

浏览 13提问于2019-11-18得票数 0

1回答

新的Dataframe列作为其他行的通用函数(spark)

python、apache-spark、pyspark、spark-dataframe

如何有效地在 DataFrame 中创建一个新列，该列是 spark 中其他行的函数这是我描述的问题的spark实现 from nltk.metrics.distance import edit_distance as edit_dist from pyspark.sql.functions import col, udf from pyspark.sql.types import IntegerType d = { 'id': [1, 2, 3, 4, 5, 6], 'word': ['cat', 'hat'

浏览 0提问于2018-01-09得票数 0

回答已采纳

1回答

基于dataframe列的Elasticsearch和Spark动态索引创建

apache-spark、elasticsearch、apache-spark-sql、elasticsearch-spark

我有一个火花数据，其中有一个列上写着“名称”。名称可以在单个数据name中具有不同的值。当我使用spark (scala)将数据写入elasticsearch时，我希望根据列"name“的值将数据写入不同的索引。 dataframe.saveToEs("index-name") saveToEs期望有一个字符串，我正在查找以下内容： dataframe.saveToEs(col("")) 或者类似的东西，我可以在写的时候分配这个值。

浏览 8提问于2020-01-11得票数 1

回答已采纳

1回答

使用列值作为火花DataFrame函数的参数

apache-spark、pyspark、apache-spark-sql

考虑以下DataFrame： #+------+---+ #|letter|rpt| #+------+---+ #| X| 3| #| Y| 1| #| Z| 2| #+------+---+ 它可以使用以下代码创建： df = spark.createDataFrame([("X", 3),("Y", 1),("Z", 2)], ["letter", "rpt"]) 假设我想重复每一行在列rpt中指定的次数，就像在这个中一样。一种方法是使用以下查询将我的pyspark-sql复制

浏览 2提问于2018-07-02得票数 11

回答已采纳

1回答

PySpark数据重分区

apache-spark、pyspark

当我们根据列对PySpark数据进行重新分区时会发生什么。例如 dataframe.repartition('id') 这是否将具有类似'id'的数据移动到相同的分区？spark.sql.shuffle.partitions值如何影响重分区？

浏览 0提问于2018-02-22得票数 11

回答已采纳

1回答

DataFrame到RDD[(字符串，字符串)]的转换

scala、apache-spark、redis、apache-kafka、databricks

我想把数据库中的org.apache.spark.sql.DataFrame 转换成 org.apache.spark.rdd.RDD[(String, String)] ，有人能帮上忙吗？背景(更好的解决方案也是受欢迎的)：我有一个Kafka流，它(经过一些步骤)变成了一个2列数据框架。我想把它放到Redis缓存中，第一列作为键，第二列作为值。更具体地说，输入的类型是：lastContacts: org.apache.spark.sql.DataFrame = [serialNumber: string, lastModified: bigint]。我试着按以下方式对Redis进行分析：

浏览 0提问于2019-03-25得票数 0

回答已采纳

5回答

DataFrame对象没有属性“col”

apache-spark

在“火花:最终指南”中，它说：如果需要引用特定DataFrame的列，则可以在特定的DataFrame上使用col方法。例如(在Python/Pyspark中)： df.col("count") 但是，当我在包含列count的dataframe上运行后的代码时，就会得到错误'DataFrame' object has no attribute 'col'。如果我尝试column，我会得到一个类似的错误。这本书是错的，还是我该怎么做呢？我上的是星火2.3.1。dataframe是用以下内容创建的： df = spark.read.f

浏览 2提问于2018-08-12得票数 9

2回答

我可以对列执行哪些操作

scala、apache-spark、apache-spark-sql

我有一张桌子 DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME count United States Romania 15 United States Croatia 1 United States Ireland 344 我把上面的代码转换成了DataFrame val flightData2015 = spark .read .option("inferSchema", "true")//infers the input schema automatically from data .option("he

浏览 19提问于2019-02-08得票数 0

回答已采纳

1回答

spark 2.0.0选择不同的不稳定结果

python、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我运行pyspark2在spark 2.0.0上考虑到加载到Dataframe中的稳定和常量数据集，我确实按特定列删除了重复数据： vw_ticket = read_csv(...) vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID']) vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking') 然后 spark.sql('select count(distinct(booking_id)

浏览 2提问于2017-08-31得票数 0

回答已采纳

1回答

Spark:读取inputStream而不是文件

java、apache-spark、apache-spark-sql、spark-dataframe、databricks

我在一个Java应用程序中使用SparkSQL对CSV文件进行一些处理，使用Databricks进行解析。我正在处理的数据来自不同的来源(远程网址，本地文件，谷歌云存储)，我习惯于把所有东西都转换成InputStream，这样我就可以解析和处理数据，而不需要知道它来自哪里。我在Spark上看到的所有文档都是从一个路径读取文件，例如 SparkConf conf = new SparkConf().setAppName("spark-sandbox").setMaster("local"); JavaSparkContext sc = new JavaSpar

浏览 0提问于2016-07-21得票数 14

回答已采纳

3回答

包含python中的字符串列表的列

python、pandas、slice、dataframe

我有一个熊猫数据框架，如下所示： categories review_count 0 [Burgers, Fast Food, Restaurants] 137 1 [Steakhouses, Restaurants] 176 2 [Food, Coffee & Tea, American (New), Restaurants] 390 ...

浏览 0提问于2013-10-14得票数 13

回答已采纳

2回答

Spark2.0如何处理列空性？

apache-spark、pyspark、apache-spark-sql、apache-spark-2.0

在最近发布的中，作者指出(第74页)： "...when定义了一个模式，其中所有列都被声明为不具有空值-- Spark将不会强制执行该模式，并且会很高兴地将空值放入该列。可空信号只是为了帮助Spark优化处理该列。如果列中的空值不应该具有空值，则可能得到不正确的结果，或者看到难以调试的奇怪异常。“ 在回顾笔记和以前的支拉时，上面的说法似乎不再是真的。根据和，当在DataFrame创建中定义模式时，就会强制执行可空性。我能得到一些澄清吗？我再也不确定这种行为是什么了。

浏览 2提问于2017-11-24得票数 6

回答已采纳

2回答

如何键入星火DataFrame列？使用火花放电

apache-spark、pyspark

我以以下方式创建了一个DataFrame： from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate() df = spark.read.csv("train.csv", header=True) 我的DataFrame的架构如下： root |-- PassengerId: string (nullable = true) |-- S

浏览 3提问于2018-10-18得票数 0

回答已采纳

1回答

R在sparkR中等效的快速虚拟函数

r、character-encoding、sparkr

我有一个包含以下数据的Spark dataframe： categories 1 John 2 Luis 3 Dora 为此，我需要创建一个热结尾版本，如下所示： categories categories_Dora categories_John categories_Luis 1 John 0 1 0 2 Luis 0 0 1 3 Dora

浏览 23提问于2020-03-23得票数 2

3回答

如何将转换后的列与原始的DataFrame合并？

python、python-3.x、dataframe、pyspark

我创建了一个函数来测试DataFrame上的转换。这只返回转换后的列。 def test_concat(df: sd.DataFrame, col_names: list) -> sd.DataFrame: return df.select(*[F.concat(df[column].cast(StringType()), F.lit(" new!")).alias(column) for column in col_names]) 如何在原始DF中用转换一次的转换替换现有列并返回整个DF？示例DF: test_df = self.spark.createDat

浏览 1提问于2020-07-07得票数 0

回答已采纳

1回答

表的行筛选器无效

pyspark、apache-spark-sql

我从Bigquery中的一个视图(在配置spark会话之后导入该视图)中获得了pyspark中的数据： config = pyspark.SparkConf().setAll([('spark.executor.memory', '10g'),('spark.driver.memory', '30G'),\ ('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-

浏览 2提问于2021-01-06得票数 1

4回答

Spark scala删除仅包含空值的列

scala、null、spark-dataframe

有没有一种方法可以删除spark dataFrame中只包含空值的列？(我使用的是scala和Spark 1.6.2) 目前我正在做这件事： var validCols: List[String] = List() for (col <- df_filtered.columns){ val count = df_filtered .select(col) .distinct .count println(col, count) if (count >= 2){ validCols ++= List(col) } } 构建至少包含两个不

浏览 6提问于2016-09-11得票数 7

2回答

如何将列声明为DataFrame中的分类特性，以便在ml中使用

python、apache-spark、pyspark、apache-spark-ml

如何声明DataFrame中的给定列包含分类信息？我有一个从数据库加载的Spark DataFrame。这个DataFrame中的许多列都有分类信息，但是它们被编码为Longs (为了隐私)。我想告诉火花-毫升，即使这一栏是数字，信息实际上是绝对的。类别的索引可能有一些漏洞，这是可以接受的。(例如列的值可以是1，0，0 ,4) 我知道存在StringIndexer，但是我更愿意避免编码和解码的麻烦，特别是因为我有很多列都有这种行为。我想找的东西如下所示 train = load_from_database() categorical_cols = ["CategoricalCol

浏览 4提问于2016-05-27得票数 5

回答已采纳

1回答

仅为转换使用Spark管道

apache-spark、apache-spark-mllib、apache-spark-ml

我正在致力于一个项目，其中可配置的管道和谱系跟踪的变化，火花DataFrames都是必不可少的。这个管道的端点通常只是修改了DataFrames (把它看作是一个ETL任务)。对我来说最有意义的是利用已经存在的Spark管道API来跟踪这些更改。特别是修改(根据其他内容添加列，等等)实现为自定义Spark变压器。然而，我们现在正在进行内部辩论，讨论这是否是执行这条管道的最惯用的方式。另一种选择是将这些转换实现为一系列UDF，并基于DataFrame的模式历史(或Spark的内部DF沿袭跟踪)构建我们自己的谱系跟踪。这方面的论点是，Spark的ML管道并不仅仅是ETL作业，而且应该始终以生成一

浏览 2提问于2017-12-14得票数 3

1回答

如何为结构化查询的不同代码部分指定分区数？

apache-spark、apache-spark-sql

我有一个Spark流，类似于： dataFrame .join(anotherDataFrame, columns) .repartition(partitionColumn) .save() 在join步骤中，我希望spark.sql.adaptive.enabled是true，因为这将加快连接的速度。在repartition步骤中，我希望spark.sql.adaptive.enabled是false，因为如果是真的，它可能会更改分区，保存的结果将被格式化为错误的分区。如何在Spark流的不同步骤中更改spark.sql.adaptive.enabled的行为？例如:当只

浏览 0提问于2019-01-28得票数 2

1回答

迭代的列并更新指定的值

scala、apache-spark、hive、apache-spark-sql

为了迭代从Hive表创建的Spark列并更新所有所需的列值，我尝试了以下代码。 import org.apache.spark.sql.{DataFrame} import org.apache.spark.sql.functions._ import org.apache.spark.sql.functions.udf val a: DataFrame = spark.sql(s"select * from default.table_a") val column_names: Array[String] = a.columns val required

浏览 0提问于2018-05-06得票数 0

回答已采纳

10回答

如何将新列添加到星火DataFrame (使用PySpark)？

python、apache-spark、dataframe、pyspark、apache-spark-sql

我有一个火花DataFrame (使用PySpark 1.5.1)，并希望添加一个新的列。我尝试过以下几种方法，但都没有成功： type(randomed_hours) # => list # Create in Python and transform to RDD new_col = pd.DataFrame(randomed_hours, columns=['new_col']) spark_new_col = sqlContext.createDataFrame(new_col) my_df_spark.withColumn("hours"

浏览 13提问于2015-11-12得票数 179

回答已采纳

2回答

在pyspark中展平结构的数组

apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

浏览 0提问于2020-02-24得票数 4

1回答

参数为动态的火花滞后函数

apache-spark、apache-spark-sql

我需要在spark中实现滞后函数；我可以像下面这样做(使用hive/temp spark表中的一些数据) 假设DF包含以下行： lagno:value 0, 100 0, 200 2, null 3, null 其中，第一列是要使用的实际滞后数，第二列是实际值。当我运行这个查询时，它可以工作： DataFrame df; DataFrame dfnew=df.select( org.apache.spark.sql.functions.lag( df.col("value"), 1 ).over(org.apache.spark.sql.express

浏览 3提问于2016-09-16得票数 3

2回答

映射数据后将其转换为Option[DataFrame]

scala、apache-spark、spark-dataframe

我试图创建一个将表名映射到Dataframes的函数，我的代码是： def tableGen(tables: Array[Any], df: DataFrame, sqlContext: SQLContext): Map[String,DataFrame]={ df.registerTempTable("TempTable") var myMap: Map[String,DataFrame] = Map() for(i <- tables){ val queryRows = sqlContext.sql(s"SELECT *

浏览 0提问于2016-07-19得票数 0

回答已采纳

1回答

DataFrame.count()如何选择BroadcastHashJoin，而DataFrame.show()如何选择SortMergeJoin，即使禁用了AQE

apache-spark、pyspark、apache-spark-sql、inner-join

我在spark 3.0.1 (CDP集群)上运行下面的代码： autoBroadcastJoinThreshold默认为10 MiB，并禁用AQE。在DataFrame.explain()上，它按预期选择了SortMergeJoin：如果我调用DataFrame.show()，它将用于SortMergeJoin，而DataFrame.count()将用于BroadcastHashJoin。 df.show() -> SortMergeJoin: df.count() -> BrodcastHashJoin: 我理解这是

浏览 8提问于2022-11-14得票数 2

1回答

如何计算非双型星火统计量？

java、apache-spark、cassandra、statistics

spark 包括用于计算min、max和类型"double“值的平均统计信息的工具，但是在尝试处理float类型的列值时，如何处理spark/java/cassandra场景？编辑了以显示分辨率： import org.apache.spark.sql.DataFrame; import static org.apache.spark.sql.functions.*; DataFrame df = sqlContext.read() .format("org.apache.spark.sql.cassandra") .option(&

浏览 0提问于2016-02-08得票数 1

5回答

如何处理分类特征与火花-毫升？

apache-spark、categorical-data、apache-spark-ml、apache-spark-mllib

如何使用spark-ml而不是spark-mllib处理分类数据？虽然文档不是很清楚，但似乎分类器(例如RandomForestClassifier、LogisticRegression )有一个featuresCol参数，它指定了DataFrame中的特性列的名称，还有一个labelCol参数，它指定了DataFrame中标记类的列的名称。显然，我希望在我的预测中使用多个特性，所以我尝试使用VectorAssembler将所有特性放在featuresCol下的一个向量中。但是，VectorAssembler只接受数字类型、布尔类型和向量类型(根据星火网站)，所以我不能在特性向量中放置字

浏览 10提问于2015-08-28得票数 49

1回答

无法将spark数据框列与df.withColumn()合并

python、apache-spark、apache-spark-sql、pyspark

我正在尝试合并两个不同数据类型的列。在下面的代码片段中，为了简单起见，我从相同的数据帧中选取了列。 from pyspark.sql import SQLContext, Row from pyspark.sql.types import * from datetime import datetime a=sc.parallelize([('ship1',datetime(2015,1,1),2,3.,4.),('ship1',datetime(2015,1,2),4,8.,9.),('ship1',datetime(2015,1,3),5,

浏览 6提问于2015-10-28得票数 4

1回答

使用散列模式对数据进行采样

hadoop、apache-spark、apache-spark-sql

我有一个带有字段transactionId的数据文件，我想在这个字段上进行示例。我希望对字段的散列进行抽样，因为采样的数据将被连接到另一个抽样数据的样本中，并且我希望在两个样本中都有相同的ids。问题是，在尝试了各种版本的过滤器之后，我不得不在过滤器中使用哈希和mod。 scala> val dfSampled = df.filter($"transactionId".hashCode() % 10 == 0) <console>:27: error: overloaded method value filter with alternatives:

浏览 6提问于2016-07-21得票数 0

1回答

如何迭代大型Pyspark Dataframe中列的不同值？.distinct().collect()引发大型任务警告

python、pyspark

我正在尝试迭代一个大型Pyspark Dataframe列中的所有不同值。当我尝试使用.distinct().collect()执行此操作时，即使只有两个不同的值，它也会发出“任务太大”警告。警告消息： 20/01/13 20:39:01 WARN TaskSetManager: Stage 0 contains a task of very large size (201 KB). The maximum recommended task size is 100 KB. 下面是一些示例代码： from pyspark.sql import SparkSession spark = Spar

浏览 1提问于2020-01-14得票数 1

2回答

是否有一种方法可以向添加值范围的列？

python、apache-spark、pyspark、apache-spark-sql

我有一个火花数据格式: df1，如下所示： age = spark.createDataFrame(["10","11","13"], "string").toDF("age") age.show() +---+ |age| +---+ | 10| | 11| | 13| +---+ 我需要在dataframe中添加一个行号列以使其： +---+------+ |age|col_id| +---+------+ | 10| 1 | | 11| 2 | | 13| 3 | +---+------+

浏览 2提问于2020-10-19得票数 0

回答已采纳

1回答

如何自动将常量列放入火花放电中？

pyspark、apache-spark-sql

我有一个火花数据，我需要删除所有的常数列从我的数据。因为我不知道哪些列是常量，所以我不能手动取消选择常量列，也就是说，我需要一个自动过程。我很惊讶，我没有找到一个简单的解决方案的堆叠溢出。示例： import pandas as pd import pyspark from pyspark.sql.session import SparkSession spark = SparkSession.builder.appName("test").getOrCreate() d = {'col1': [1, 2, 3, 4, 5], 'col2

浏览 4提问于2019-04-21得票数 3

回答已采纳

2回答

星火1.3.1 (PySpark)和MongoDB 3.4中的错误

mongodb、apache-spark、pyspark

我有一个非常简单的脚本来持久化带有MongoDB中两列的数据文件： from pyspark import SparkContext, SparkConf from pyspark.sql import SQLContext from pyspark.sql.types import * from pyspark.sql.functions import col, udf from datetime import datetime sparkConf = SparkConf().setMaster("local").setAppName("Wiki-Analyzer

浏览 4提问于2017-03-30得票数 0

回答已采纳

1回答

使用python绘制直方图并为spark dataframe创建新列

python、apache-spark

我正在使用下面的python代码从spark dataframe创建一个交叉表。 age_matter = df[df['y']=='yes'].stat.crosstab("age", "y").orderBy("age_y", ascending=True).show(100) 我想知道如何创建基于此代码的直方图。另一方面，我正在基于spark dataframe中的另一列创建一个新列，我希望使用如下代码，但这是徒劳的。 if df['age']<=24: df['group

浏览 0提问于2021-02-23得票数 0

1回答

在Apache Spark DataFrame中，如何删除所有非None值都相同的列？

scala、apache-spark、apache-spark-sql

我在Apache Spark SQL中有一个DataFrame，我想删除所有not None值都相同的列。所以在一个虚拟的例子中 df | A | B | C | 1 2 3 NaN 2 4 1 2 NaN 1 2 5 我只想保留C列 df_filter | C | 3 4 NaN 5 在Python中，我将通过以下方式完

浏览 25提问于2021-10-27得票数 2

回答已采纳

2回答

PySpark将IntegerTypes转换为ByteType进行优化

python、apache-spark、pyspark、spark-dataframe

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我写了一个函数来做这件事，并返回一个新的dataframe，其中的值被转换为字节，但是当在UI中查看dataframe的内存时，我发现它只是保存为原始dataframe的转换，而不是新的dataframe本身，因此占用了相同的内存量。我是Spark的新手，可能不完全理解ByteType的内部原理，那么我应该如何开始将这些列设置为Spark的？

浏览 3提问于2018-02-01得票数 5

2回答

将cache()和count()应用于数据库中的Spark是非常慢的。

python、apache-spark、pyspark、azure-databricks

我在Databricks集群中有一个包含500万行的星星之火数据。我想要的是缓存这个火花数据，然后应用.count()，以便下一个操作运行得非常快。我过去做过两万行，而且它能工作。然而，在我尝试这样做的过程中，我遇到了以下悖论： Dataframe创建步骤1:从Azure数据湖存储帐户读取800万行 read_avro_data=spark.read.format("avro").load(list_of_paths) #list_of_paths[0]='abfss://storage_container_name@storage_account_name.dfs.

浏览 0提问于2020-06-01得票数 3

回答已采纳

1回答

如何在spark数据帧中显示elasticsearch查询结果

python、elasticsearch、pyspark

我用python编写的elasticsearch查询指定我只想保存spark dataframe中的选定字段，但是我在dataframe中得到的是所有字段。 q ="""{ "_source": "predicted_cluster", "query": { "bool": { "must": [ { "match": { "mobile_client.keyword": "Diverse PC&

浏览 3提问于2019-07-25得票数 0

1回答

Spark :将bigint转换为时间戳

apache-spark

我有一个有bigint列的Dataframe。如何将bigint列转换为scala spark中的时间戳

浏览 1提问于2019-07-23得票数 4

回答已采纳

3回答

查看Spark Dataframe列的内容

python、apache-spark、dataframe、pyspark

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_code']，它会变成一个pyspark.sql.dataframe.Column类型，但是我找不到一种方法来查看df['zip_code']中的值。

浏览 1提问于2015-06-30得票数 43

回答已采纳

1回答