如何在Spark中强制DataFrame求值_如何在SML中强制类型(如强制转换)_如何在Spark DataFrame中逐行过滤？ - 腾讯云开发者社区

scala、apache-spark

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3DataFrame.scala:2087) at org.apache.spark.sql.DataFrame.org$apach

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

spark给出了一些值的错误输出和一些值的正确输出

apache-spark、apache-spark-sql、spark-dataframe

我在spark-shell中使用Apache spark时，执行SQL查询时会得到不同的输出 valjdbcDF = spark.rea

浏览 4提问于2017-08-09得票数 0

回答已采纳

1回答

Spark中的广播哈希连接(BHJ)，用于完全外部连接(外部、完全、完全外部)

scala、apache-spark、apache-spark-sql

如何强制spark中的Dataframe完全外连接以使用Boradcast Hash Join？以下是代码片段：val Result = BigTable.join( Seq(&q

浏览 1提问于2017-04-26得票数 6

1回答

如何在Spark Streaming映射函数中广播变量？

java、apache-kafka、spark-streaming

但是，目前Spark Streaming不支持带有检查点的广播变量。官方指南提供了一个解决方案：。但是，此解决方案只能用于foreachRDD函数。现在，我希望在映射函数(如flatMapToPair)中使用需要以这种方式广播的大型或不可序列化的变量(如KafkaProducer)，但由于没有可见的RDD变量，因此无法检索Spark上下文来广播延迟求值的变量那么如何在映射函数中使用广播变量呢？或者，在映射函数中使用大的或不可序列化的变量有什么解决方法吗？

浏览 1提问于2016-07-15得票数 0

1回答

在分流之前在spark中进行缓存

apache-spark、apache-spark-sql、apache-spark-2.0

我有一个关于使用Spark DataFrame的基本问题。考虑下面这段伪代码： val df1 = // Lazy Read from csv and create dataframe// Write out subdf2 假设我从主数据帧开始(我懒惰地从CSV中读取)，对这个数据帧做一些

浏览 23提问于2021-02-12得票数 1

回答已采纳

3回答

如何在apache spark中执行词干分析？

java、apache-spark、machine-learning、nlp

我正在做一个简单的项目，在apache spark中使用K-Means聚类，我做了一些预处理步骤，如标记化，停止单词删除，和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗？

浏览 2提问于2017-05-08得票数 1

1回答

不使用动作的Spark基准测试

apache-spark、apache-spark-sql

，由于Spark的惰性求值行为，我必须添加一个操作才能使其运行。我想过使用.count()来强制代码运行，但我担心它会改变应用程序运行的方式，并与Hive进行错误的比较，因为每个任务不仅会进行过滤，而且还会被计算在内。我还尝试查看应用程序的Web UI，并尝试将过滤和计数分开，以计算出它们各自花费了多少时间，但它们似乎合并到了一个任务中。最终，我想强制Spark在不使用action的情况下运行我的代码，但据我所知，这是不可能的。我想知道是否有解决这个问题的方法，以及在这种情况下对

浏览 23提问于2021-07-26得票数 0

1回答

Azure数据库INFORMATION_Schema

apache-spark-sql、databricks、azure-databricks、information-schema

对于MySQL，有一个众所周知的Information_Schema，它不存在于Databricks中。df = spark.sql("Select * from mytable")任何评论都将不胜感激！

浏览 7提问于2022-04-27得票数 1

回答已采纳

3回答

如何让spark为空拼图输出写一个_SUCCESS文件？

apache-spark

我的一个spark作业当前在空输入上运行，因此没有生成任何输出。现在还可以，但我仍然需要知道spark作业是否运行，即使它没有生成拼花输出。有没有办法强迫spark写一个_SUCCESS文件，即使根本没有输出？

浏览 30提问于2016-02-24得票数 5

1回答

如何使用Pyspark从mongodb中仅提取特定行？

apache-spark、pyspark、apache-spark-sql、spark-streaming

我正在从mongodb集合中提取数据，并使用Spark python代码将其写入bigquery表。下面是我的代码片段： .format("com.mongodb.spark.sql.DefaultSource")\ .option("uri","mongodb_url但我只想提取满足条件的文档(如sql查询中的where条件)。我发现的一种方法是读取dataframe中

浏览 1提问于2021-02-18得票数 0

7回答

如何将Parquet文件读入Pandas DataFrame？

python、pandas、dataframe、parquet、blaze

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上，要么在S3中。我不想分拆和配置其他服务，如Hadoop、Hive或Spark。我以为Blaze/Odo会让这成为可能: Odo文档提到了Parque

浏览 22提问于2015-11-19得票数 146

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

如何在DataFrame中为流PySpark设置架构。explode# Import data typeslines = spark\ .readStreamformat('socket&

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

python、python-2.7、apache-spark、pyspark

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统的Python数据对

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

如何使用spark* (Eclipse)从Elasticsearch读取数据并将其转换为表格格式*

eclipse、apache-spark、elasticsearch、hadoop

我已经成功地将csv文件推送到我的elasticsearch中。val spark=SparkSession.builder() .config("spark.master","local") val path=scala.io.StdIn.readLine() val dataframe=spark

浏览 25提问于2020-06-14得票数 1

5回答

如果dataframe中不存在列，则返回空列

apache-spark、pyspark、apache-spark-sql

如下面的代码所示，我正在将一个JSON文件读取到一个dataframe中，然后从这个dataframe中选择一些字段到另一个字段中。df_record = spark.read.json("path/to/file.JSON",multiLine=True) org.apache.spark.sql.AnalysisException: No

浏览 3提问于2018-10-04得票数 11

回答已采纳

1回答

Spark Data Source是否支持对写入的输入V2进行重新分区？

apache-spark

我有一个自定义的Spark数据源，它是使用data source实现的，我正在尝试将其转换为V2 V1。在Spark API中，V1将输入DataFrame传递给CreatableRelationProvider的createRelation方法 https://spark.apache.org/docs/latest/api/java/org/apache/spark/sql/

浏览 41提问于2021-05-08得票数 0

1回答

我们如何看待同一个函数的不同实现

scala、apache-spark

我想了解如何在Scala中实现相同方法。def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrameorg.apache.spark.sql.DataFrame def createDataFrame(rows: java.util.List[org.apache.spark.sql.R

浏览 0提问于2020-07-19得票数 0

回答已采纳

3回答

在Spark之后使用scala对象

scala、dataframe、apache-spark、apache-spark-sql

我的假设是，我需要实现一个新的dataframe (即通过一个连接操作)，以便在Spark中执行这个操作。到目前为止，这个假设是正确的吗？dataframe中完成案例类的集合： /** default method appliedby spark's flatMap */ private def toCaseClass(

浏览 2提问于2019-12-23得票数 1

回答已采纳

3回答

斯卡拉星火中的Encoder[Row]

scala、apache-spark-sql、spark-dataframe

我试图在Spark2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。

浏览 5提问于2016-09-30得票数 2

1回答

理解pandas_udf

apache-spark、pyspark、apache-spark-sql

pandas_udf文档中的文档页面有以下段落：用户定义的函数不支持布尔表达式中的条件表达式或短路，最终只能在内部执行。如果函数在特定行上可能失败，则解决方法是将条件合并到函数中。它似乎是说，UDF不支持条件语句(如果其他块)，然后建议解决方法是在函数体中包含if else条件。这对我来说毫无意义。请帮帮忙

浏览 2提问于2021-10-28得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云