Scala Spark Sql -从配置单元行读取空值_如何编写UDF ( hive /spark-scala)以从配置单元查询返回值 - 腾讯云开发者社区

scala、apache-spark、hive、apache-spark-sql、hiveql

我有一个配置单元表table_1，它具有以下模式 field_1 stringfield_3 - field_3_2 double(nullable) 当我有一个具有以下值的条目时 field_1: "100"field_3: - field_3_2: null 我尝试从Scala<

浏览 23提问于2020-04-16得票数 0

1回答

如何从Apache Spark* on Analytics Engine读取和写入配置单元表*

ibm-cloud、watson-studio、analytics-engine

我想在Watson Studio中的Jupyter笔记本上使用Spark on analytics engine，以便能够读取和写入Hive表，但我不清楚如何通过读取Spark 来做到这一点。不清楚的原因是IBM Analytics Engine预配置了Spark，并且不提供root访问权限。

浏览 27提问于2018-06-02得票数 0

回答已采纳

1回答

火花SQL卡桑德拉如何处理时间戳空值？

cassandra、apache-spark、apache-spark-sql

我目前正在使用ApacheCassandra2.1.2集群和Spark1.2.0连接器。对于一些初始测试，我需要通过Spark命令从Cassandra表中选择一些行。LIMIT 100")当我通过命令执行这个脚本时：在一行包含ts单元格的空值之前，一切都是正常的如果有一个为ts值为空</em

浏览 5提问于2015-01-29得票数 0

1回答

如何解决spark读取hive orc文件遇到错误

scala、apache-spark、hive、orc

jdk 1.8 scala 2.12.11 spark 3.0.1当我在scala spark中读取配置单元表并写入导出orc文件时java.lang.ClassCastException: org.apache.orc.impl.ReaderImpl无法强制转换

浏览 29提问于2021-02-19得票数 1

2回答

我正在编写一个单元测试，测试数据需要一些空值。我试着在元组中直接放置空，我也尝试使用选项。没能成功。) at org.apache.spark.sql.catalyst.ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$.org$apache$spark$sql$catalyst$ScalaReflection$$serializer

浏览 3提问于2017-08-22得票数 2

回答已采纳

1回答

将配置单元表卸载到。使用Spark或pyspark或python的dat文件

python、pyspark、apache-spark-sql、hiveql

我目前正在使用hql将数据从配置单元表卸载到文本文件中。因为它花费了太多的时间。我想去spark或pyspark.I。我是spark/ please的新手。你能帮我解决这个问题吗?

浏览 11提问于2019-10-04得票数 0

1回答

PySpark -当值为"t“和"f”时，如何使用模式读取BooleanType

pyspark、boolean、spark-dataframe、amazon-redshift

我使用StructType定义了一个模式，用于读取Redsfhit中的数据帧。该表具有350+列，其中许多列被配置为布尔值。at scala.collection.immutable.StringOps.toBoolean(StringOps.scala</

浏览 1提问于2017-11-22得票数 3

3回答

createOrReplaceTempView在Spark中是如何工作的？

apache-spark、apache-spark-sql、spark-dataframe

我是Spark和Spark SQL的新手。如果我们将对象的RDD注册为表，spark会将所有数据保存在内存中吗？

浏览 87提问于2017-05-17得票数 74

回答已采纳

1回答

N列m行的动态数据帧

scala、apache-spark

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC"), (3, "GHIJ") ).toDF("id", "word&qu

浏览 6提问于2020-06-04得票数 0

回答已采纳

3回答

应如何配置spark* sql以访问配置单元元存储？*

apache-spark、hive、apache-spark-sql、cloudera

我正在尝试使用Spark SQL从Hive元存储中读取一个表，但Spark给出了一个关于表未找到的错误。我担心Spark SQL会创建一个全新的空转储。我通过以下命令提交spark任务： spark-submit --class etl.EIServerSpark --driver-class-path '/opt/cloudera/parcels/CDH/hive-site

浏览 6提问于2015-07-01得票数 4

2回答

将本地CSV读取到spark数据集中时出错

apache-spark、apache-spark-sql、spark-dataframe

我有一个本地CSV "test.csv“，其中第一行是列名，后面的行是数据。(DataSource.scala:184) at scala.Option.orElse(Option.scala:289) at org.apache

浏览 0提问于2017-08-29得票数 1

1回答

在Spark中的数据帧中选择非空值

apache-spark、spark-dataframe

我正在读取Spark 2.0中的CSV文件，并使用以下内容计算列中的非空值：当我使用spark-shell测试它时，它工作得很好。当我创建一个包含代码的jar文件并将其提交给spark-submit时，我在上面的第

浏览 5提问于2016-11-19得票数 2

2回答

使用Spark从Hive读取数据

mysql、scala、apache-spark、hive

问题[error] (run-main-0) org.apache.spark.sql.AnalysisException: Table or view同样，我使用sqoop从mysql抓取数据并将其导入hive也没有问题。我的Scala代码有问题吗？或者这是一个配置错误？Scala代码：impo

浏览 2提问于2017-04-08得票数 3

3回答

使用Spark* 1.4 API读取ORC文件时的NPE*

apache-spark、hive、apache-spark-sql、orc

我在Spark中读取了许多ORC文件，并对其进行了处理，这些文件基本上都是Hive分区。大多数情况下，处理过程都很顺利，但对于少数文件，我得到了以下异常，不知道为什么？这些文件在使用配置单元查询的配置单元中工作得很好。(OrcRelation.scala:206) at org.apache.spark.sql.hive.orc.OrcTableScan$$anonfun$8.apply(OrcRelation.sca

浏览 1提问于2015-09-08得票数 1

1回答

从文件系统中填充Properties对象

scala、dataframe、apache-spark、apache-spark-sql、databricks

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(？)的URI。不过，我能够将该文件读入Spa

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

插入卡桑德拉( Cassandra )未设置单元格会产生墓碑吗？

cassandra

其目的是在必要时使表中的某些行“失效”。我知道墓碑是在细胞过时的时候制造出来的。但是，既然细胞中没有价值，就会创造墓碑吗？

浏览 1提问于2020-01-27得票数 1

回答已采纳

2回答

Scala :从csv读取具有空值的列的数据

scala、apache-spark、apache-spark-sql

(Iterator.scala:448)at org.apache.spark.sql.catalyst.expressions.GeneratedClass(WholeStageCodegenExec.scala:729).map

浏览 1提问于2021-03-25得票数 0

1回答

Smark3.0读取json文件的速度比Spark2.4慢得多

scala、apache-spark、java-11、spark3

我有大量的json文件，星火可以在36秒内读取，但Spark3.0几乎需要33分钟才能读取同样的文件。从更仔细的分析来看，Spark3.0选择的DAG与Spark2.0不同。有人知道这是怎么回事吗？Spark3.0是否有任何配置问题。火花2.4Ti

浏览 2提问于2020-06-27得票数 6

回答已采纳

2回答

配置单元“alter table <table name> concatenate”是如何工作的？

hadoop、hive、hiveql、orc

这是使用配置单元中的alter table table_name concatenate命令完成的。我想了解Hive是如何实现这一点的。如果需要的话，我希望使用Spark来实现这一点。

浏览 36提问于2017-01-24得票数 3

1回答

spark sql中的BIGINT和INT比较失败

apache-spark、hive、apache-spark-sql

我有一个具有以下定义的配置单元表： my_column MAP<BIGINT, ARRAY<String>>该表具有以下记录select * from testforerror where my_column[16001] is not null;{16001:["

浏览 0提问于2016-08-17得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云