java.lang.NumberFormatException:输入字符串："inf“，读取Spark的雪花

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我有一个Snowflake表，它有一个双精度的列。其中一个值是inf和-inf。当我尝试在Spark中读取该表时，作业失败，并显示以下错误： at sun.misc.FloatingDecimal.readJavaFormatStringjava.util.concurrent.ThreadPoolExecutor$Worker.

浏览 18提问于2020-02-12得票数 1

回答已采纳

1回答

来自单个操作的多个作业(读、转换、写入)

、、、、

目前使用PySpark on 数据库、交互式集群(与一起提交作业)和雪花作为输入/输出数据。我的Spark应用程序应该从雪花读取数据，应用一些简单的SQL转换(主要是F.when.otherwise、窄转换)，然后将其加载回雪花。(FYI，模式被传递给雪花阅读器和作家) 编辑:在编写之前，在过程的末尾也有一个排序转换。我可以理解，我只有一个Spark，所以假设有一个作业，所以Spa

浏览 5提问于2021-11-30得票数 3

回答已采纳

3回答

对hive表中的大型数据集执行Spark* select查询失败*

、、、、

我的以下代码是使用spark从hive表中读取数据。该表中有1亿条记录。当我在Rdd中选择这么多记录并尝试执行result.show()时，它给出了严重的问题异常。我基本上是想通过从这个表中选择几列来插入其他表中的记录，以获得1亿条记录集。下面是我的代码：import org.apache.spark.sql._ val sqlContext = new org.apac

浏览 0提问于2017-11-07得票数 1

2回答

此SparkContext可能已存在。错误

我在notebook中使用了spark2.0，这是初始设置： .appName("NewApp") \ .config("spark.serializer", "org.apache.spark.serializer.KryoSeriali

浏览 0提问于2016-12-06得票数 1

1回答

不支持查询下推，因为您使用的是Spark3.2.1和一个设计用于支持Spark3.1的连接器

、、

当我执行我的电火花代码时，我会收到这个警告。我正在写从S3到雪花。我的雪花火花缭乱的包裹net.snowflake:spark-snowflake_2.12:2.9.2-spark_3.1我的本地火花放电版本是Hadoop version 3.3.1WARN SnowflakeConnectorUtils$

浏览 8提问于2022-03-12得票数 0

2回答

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.tablesnowflake.sql_cont

浏览 26提问于2019-05-30得票数 1

1回答

在阅读电火花数据时过滤雪花表的行

、

我有一张巨大的雪花桌。我想在桌面上做一些转换。我的雪花表有一个名为“快照”的列。我只想读取pyspark中的当前快照数据，并对过滤后的数据进行转换。那么，是否有一种方法可以应用于在中读取雪花表时对行进行过滤(我不想在内存中读取整个雪花表，因为它没有效率)，还是需要读取整个雪花表(在中)，然后应用筛选器获取以下内容的最新快照？SNOWFLAKE_S

浏览 2提问于2022-03-16得票数 0

回答已采纳

1回答

Snowflake : SQL访问控制错误:权限不足，无法对架构进行操作

、、

我已经编写了aws glue job，我试图将雪花表作为spark数据帧读取，并尝试将spark数据帧写入snowflake表。在这两种情况下，我的工作都无法显示“操作模式的权限不足”。但是当我在雪花cli上直接写insert语句时，我能够插入数据。所以基本上我有插入权限。那么，当我尝试从dataframe中插入数据或从snowflake表中读取数据作为dataframe时，我的作业为什么会失败呢？下面是我将数据写入雪花</

浏览 0提问于2019-02-09得票数 0

1回答

无法解析维基百科数据的星火Scala : enwiki_latest_articles xml bz2

、、、

我试图使用spark算法对维基百科数据进行主题建模:输入文件基本上是一个包含大量xml文件的大型bz2文件。我在spark网站上使用了基本的spark代码：val ssqlc:SQLContext = new org.apache.spark.sql.SQLContext中的任务5.0中的异常:空字符串16/07&

浏览 4提问于2016-07-28得票数 0

2回答

当使用星星之交从google dataproc星火集群读取GCP中的JSON(压缩.gz)时，没有使用所有的执行器。

、、、、

我有~5 GB size JSON文件(压缩，gz文件)，其中包含~500万记录，我需要读取每一行并只处理满足一定条件的行。这是我正在使用的火花提交命令：job.py： path = "gs://dataproc-bucket/json-files&#x

浏览 1提问于2019-06-12得票数 4

回答已采纳

2回答

PySpark在运行显示时抛出UnicodeEncodeError

、

position 2978: ordinal not in range(256)sf_cursor.execute(query)df = self.spark_sql_context.createDataFrame(results, DF_SCHEMA)input_df = spark_sql_context.read.parq

浏览 11提问于2022-03-16得票数 0

1回答

雪花中修改的用户输入值

我需要读取用户传递的字符串，然后修改字符串以获得所需的格式，并将其作为where条件传递给视图。匹配(“BOM_PATH”，'12345')或匹配(“BOM_PATH”，'78990')或匹配(“BOM_PATH”，'456789') 因此，基本上，我需要将所有材料从输入

浏览 3提问于2021-03-29得票数 0

1回答

在REGEXP_SUBSTR中是否有“SnowFlake”的“PySpark”？

、、、

在PySpark/spark-sql中是否有相当于雪花的spark-sql这里有一个指向的链接。这里有一个指向的链接。更具体地说，我正在寻找position、occurrence和regex parameters的替代品，它们都是由雪花的REGEXP_SUBSTR支持的。位

浏览 7提问于2020-09-15得票数 0

回答已采纳

2回答

当AWS胶写入雪花表时出错

、、、

我试着用雪花从一张桌子上读到数据，并试图把它写回来！我能够连接到雪花，以数据的形式读取数据，但不能将数据写回表。连接到雪花的代码from awsglue.transforms import *from_jvm.net.snowflake.spark.snowflake spark.at net.snowflake.client.jdbc.

浏览 5提问于2022-08-10得票数 0

2回答

将PCA应用于Apache的特定列

、、

我试图将PCA应用于包含头和字段的数据集，这里是我使用的代码，任何帮助都可以选择我们应用PCA的特定列。val projected: RowMatrix = mat.multiply(pc)val spark = SparkSession.builder.master("local").appName("my-spark-app").getOrCreate() val dataframe = spark</

浏览 3提问于2017-06-01得票数 0

回答已采纳

1回答

使用spark将数据写入雪花的性能问题

、、、

我试图从AWS RDS系统读取数据，并使用火花写入雪花。我的SPARK工作与RDS建立了JDBC连接，并将数据提取到数据中；另一方面，我使用雪花连接器向雪花写入相同的数据。问题陈述:当我试图编写数据时，即使是30 GB的数据也要花很长的时间来编写。1)在编写前对数据进行重新划分。 2)缓存数据。3)在写入前进行df计数，减少写入时的扫描时间。

浏览 1提问于2018-05-02得票数 1

1回答

Java数字格式异常

、、、

首先我使用Scanner来处理输入，然后使用BufferedReader。但他们都没用！这是我的代码：import java.util.*;import java.math.*; import java.util.regex输入->输入的第一行包含一个表示测试用例数量的整数T。对T测试用例的描述如下。->每个测试用例的第一行(也是唯一行)包含一个表示引号

浏览 2提问于2019-01-05得票数 0

回答已采纳

1回答

如何在星火/Scala中将数据格式的日期值传递给查询

、、、

我正在从“雪花”中的存储表中读取数据。我希望将日期从dataframe maxdatefromtbl传递给我在spark中的查询，以筛选记录。此条件(s"CREATED_DATE!var retail = spark.read.format("snowflake").options(options).option("query","Select MAX(CREATED_DATE)from RSTORE").load()

浏览 4提问于2022-10-26得票数 0

回答已采纳

3回答

由Spark读取表头引起的java.lang.NumberFormatException

、、、、

我试图使用Spark的JDBC访问存储在远程集群上的表(ORC格式)： .format("jdbc") 由: org.apache.hive.jdbc.HiveBaseResultSet.getLong(HiveBaseResultSet.java:372)：无法将第2列的转换为long: java.lang.NumberFormatException</

浏览 5提问于2017-05-03得票数 3

2回答

Apache Spark* (PySpark)在读取CSV时处理空值*

、、、

我在试着读取交通部的飞行数据。它存储在CSV中，并不断获取java.lang.NumberFormatException: nullspark = SparkSession.builder \ .appName('Flight Delay') \ .getOrCreate.

浏览 10提问于2017-02-20得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云