Select (如果不存在则忽略) for JSON logs Spark SQL

文章/答案/技术大牛

发布

1回答

json、apache-spark、apache-spark-sql、apache-spark-mllib、apache-spark-ml

我是Apache spark的新手，并尝试了一些关于这方面的POC。我正在尝试读取结构化的json日志，但一些字段并不总是有保证的，例如：{ "item": "A", "customerId": 123, "hasCustomerId": true,. . . }, { "item": "B", "hasCustomerId": false, . . .

浏览 12提问于2016-08-17得票数 2

1回答

在pyspark中处理JSON模式更改

pyspark、apache-spark-sql、pyspark-sql

我正在从s3桶中读取JSON日志数据。LogDNA在更改日志输出的模式方面臭名昭著，最近又这样做了。

浏览 0提问于2019-08-04得票数 0

回答已采纳

1回答

通过spark sql使用json serde访问配置单元表

json、apache-spark、hive、hive-serde

如何通过spark sql读取带有JSON serde的hive表。任何示例代码或文档都可以工作。

浏览 24提问于2020-05-19得票数 1

1回答

如何忽略Pyspark中不存在的路径

apache-spark、amazon-s3、pyspark、apache-spark-sql

我正在寻找一种从S3中读取一堆文件的方法，但路径可能不存在。我只想忽略路径不存在的事实，并处理所有可能的信息。最简单的方法是a)如果路径不存在，则忽略文件。b)检查路径是否存在。我试过sqlContext.sql("spark.sql.files.ignoreMissingFiles=true")，但似乎不起作用。有没有我错过的类似选项？

浏览 0提问于2021-11-17得票数 0

1回答

需要解析json文件

apache-spark、apache-spark-sql

id upd_ts km pivl distance speed type 1 12343.0000.012 AAGA1567 1333.333.333 565656 10.5 121 64 logs

浏览 0提问于2020-05-09得票数 0

回答已采纳

1回答

如何在struct中获取聚合列，选择spark？

apache-spark、pyspark、apache-spark-sql

的代码-SELECT DISTINCT GeneralInfo ,FROM target_object,

浏览 6提问于2021-08-17得票数 0

回答已采纳

1回答

如何从火花放电中的数据中选择行的范围

pyspark、apache-spark-sql

我有一个有10609行的dataframe，我希望一次将100行转换为JSON，并将它们发送回一个webservice。我尝试使用SQL的限制子句，如这将返回前100行，但如果我想要下100行，则尝试此操作，但没有工作。temptable = spark.sql("

浏览 0提问于2019-04-15得票数 4

3回答

如果存在表，则MySQL选择行计数

php、mysql

(在一条SQL-语句中)SELECT CASE ( (SELECT COUNT(*) FROM `information_schema`.COUNT(*) FROM `testTbl`) (SELECT 0)编辑：WHEN-part返回正确的值

浏览 2提问于2015-12-03得票数 3

回答已采纳

1回答

Spark HiveContext获取与配置单元客户端选择相同的格式

apache-spark、hive

当配置单元表有像映射或数组这样的值时，如果你在配置单元客户端选择它，它们会显示为JSON，例如：{"a":1,"b":1}或[1,2,2]。在Spark中选择这些对象时，它们是DataFrame中的贴图/数组对象。如果对每一行进行字符串化，则它们是Map("a" -> 1, "b" -> 1)或WrappedArray(1, 2, 2)。当我使用Spark的HiveContext时，我想

浏览 1提问于2018-07-20得票数 0

3回答

是否在读取/加载时将原始JSON保留为Spark DataFrame中的列？

json、apache-spark、apache-spark-sql

我一直在寻找一种将原始(JSON)数据作为列添加到Spark DataFrame中的方法。我有一种方法可以使用join来做到这一点，但我希望有一种方法可以使用Spark 2.2.x+在单个操作中做到这一点。= sc.textFile("/Users/vgk/data/tiny.json") // example data file不出所

浏览 0提问于2018-05-07得票数 6

1回答

如何在木星的一个单元格中创建多个临时表？

apache-spark、apache-spark-sql、jupyter-notebook、azure-hdinsight

temp3(Col varchar(32))== SQL ==在org.apache.spark.sql.catalyst.parser.

浏览 3提问于2017-05-12得票数 0

回答已采纳

3回答

INSERT IF NOT EXISTS ELSE UPDATE in Spark SQL

apache-spark、apache-spark-sql

在Spark SQL中是否有“如果不存在则执行INSERT”的规定。我有Spark SQL表"ABC“，其中有一些记录。然后，我有另一批记录要根据它们是否存在于该表中而插入/更新到该表中。我可以在SQL query中使用SQL命令来实现这一点吗？

浏览 8提问于2017-08-16得票数 3

1回答

如何阅读卡夫卡和打印记录，以控制台的结构化流在火星雨？

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我使用Spark2.4.3、Scala2.11.8、Java1.8，并使用这个spark-submit --packages org.apache.spark:spark-sql-kafka-0-10_(psf.from_json(psf.col('value'), schema).alias("SERVICE_CALLS")) distinct_table = service_table.selectrun_spark<

浏览 2提问于2019-08-04得票数 1

回答已采纳

2回答

火花:忽略或处理DataSet选择错误

java、apache-spark、apache-spark-sql

我们有带有嵌套字段的json数据。我试图使用以下json和代码来提取一些字段：final Dataset<Row> feed = completeRecord.sele

浏览 0提问于2018-03-15得票数 4

2回答

火花/ Scala-从Dataframe中有条件地选择列

scala、hadoop、apache-spark、hive

mobile2 || 3 | Lena | 123456798 |并希望执行类似于到目前为止我已经想出了 df_a.join(df_b, df_a("id") <=> df_b("id"), "left_outer").select

浏览 5提问于2017-03-13得票数 1

回答已采纳

2回答

在scala spark中处理灵活模式json时，如何处理缺少的列？

scala、apache-spark、apache-kafka、spark-streaming

使用spark streaming读取kafka消息，其中V= Json事件。Json的模式不是强制的，因此您可能会获取以下两个事件：{"foo": "01/01/1974"} 在字段不存在的情况下，如何使用read.json和df.registerTempTable(&quo

浏览 2提问于2018-03-07得票数 1

2回答

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

apache-spark-sql、hiveql、parquet

我需要从Spark创建一个Hive表，该表将采用拼花格式和快速压缩。下面的代码以拼花格式创建表，但使用GZIP压缩：hiveContext.sql("create table NEW_TABLE stored as parquet tblprop

浏览 3提问于2016-04-29得票数 4

回答已采纳

1回答

筛选星火中的有效和无效记录

json、apache-spark、dataframe、filter、pyspark

结果列的内容是一个JSON {"crawlDate": "2019-07-03 20:03:44", "Code": "200", "c1": "XYZ", "desc": "desc", "attributes

浏览 1提问于2019-07-11得票数 0

回答已采纳

1回答

在pyspark上导入python库

python、amazon-s3、amazon-ec2、apache-spark、pyspark

我认为使用xmlutils库将xml转换为json，然后使用sqlcontext库中的read.json (我确实有权访问该库)是可行的(如下所示)。converter = xml2json("S3 logs", "output.sql", encoding="utf-8")sqlContext = SQLConte

浏览 4提问于2015-11-19得票数 0

2回答

将字符串转换为Spark* (Hive)中的时间戳，日期时间无效*

scala、apache-spark、hive、timestamp

我正在尝试将一个字符串更改为时间戳，但是在我的区域中，3月的最后一个星期日凌晨2:00到3:00 不存在，并返回null。示例：+---null|only showi

浏览 3提问于2022-08-31得票数 1

回答已采纳

点击加载更多