腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(8890)
视频
沙龙
1
回答
Select
(
如果
不存在
则
忽略
) for
JSON
logs
Spark
SQL
json
、
apache-spark
、
apache-spark-sql
、
apache-spark-mllib
、
apache-spark-ml
我是Apache
spark
的新手,并尝试了一些关于这方面的POC。我正在尝试读取结构化的
json
日志,但一些字段并不总是有保证的,例如:{ "item": "A", "customerId": 123, "hasCustomerId": true,. . . }, { "item": "B", "hasCustomerId": false, . . .
浏览 12
提问于2016-08-17
得票数 2
1
回答
在pyspark中处理
JSON
模式更改
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在从s3桶中读取
JSON
日志数据。LogDNA在更改日志输出的模式方面臭名昭著,最近又这样做了。
浏览 0
提问于2019-08-04
得票数 0
回答已采纳
1
回答
通过
spark
sql
使用
json
serde访问配置单元表
json
、
apache-spark
、
hive
、
hive-serde
如何通过
spark
sql
读取带有
JSON
serde的hive表。任何示例代码或文档都可以工作。
浏览 24
提问于2020-05-19
得票数 1
1
回答
如何
忽略
Pyspark中
不存在
的路径
apache-spark
、
amazon-s3
、
pyspark
、
apache-spark-sql
我正在寻找一种从S3中读取一堆文件的方法,但路径可能
不存在
。我只想
忽略
路径
不存在
的事实,并处理所有可能的信息。最简单的方法是a)
如果
路径
不存在
,
则
忽略
文件。b)检查路径是否存在。我试过sqlContext.
sql
("
spark
.
sql
.files.ignoreMissingFiles=true"),但似乎不起作用。有没有我错过的类似选项?
浏览 0
提问于2021-11-17
得票数 0
1
回答
需要解析
json
文件
apache-spark
、
apache-spark-sql
id upd_ts km pivl distance speed type 1 12343.0000.012 AAGA1567 1333.333.333 565656 10.5 121 64
logs
浏览 0
提问于2020-05-09
得票数 0
回答已采纳
1
回答
如何在struct中获取聚合列,选择
spark
?
apache-spark
、
pyspark
、
apache-spark-sql
的代码-
SELECT
DISTINCT GeneralInfo ,FROM target_object,
浏览 6
提问于2021-08-17
得票数 0
回答已采纳
1
回答
如何从火花放电中的数据中选择行的范围
pyspark
、
apache-spark-sql
我有一个有10609行的dataframe,我希望一次将100行转换为
JSON
,并将它们发送回一个webservice。我尝试使用
SQL
的限制子句,如这将返回前100行,但
如果
我想要下100行,
则
尝试此操作,但没有工作。temptable =
spark
.
sql
("
浏览 0
提问于2019-04-15
得票数 4
3
回答
如果
存在表,
则
MySQL选择行计数
php
、
mysql
(在一条
SQL
-语句中)
SELECT
CASE ( (
SELECT
COUNT(*) FROM `information_schema`.COUNT(*) FROM `testTbl`) (
SELECT
0)编辑:WHEN-part返回正确的值
浏览 2
提问于2015-12-03
得票数 3
回答已采纳
1
回答
Spark
HiveContext获取与配置单元客户端选择相同的格式
apache-spark
、
hive
当配置单元表有像映射或数组这样的值时,
如果
你在配置单元客户端选择它,它们会显示为
JSON
,例如:{"a":1,"b":1}或[1,2,2]。在
Spark
中选择这些对象时,它们是DataFrame中的贴图/数组对象。
如果
对每一行进行字符串化,
则
它们是Map("a" -> 1, "b" -> 1)或WrappedArray(1, 2, 2)。当我使用
Spark
的HiveContext时,我想
浏览 1
提问于2018-07-20
得票数 0
3
回答
是否在读取/加载时将原始
JSON
保留为
Spark
DataFrame中的列?
json
、
apache-spark
、
apache-spark-sql
我一直在寻找一种将原始(
JSON
)数据作为列添加到
Spark
DataFrame中的方法。我有一种方法可以使用join来做到这一点,但我希望有一种方法可以使用
Spark
2.2.x+在单个操作中做到这一点。= sc.textFile("/Users/vgk/data/tiny.
json
") // example data file不出所
浏览 0
提问于2018-05-07
得票数 6
1
回答
如何在木星的一个单元格中创建多个临时表?
apache-spark
、
apache-spark-sql
、
jupyter-notebook
、
azure-hdinsight
temp3(Col varchar(32))==
SQL
==在org.apache.
spark
.
sql
.catalyst.parser.
浏览 3
提问于2017-05-12
得票数 0
回答已采纳
3
回答
INSERT IF NOT EXISTS ELSE UPDATE in
Spark
SQL
apache-spark
、
apache-spark-sql
在
Spark
SQL
中是否有“
如果
不存在
则
执行INSERT”的规定。 我有
Spark
SQL
表"ABC“,其中有一些记录。然后,我有另一批记录要根据它们是否存在于该表中而插入/更新到该表中。我可以在
SQL
query中使用
SQL
命令来实现这一点吗?
浏览 8
提问于2017-08-16
得票数 3
1
回答
如何阅读卡夫卡和打印记录,以控制台的结构化流在火星雨?
apache-spark
、
pyspark
、
apache-kafka
、
spark-structured-streaming
我使用
Spark
2.4.3、Scala2.11.8、Java1.8,并使用这个
spark
-submit --packages org.apache.
spark
:
spark
-
sql
-kafka-0-10_(psf.from_
json
(psf.col('value'), schema).alias("SERVICE_CALLS")) distinct_table = service_table.
select
run_
spark<
浏览 2
提问于2019-08-04
得票数 1
回答已采纳
2
回答
火花:
忽略
或处理DataSet选择错误
java
、
apache-spark
、
apache-spark-sql
我们有带有嵌套字段的
json
数据。我试图使用以下
json
和代码来提取一些字段:final Dataset<Row> feed = completeRecord.
sele
浏览 0
提问于2018-03-15
得票数 4
2
回答
火花/ Scala-从Dataframe中有条件地选择列
scala
、
hadoop
、
apache-spark
、
hive
mobile2 || 3 | Lena | 123456798 |并希望执行类似于到目前为止我已经想出了 df_a.join(df_b, df_a("id") <=> df_b("id"), "left_outer").
select
浏览 5
提问于2017-03-13
得票数 1
回答已采纳
2
回答
在scala
spark
中处理灵活模式
json
时,如何处理缺少的列?
scala
、
apache-spark
、
apache-kafka
、
spark-streaming
使用
spark
streaming读取kafka消息,其中V=
Json
事件。
Json
的模式不是强制的,因此您可能会获取以下两个事件:{"foo": "01/01/1974"} 在字段
不存在
的情况下,如何使用read.
json
和df.registerTempTable(&quo
浏览 2
提问于2018-03-07
得票数 1
2
回答
Spark
忽略
TBLPROPERTIES中指定的parquet.compression属性
apache-spark-sql
、
hiveql
、
parquet
我需要从
Spark
创建一个Hive表,该表将采用拼花格式和快速压缩。下面的代码以拼花格式创建表,但使用GZIP压缩:hiveContext.
sql
("create table NEW_TABLE stored as parquet tblprop
浏览 3
提问于2016-04-29
得票数 4
回答已采纳
1
回答
筛选星火中的有效和无效记录
json
、
apache-spark
、
dataframe
、
filter
、
pyspark
结果列的内容是一个
JSON
{"crawlDate": "2019-07-03 20:03:44", "Code": "200", "c1": "XYZ", "desc": "desc", "attributes
浏览 1
提问于2019-07-11
得票数 0
回答已采纳
1
回答
在pyspark上导入python库
python
、
amazon-s3
、
amazon-ec2
、
apache-spark
、
pyspark
我认为使用xmlutils库将xml转换为
json
,然后使用sqlcontext库中的read.
json
(我确实有权访问该库)是可行的(如下所示)。converter = xml2
json
("S3
logs
", "output.
sql
", encoding="utf-8")sqlContext = SQLConte
浏览 4
提问于2015-11-19
得票数 0
2
回答
将字符串转换为
Spark
(Hive)中的时间戳,日期时间无效
scala
、
apache-spark
、
hive
、
timestamp
我正在尝试将一个字符串更改为时间戳,但是在我的区域中,3月的最后一个星期日凌晨2:00到3:00
不存在
,并返回null。示例:+---null|only showi
浏览 3
提问于2022-08-31
得票数 1
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券