腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
spark
SQL
读取
带有
分号
的
Spark
列
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
、
azure-databricks
我正在尝试
使用
Spark
SQL
从包含;(
分号
)
的
数据帧中
读取
列
。该
列
的
名称为Profit & Gain。当我查询模式时,列名
的
显示方式是相同
的
,但是当我尝试
使用
select子句查询
列
时,我无法
使用
它。
spark
.createDataFrame([[1,2],[2,3]], ["id", &q
浏览 231
提问于2021-10-02
得票数 0
1
回答
用星火
读取
欧洲格式
的
.csv数据
scala
、
csv
、
apache-spark
、
syntax
我想
读取
带有
.csv对象
的
SQLContext文件,但是
Spark
不会提供正确
的
结果,因为文件是欧洲
的
(逗号作为十进制分隔符,
分号
用作值分隔符)。有没有一种方法可以告诉
Spark
遵循不同
的
.csv语法?conf) .format("org.apache.
spark</e
浏览 4
提问于2016-11-21
得票数 4
回答已采纳
1
回答
强制
spark
.read()和inferSchema=True一起设置不可空
的
数值
列
scala
、
apache-spark
、
nullable
在
读取
带有
推断模式
的
文件(
使用
Spark
2.0)之后:
spark
= SparkSession.builder.appName('foo').getOrCreate() 所有
列
(string和numeric )都是可
浏览 3
提问于2017-09-14
得票数 2
1
回答
如何从拼花地板的当前日期开始
读取
最近N天
的
最后天数
scala
、
apache-spark
我已经用partition by date类型
列
将数据以拼图文件格式保存在仓库中。文件数据保存方式与仓库路径类似。Tespath/filename/dt=2020-02-28 如果我
读取
所有的数据,它
的
数据量是非常大
的
。
浏览 14
提问于2020-02-24
得票数 1
回答已采纳
1
回答
如何在
spark
sql
中设置配置单元参数和多个语句
apache-spark
、
apache-spark-sql
我有一个拼图面板表,该表包含一个
带有
新行数据
的
列
。现在,我正在迁移此参数和MR查询,以便在
spark
sql
中运行。此外,我还想在实际查询之前运行一些其他查询,如drop table语句。我
的
代码如下所示
spark
.
sql
(set hive.query.result.fileformat=SequenceFile;drop table output_table; create tableoutput_table stored as orc as se
浏览 10
提问于2018-08-08
得票数 0
2
回答
使用
spark
.read对Server表
读取
错误(通过JDBC连接)
sql-server
、
apache-spark
、
apache-zeppelin
当我试图创建直接从
SQL
表
读取
数据时,Zeppelin中出现了一个问题。问题是,我不知道如何
读取
带有
地理类型
的
SQL
列
。 import
spark
.implicits._ val postcode_polygons =
spark
.java.<e
浏览 7
提问于2019-10-23
得票数 2
2
回答
星火壳按分区加载现有的蜂窝表?
scala
、
apache-spark
、
apache-spark-sql
、
spark-shell
在
spark
-shell中,如何加载现有的Hive表,但只加载其中
的
一个分区?val df =
spark
.read.format("orc").load("mytable")谢谢!
浏览 19
提问于2020-04-30
得票数 0
回答已采纳
2
回答
SQL
语句中
的
Databricks错误: AnalysisException:无法解析给定
的
输入列“``”:
sql
、
pyspark
、
databricks
我不确定我是否属于这个问题
的
正确组。我在Databricks中创建了以下
sql
代码,但是我得到了错误消息; 我知道这些代码
的
工作原理是因为我已经成功地在我
的
Server上运行了代码,代码
浏览 0
提问于2018-12-23
得票数 1
回答已采纳
2
回答
如何
使用
pyspark从文件中查找分隔符
python
、
apache-spark
、
pyspark
、
delimiter
有没有办法找到分隔符并
使用
spark
read
读取
该文件。基本上,我想
使用
spark
read从文件中
读取
数据csv_data =
spark
.read.load("path of file", format
浏览 1
提问于2020-04-05
得票数 1
1
回答
不具有分区
列
性能
的
火花下推滤波器
apache-spark
我有一个关于
spark
中
的
过滤
的
问题,当你不在过滤器中包括分区
列
时。假设我有以下按日期分区
的
数据: part-0001.parquet数据有一个名为"action“
的
列
,其中大约30%
的
数据值为0,其余
的
数据值为1
spark
.read.parquet(&
浏览 2
提问于2020-08-02
得票数 0
1
回答
用
spark
读取
多重json模式
json
、
scala
、
amazon-web-services
、
hadoop2
、
amazon-emr
json模式
读取
, 抛出一个错误org.apache.
spark
.
sql
.AnalysisException: Unable to infer schema for JSON.It must be specified manually.
浏览 0
提问于2018-06-08
得票数 4
1
回答
如何在SparkContext中处理dash
的
SQL
请求
sql
、
apache-spark
我在
spark
上下文中
使用
此
SQL
请求:我得到了一个例外:
浏览 6
提问于2017-01-03
得票数 1
1
回答
通过另一
列
的
值初始化列表
cassandra
我在Cassandra DB中有一个表,其中有一些
列
,例如: id (text), ..., data (text).出于迁移
的
目的,我需要将“数据”
的
值复制到一个新
列
:data_list (list<text>)。如何通过data_list
列
中
的
值初始化data
列
?这个是可能
的
吗?
浏览 2
提问于2021-06-13
得票数 1
回答已采纳
3
回答
避免从
Spark
写入时丢失分区数据
的
数据类型
apache-spark
、
spark-dataframe
、
parquet
我想将此数据帧保存为分区拼接文件:对于这个数据帧,当我读回数据时,它
的
数据类型是itemCategory
的
字符串。然而,有时我会收到来自其他租户
的
数据帧,如下所示。itemName, itemCategoryName2, 1在这种情况下,在作为分区写入之后,当回读时,结果数据帧
的
数据类型为itemCateg
浏览 0
提问于2017-10-10
得票数 4
1
回答
Spark
无法
读取
由AvroParquetWriter写入
的
拼图文件中
的
十进制
列
apache-spark
、
parquet
、
apache-kafka-connect
、
s3-kafka-connector
我有一些拼图文件写
使用
AvroParquetWriter (从卡夫卡连接S3连接器)。 文件aseg_lat中
的
一
列
具有模式DECIMAL(9, 7)。尝试通过在AWS EMR上运行
的
Spark
3.0.0
读取
它时,我收到以下错误: scala> var df2 = df.select("aseg_lat") df2: org.apache.
spark
.
sql
.DataFrame这允许我
读取
DECIMAL<e
浏览 106
提问于2020-08-25
得票数 2
回答已采纳
1
回答
如何
使用
Spark
从mariadb
读取
数据
java
、
apache-spark
、
jdbc
、
apache-spark-sql
、
mariadb
我需要
使用
从MariaDB
读取
一个表。import java.io.InputStream;import org.apache.
spark
.
sql
.Dataset; impor
浏览 1
提问于2018-10-09
得票数 1
2
回答
对具有字符串列且值看起来为数字
的
数据集进行分区和存储。当它再次被
读取
时,数据仍然是“字符串”,但丢失了零。
java
、
apache-spark
、
apache-spark-sql
在
Spark
3.0.2中,我在一个拼花文件中编写一个Dataset。# schema() :它可见于这个show()输出
的
最后三分之一(城市名称大写前
的
三
列
),并具有"01"在阅读
的
时候,我尝试从那家商店
读取
内容。搜索以"01"开头
的
城市代码(在法国以部门代码开头):
读取
适当
的
拼花文件和块: 2021
浏览 1
提问于2021-03-24
得票数 2
回答已采纳
2
回答
如何
使用
单个文件
的
多个
SQL
查询执行hql文件?
scala
、
hadoop
、
apache-spark
、
hive
、
apache-spark-sql
我有hql文件,它有大量
的
单元查询,我想
使用
Spark
执行整个文件。通常,为了执行单独
的
查询,我们这样做:但是,当我们有具有数百个查询
的
hql文件时,我常常这样做。filename = &quo
浏览 2
提问于2017-11-30
得票数 3
回答已采纳
2
回答
用
spark
.
sql
包装语句会引发解析异常,但
使用
%
sql
魔术命令可以正常运行
apache-spark-sql
、
azure-databricks
、
databricks-sql
TIMESTAMP) LOCATION '/mnt/adls/DQD/udl/Invoices/'; ALTER TABLE Invoices ADD COLUMN DQ_Check_Op SMALLINT" 但是,
使用
神奇
的
命令,在一个单元格内,它运行得很好:CREATE OR REPLACE TABLE Invoices (InvoiceID INT, Cust
浏览 9
提问于2022-06-06
得票数 0
回答已采纳
1
回答
使用
PySpark从Blob存储容器加载CSV文件
csv
、
apache-spark
、
pyspark
、
azure-blob-storage
我无法
使用
Jupyter Notebook中
的
PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题
的
答案,但我还没有找到关于我想要做什么
的
具体说明。我知道我也可以
使用
Pandas将数据加载到Notebook中,但之后我需要将Panda DF转换为RDD。我理想
的
解决方案应该是这样
的
,但是这个特定
的
代码给我
的
错误是它不能推断出CSV
的
模式。#Load Da
浏览 21
提问于2019-04-28
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
教程:Apache Spark SQL入门及实践指南!
Zzreal的大数据笔记-SparkDay04
英雄惜英雄-当Spark遇上Zeppelin之实战案例
Spark SQL在字节跳动数据仓库领域的优化实践
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券