腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
SQL
-
列
在
删除
后
可用
、
、
我正在尝试理解为什么我可以过滤之前
删除
的
列
。这个简单的脚本: package example import org.apache.
spark
.
sql
.functions.colobject Test { val
spark
= SparkSession.builderstartsWi
浏览 19
提问于2020-11-06
得票数 0
回答已采纳
1
回答
来自Azure
SQL
的数据库
Spark
条件拉取
、
、
、
、
我正在尝试使用
sql
-
spark
-connecter通过Azure Databricks从Azure
SQL
拉取数据。我已经
在
集群上安装了Maven库,并成功地
在
Databricks上运行此脚本以从示例数据库中拉出: server_name = "jdbc:sqlserver://(removed).database.windows.net理想情况下,我还希望只提取特定的
列
,但行是优先的。查看
可用
的Pyspark documentation
浏览 14
提问于2020-10-15
得票数 0
回答已采纳
3
回答
Spark
Dataframe中的重复列
、
、
、
、
我
在
hadoop集群中有一个10 in的csv文件,其中包含重复的
列
。= "com.databricks.
spark
.csv", mode = "DROPMALFORMED"但是由于df有重复的Email
列
,如果我想选择这一
列
select on 1422 failed Error in invokeJava(isStatic = FALSE, objId$id, methodName,
浏览 0
提问于2015-11-20
得票数 7
回答已采纳
1
回答
小数点(10,0)到十进制(38,18)转换无效的Databricks Delta表Alter
列
、
、
、
在
Databricks中,表是使用模式json定义创建的。
spark
.
sql
("CREATE TABLE {0} USING DELTA LOCATION '{1}'".format(tbl_name, tbl_path)) ...我正在使用readstreams从ORC文件中读取数据,其中使用了Decimal(38,18),可以
在
dataframe中使用printScehma()。$anonfun$recordDeltaOperation$5(DeltaLogging.sca
浏览 0
提问于2021-10-17
得票数 0
回答已采纳
3
回答
如何处理
spark
sql
中缺少的
列
、
、
我们正在处理无模式的JSON数据,有时
spark
作业会失败,因为我们
在
spark
SQL
中引用的一些
列
在
一天中的某些时间内不
可用
。在这些小时内,
spark
作业失败,因为所引用的
列
在数据帧中不
可用
。我尝试过UDF,但是我们缺少太多的
列
,所以不能真正地检查每一
列
的
可用
性。我还尝试
在
更大的数据集上推断模式,并将其应用于数据帧,期望缺少的
列</e
浏览 5
提问于2018-08-10
得票数 2
4
回答
在
同一
列
名上激发
SQL
查询联接
、
、
我必须在列上执行连接,该
列
在
两个dataframes中具有相同的名称。我如何在查询中编写它?= df1.join(df2, Seq("NAME"))中使用NAME作为公共
列
。对于此输出,dataframe将有ID, NAME, NAME, ACTUALNAME
列
。如何
删除
来自df2的额外NAME
列
。这不像
spark
.
sql
("select * from table1 LEFT OUTER JOIN table2 ON ta
浏览 8
提问于2019-10-31
得票数 0
回答已采纳
1
回答
函数从大型数据集中
删除
重复的
列
。
尝试
在
连接hdfs表
后
删除
pyspark df中的重复列名称? 您好,我正在尝试连接多个具有200+最终
列
数的数据集。由于要求和大量的
列
,我不能在连接时选择特定的
列
。有没有办法
在
连接
后
删除
重复的
列
。我知道有一种方法可以通过
spark
df的.join方法来做到这一点,但是我加入的基表不是
spark
df,并且我正在试图避免
在
join之前将它们转换为
spar
浏览 20
提问于2018-12-20
得票数 1
2
回答
如何通过
Spark
属性(
Spark
1.6)启用或禁用
spark
-shell中的配置单元支持?
、
、
、
有没有什么配置属性,我们可以
在
spark
1.6中通过
spark
-shell显式地设置它来禁用/启用配置单元支持。
浏览 3
提问于2017-07-20
得票数 6
回答已采纳
2
回答
使用
SQL
表达式
删除
Spark
中的重复列
、
、
在
Spark
中,我们如何在
删除
重复列的情况下运行
SQL
查询?例如,
在
spark
上运行的
SQL
查询left outer joinon a.id = b.id 在这种情况下,如何
删除
重复的
列
我知道我们可以
在
Spark
中使用其他步骤,比如提供遗憾或重命名列,但是有没有一种更快的方法来简单地通过编写
SQL
浏览 8
提问于2017-09-10
得票数 1
1
回答
无法
在
spark
中创建具有配置单元支持的
sql
上下文
、
、
在
spark
1.6中
在
/etc/
spark
/conf下创建软链接
后
,当我运行
spark
-shell时,它没有创建支持配置单元的
sql
上下文,并显示错误-“本地快照库不
可用
:此版本的hadoop是
在
没有我正在尝试创建具有配置单元支持的
sql
上下文,但无法执行此操作。
浏览 1
提问于2016-10-31
得票数 0
1
回答
无法使用
Spark
Structured Streaming覆盖默认值"
spark
.
sql
.shuffle.partitions“
、
、
我想直接在代码中覆盖
spark
.
sql
.shuffle.partitions参数: val sparkSession = SparkSession .appName("
SPARK
") sparkSession.conf.set("
spark
.
sql
.shuffle.partitions", 2) 但此设置不会生效,因为
在
日志中我收到以下警告消息: WARN OffsetSeqMet
浏览 39
提问于2021-04-30
得票数 2
1
回答
Java
Spark
Dataframe定长文件
、
我能够加载数据并追加新
列
。但是,无法保留旧的
列
列表。该
列
正在被覆盖。但是,我想要完整的
列
列表。+-----+--------+---+ import java.util.ArrayList;import org.apache.
spark
.
sql
.Dataset; import org.apache.
spar
浏览 22
提问于2019-07-24
得票数 1
1
回答
Spark
-
SQL
是否支持使用正则表达式规范的Except
列
的Hive Select All查询
、
、
、
、
我正在尝试使用
SPARK
-
SQL
和pyspark包装器来实现。我遇到了这个错误 given input columns:select `(qtr)?.+` from project.table; 使用以下属性
在
hive/beelin
浏览 1
提问于2018-09-27
得票数 3
3
回答
避免从
Spark
写入时丢失分区数据的数据类型
、
、
itemName, itemCategoryName2, 1在这种情况下,
在
作为分区写入之后,当回读时,结果数据帧的数据类型为itemCategory。
浏览 0
提问于2017-10-10
得票数 4
1
回答
为什么部分应用函数
在
两种类似场景中的行为不同
、
我正在创建一个函数,它将连接字符串、
SQL
查询和连接属性作为参数。 val readSqlData =
spark
.read.jdbc(connectionString,_:String,connectionProps) 现在,我试图创建一个可以作为助手函数从任何地方调用的函数,因此我们不必为我们创建的每个
SQL
语句传递连接字符串和连接属性,如下所示: import org.apache.
spark<
浏览 0
提问于2019-07-11
得票数 2
回答已采纳
2
回答
在
jdbc数据源上激发
SQL
持久视图
、
、
、
、
我想在
spark
中创建一个持久化(全局)视图,从底层jdbc数据库连接中获取数据。当我使用临时(会话范围)视图时,它工作得很好,如下所示,但是当我试图创建一个常规(持久和全局)视图时,它会失败。从技术上讲,我不明白为什么它不应该工作,因为数据是
在
临时视图中正确地从jdbc源检索的,因此,如果我想将查询“存储”
在
一个持久视图中,那么无论何时调用视图,它都可以直接从jdbc源检索数据。 dbtable '{tbl_in}', pass
浏览 14
提问于2022-10-27
得票数 0
回答已采纳
2
回答
如何在蜂窝表中插入具有映射
列
的数据帧
、
、
、
、
我有一个包含多个
列
的dataframe,其中一个
列
是map(string,string)类型。我能够打印这个数据,有列作为地图,给数据地图(“双关”-> "Pune")。我想要将这个dataframe写到hive表(存储为avro),该表具有与map类型相同的
列
。col("cname"))
删除
浏览 4
提问于2020-02-27
得票数 0
1
回答
使用无类型转换的空
列
写入时出错
后
,覆盖/
删除
Azure Databricks中的增量表
、
、
、
我
在
Azure Databricks中使用pyspark。, fnm, tnm, path):
spark
.
sql
(f'''select * ''').repartition(f'''DROP TABLE IF EXISTS {tnm}; ''')
spark
.
sql
(f'
浏览 24
提问于2021-10-23
得票数 1
回答已采纳
3
回答
如何从Databricks Delta表中
删除
列
?
、
、
、
、
我最近开始发现Databricks,并面临需要
删除
增量表的某一
列
的情况。当我使用PostgreSQL时,它就像DROP COLUMN metric_1; 我正在查看
删除
时的数据库,但它只覆盖了DELETE the我也找到了关于DROP database,DROP function和DROP table的文档,但完全没有关于如何从增量表中
删除
列
的文档。这里我漏掉了什么?是否有从增量表中
删除
列
的标准方法?
浏览 4
提问于2019-01-31
得票数 12
回答已采纳
1
回答
无法查看通过
Spark
SQL
创建的新数据
、
、
、
import java.
sql
.Dateimport org.apache.
spark
.
sql
.functions._ val newDF = df.withColumn("addressADD COLUMNS (ad
浏览 30
提问于2019-12-21
得票数 3
回答已采纳
点击加载更多
相关
资讯
Spark SQL在字节跳动数据仓库领域的优化实践
在Power BI中优化Power Query合并的性能:删除列
怎样用SQL语句在数据库中进行对表的列进行添加、修改、删除及添加约束
Moonbox#计算服务平台简介
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券