腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scala
和
spark-sql
计算
表
统计
信息
scala
、
apache-spark-sql
我在公司糟糕的数据环境中
使用
Spark 2.4.0
和
scala
2.11.12。在我的项目中,我创建了许多包含大量数据的
表
。现在,我想
计算
我创建的
表
的
统计
数据。我发现以下
scala
/spark sql语句可以做到这一点: // example 1 val res = spark.sql("ANALYZE TABLE mytablename COMPUTE STATISTICS在exmample /
浏览 59
提问于2020-07-06
得票数 0
1
回答
我能否获取存储在Azure Databricks上的文件的元数据或文件的状态
azure
、
azure-active-directory
、
databricks
我希望有一些通用的脚本,可以运行给出
统计
文件(主要是CSV格式)。我知道在SQL Server中获取
表
的各种
统计
数据非常容易,SQL Server也是Microsoft的一款产品。或者,也许可以生成某种类型的报告来显示文件的元数据、
统计
数据等。最终,我希望获得文件名、文件大小的列表,如果可能的话,还有字段中的空值计数
和
所有字段、所有文件中的空值的总数。谢谢。
浏览 8
提问于2019-06-21
得票数 1
回答已采纳
3
回答
如何在没有
Scala
的情况下测试Spark SQL查询
scala
、
cassandra
、
apache-spark
、
datastax-enterprise
、
apache-spark-sql
目前,我不得不打开Spark控制台并输入
Scala
命令,这真的很单调乏味,而且容易出错。类似于:
scala
> query.collect().foreach(println) 特别是对于更长的查询如何在不
使用
控制台或编写自己的应用程序的情况下测试spark查询?
浏览 0
提问于2015-05-18
得票数 2
2
回答
如何在Spark
Scala
中将Hive
表
的
表
状态转换为Dataframe
sql
、
scala
、
apache-spark
、
hive
、
apache-spark-sql
我正在做一个关于Spark
scala
的项目,我可以将一个Hive
表
的
表
统计
数据放到一个Dataframe中进行进一步的
计算
吗?我可以
使用
下面的命令查看表的
信息
“显示
表
统计
信息
table_name” 但我能把这些
信息
放到数据框里吗。谢谢
浏览 38
提问于2019-09-20
得票数 1
3
回答
如何在hive或impala中
计算
表
统计
数据,以加快Spark中的查询?
apache-spark
、
hive
、
apache-spark-sql
、
impala
为了提高性能(例如对于联接),建议首先
计算
表
静力学。)是否也从预先
计算
的
统计
数据中受益?他们都在保存蜂巢亚稳态的
统计
数据吗?我在Cloudera 5.5.4上
使用
spark 1.6.1 注意:在参数的Spark1.6.1( spark.sql.autoBroadcastJoinThreshold )文档中,我找到了一个提示:请注意,目前只支持Hive
表
的
统计
信息
,其中运行了命令。
浏览 6
提问于2016-09-22
得票数 11
1
回答
火花壳
和
火花sql有什么区别?表现有什么不同吗?
apache-spark
、
apache-spark-sql
Spark-shell:它基本上打开了
scala
>提示符。Queries are expressed in HiveQL
spark-sql
浏览 7
提问于2017-05-01
得票数 6
回答已采纳
1
回答
CDH5.4.2火花可以在火花壳中
使用
HiveContent,但不能打开火花-sql
apache-spark
、
cloudera-cdh
、
hivecontext
我
使用
的是CDH5.4.2的火花(独立的) org.apache.spark.sql.hive.HiveContext@6c6f3a15
scala
> hiveContext =新的org.apache.spark.sql.hive.HiveContext(sc);hiveContext: org.apache.spark.sql.hive.HiveContext=
scala
> hi
浏览 8
提问于2016-07-26
得票数 0
1
回答
如何向
Scala
添加依赖文件?
eclipse
、
scala
、
scala-ide
我是
Scala
和
Spark的新手,并且开始用
Scala
IDE (在Eclipse中)编写一个简单的Apache Spark程序。
浏览 5
提问于2015-07-11
得票数 1
2
回答
如何
使用
Impala运行来自单元
表
的列子集上的
计算
统计
数据?
hadoop
、
hive
、
impala
我有一个很长很宽的蜂巢
表
,需要花费大量的时间来返回查询结果。因此,我尝试在
表
上
使用
“
计算
统计
”,但是由于
表
的宽度,这个操作经常超时。因此,我想知道是否有一种在select列上运行“
计算
统计
”的方法?
浏览 2
提问于2020-06-09
得票数 3
回答已采纳
2
回答
Oracle解释计划中关于成本的问题
sql
、
performance
、
oracle
、
optimization
例如: 如果我对employees执行全
表
扫描,查找name='Bob',它是通过
计算
现有行的数量来估计成本,还是总是设置成本?
浏览 0
提问于2010-04-06
得票数 2
回答已采纳
2
回答
如果oracle数据库中的
表
为空时收集了
统计
信息
,那么恢复该
表
的原始
统计
信息
的方法是什么?
sql
、
database
、
oracle
、
performance
、
query-optimization
这里讨论的
表
的工作方式如下:假设这里讨论的
表
是
表
A,还有另外两个
表
B
和
C。
表
C首先接收来自外部系统的所有数据。然后将数据传输到
表
B,在
表
B中对其进行处理,并在
表
A.As中创建该数据的副本。数据继续在
表
B中处理,A
和
B中的数据状态都会更改。一旦所有数据在
表
B中得到处理,
表
就会从
表
A中删除。 因此,基本上表A对要由
表
B处理的数据进行
浏览 1
提问于2019-09-15
得票数 2
2
回答
通过分区交换加载
表
(Oracle 10g)
oracle
、
statistics
、
oracle10g
、
partitioning
一个构建要加载到分区
表
中的新数据
表
,然后在这个新
表
上构建索引。 应该
使用
计算
统计
选项构建索引,还是
使用
DBMS_Stats?Should的Cascade选项,在交换之前在
表
上或交换之后在分区上收集
统计
数据?如果在交换之后进行,并且在参数列表中指定分区名称,那么粒度参数有什么相互作用?例如,如果我指定了一个分区名称,然后将粒度设置为“全局
和
分区”,那么这样做完全可以吗?它只执行一个分区吗?
浏览 7
提问于2008-10-03
得票数 2
回答已采纳
1
回答
Spark
Scala
拆分字符串语法问题
apache-spark
、
apache-spark-sql
我尝试
使用
SparkSQL
和
Scala
拆分DataFrame列中的字符串,这两种拆分条件的工作方式似乎有所不同
使用
Scala
, 这是可行的- val seq = Seq("12.1")val df = seq.toDF("val") val afterSplit = df2.withCo
浏览 18
提问于2019-01-08
得票数 0
回答已采纳
1
回答
我们可以在不分解hive/spark中的行的情况下进行汇总或多维数据集吗
apache-spark
、
hive
、
rollup
、
grouping-sets
我在一个hive
表
上聚合了4个维度(数百亿行),它们需要卷起来或立方。假设我的
表
是关于用户交互的,我将汇总他们
使用
的移动应用程序,他们
使用
的移动操作系统,等等。我的自定义解决方案是有一个临时
表
,首先在其中聚合用户id
和
4个维度,然后执行汇总。
浏览 23
提问于2019-05-09
得票数 0
回答已采纳
0
回答
Object sql不是package org.apache.spark的成员
sql
、
scala
、
apache-spark
、
sbt
、
apache-spark-sql
我正在尝试
使用
spark-sql
,但在导入时获取以下错误:以下是我的详细
信息
:这是我的build.sbt文件:version := "1.0"
浏览 3
提问于2017-12-06
得票数 2
1
回答
多项目sbt-装配问题
scala
、
apache-spark
、
sbt
、
sbt-assembly
我正在尝试创建一个包含两个主要类的项目-- SparkConsumer
和
KafkaProducer。为此,我在sbt文件中引入了多项目结构。消费者
和
生产者模块分别用于不同的项目,核心项目包含生产者
和
消费者都
使用
的实用程序。Root是主项目。还引入了通用设置
和
库依赖项。但是,由于某些原因,该项目无法编译。com.fasterxml.jackson.core" % "jackson-databind" % "2.9.5", "com.faster
浏览 96
提问于2018-06-05
得票数 3
1
回答
创建spark会话时的NoSuchMethodError
scala
、
apache-spark
<init>(SQLConf.
scala
:1011) at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.
scala
:938) 类似的错误已经在这里发布:Error while using SparkSession or sqlcontext 我对spark-core<em
浏览 104
提问于2021-10-20
得票数 1
1
回答
SQL Server索引
使用
情况
统计
信息
多久更新一次?更新的原因是什么?
statistics
、
sql-server-2012
、
indexing
我知道有一个函数STATS_DATE()可以知道
统计
数据在哪里更新,这很好,但我想知道的是,是什么触发了此
统计
数据的更新或截止。我知道也有这方面的报道。但上周我看到了某些服务器上的
统计
数据,它们为我提供了非常好的
信息
,这个特定数据库中的主表有4位数。因此,我想知道在哪里可以设置此设置,以便服务器不断累积索引
使用
情况
统计
数据,直到我清除日志或它
使用
的任何存储。
浏览 0
提问于2012-12-04
得票数 3
回答已采纳
1
回答
Spark read as jdbc将所有行作为列名返回
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
我在
Scala
2.12中
使用
Spark 3.x SQL查询Spark的数据库
表
。我遵循了互联网上给出的例子。create table example( tutorial_title VARCHAR(22) NOT NULL) ; var example= spark.read.format我的
表
有3行。我尝试更改了db中的行数,并且我的输出也相应地发生了变化。
浏览 4
提问于2020-07-31
得票数 4
2
回答
组合delta.io
和
spark-bigquery 0.15.x-测试版的问题
scala
、
apache-spark
、
google-bigquery
、
jackson-modules
、
delta-lake
我不能
使用
增量形式进行读写。您可以在这里找到一个
使用
增量格式编写数据帧的最小示例:import org.apache.spark.sql.SparkSession 如果我
使用
下面的配置delta-gcs&q
浏览 16
提问于2020-05-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据方向实习生到底该做些什么?
全方位对比:Python、Julia、MATLAB、IDL 和 Java (2019 版)
2018年数据科学前15名的Scala库
TiDB 2.0 GA Release Notes
年薪50万+的大数据工程师需要具备哪些技能?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券