使用scala和spark-sql计算表统计信息_R使用dplyr按组计算加权统计信息_Datastax Java API用于获取表统计信息和直方图 - 腾讯云开发者社区

scala、apache-spark-sql

我在公司糟糕的数据环境中使用Spark 2.4.0和scala 2.11.12。在我的项目中，我创建了许多包含大量数据的表。现在，我想计算我创建的表的统计数据。我发现以下scala/spark sql语句可以做到这一点： // example 1 val res = spark.sql("ANALYZE TABLE mytablename COMPUTE STATISTICS在exmample /&#x

浏览 59提问于2020-07-06得票数 0

1回答

我能否获取存储在Azure Databricks上的文件的元数据或文件的状态

azure、azure-active-directory、databricks

我希望有一些通用的脚本，可以运行给出统计文件(主要是CSV格式)。我知道在SQL Server中获取表的各种统计数据非常容易，SQL Server也是Microsoft的一款产品。或者，也许可以生成某种类型的报告来显示文件的元数据、统计数据等。最终，我希望获得文件名、文件大小的列表，如果可能的话，还有字段中的空值计数和所有字段、所有文件中的空值的总数。谢谢。

浏览 8提问于2019-06-21得票数 1

回答已采纳

3回答

如何在没有Scala的情况下测试Spark SQL查询

scala、cassandra、apache-spark、datastax-enterprise、apache-spark-sql

目前，我不得不打开Spark控制台并输入Scala命令，这真的很单调乏味，而且容易出错。类似于：scala > query.collect().foreach(println) 特别是对于更长的查询如何在不使用控制台或编写自己的应用程序的情况下测试spark查询？

浏览 0提问于2015-05-18得票数 2

2回答

如何在Spark Scala中将Hive表的表状态转换为Dataframe

sql、scala、apache-spark、hive、apache-spark-sql

我正在做一个关于Spark scala的项目，我可以将一个Hive表的表统计数据放到一个Dataframe中进行进一步的计算吗？我可以使用下面的命令查看表的信息 “显示表统计信息table_name” 但我能把这些信息放到数据框里吗。谢谢

浏览 38提问于2019-09-20得票数 1

3回答

如何在hive或impala中计算表统计数据，以加快Spark中的查询？

apache-spark、hive、apache-spark-sql、impala

为了提高性能(例如对于联接)，建议首先计算表静力学。)是否也从预先计算的统计数据中受益？他们都在保存蜂巢亚稳态的统计数据吗？我在Cloudera 5.5.4上使用spark 1.6.1 注意:在参数的Spark1.6.1( spark.sql.autoBroadcastJoinThreshold )文档中，我找到了一个提示：请注意，目前只支持Hive表的统计信息，其中运行了命令。

浏览 6提问于2016-09-22得票数 11

1回答

火花壳和火花sql有什么区别？表现有什么不同吗？

apache-spark、apache-spark-sql

Spark-shell：它基本上打开了scala>提示符。Queries are expressed in HiveQLspark-sql

浏览 7提问于2017-05-01得票数 6

回答已采纳

1回答

CDH5.4.2火花可以在火花壳中使用HiveContent，但不能打开火花-sql

apache-spark、cloudera-cdh、hivecontext

我使用的是CDH5.4.2的火花(独立的) org.apache.spark.sql.hive.HiveContext@6c6f3a15 scala> hiveContext =新的org.apache.spark.sql.hive.HiveContext(sc)；hiveContext: org.apache.spark.sql.hive.HiveContext= scala> hi

浏览 8提问于2016-07-26得票数 0

1回答

如何向Scala添加依赖文件？

eclipse、scala、scala-ide

我是Scala和Spark的新手，并且开始用Scala IDE (在Eclipse中)编写一个简单的Apache Spark程序。

浏览 5提问于2015-07-11得票数 1

2回答

如何使用Impala运行来自单元表的列子集上的计算统计数据？

hadoop、hive、impala

我有一个很长很宽的蜂巢表，需要花费大量的时间来返回查询结果。因此，我尝试在表上使用“计算统计”，但是由于表的宽度，这个操作经常超时。因此，我想知道是否有一种在select列上运行“计算统计”的方法？

浏览 2提问于2020-06-09得票数 3

回答已采纳

2回答

Oracle解释计划中关于成本的问题

sql、performance、oracle、optimization

例如：如果我对employees执行全表扫描，查找name='Bob'，它是通过计算现有行的数量来估计成本，还是总是设置成本？

浏览 0提问于2010-04-06得票数 2

回答已采纳

2回答

如果oracle数据库中的表为空时收集了统计信息，那么恢复该表的原始统计信息的方法是什么？

sql、database、oracle、performance、query-optimization

这里讨论的表的工作方式如下:假设这里讨论的表是表A，还有另外两个表B和C。表C首先接收来自外部系统的所有数据。然后将数据传输到表B，在表B中对其进行处理，并在表A.As中创建该数据的副本。数据继续在表B中处理，A和B中的数据状态都会更改。一旦所有数据在表B中得到处理，表就会从表A中删除。因此，基本上表A对要由表B处理的数据进行

浏览 1提问于2019-09-15得票数 2

2回答

通过分区交换加载表(Oracle 10g)

oracle、statistics、oracle10g、partitioning

一个构建要加载到分区表中的新数据表，然后在这个新表上构建索引。应该使用计算统计选项构建索引，还是使用DBMS_Stats?Should的Cascade选项，在交换之前在表上或交换之后在分区上收集统计数据?如果在交换之后进行，并且在参数列表中指定分区名称，那么粒度参数有什么相互作用？例如，如果我指定了一个分区名称，然后将粒度设置为“全局和分区”，那么这样做完全可以吗？它只执行一个分区吗？

浏览 7提问于2008-10-03得票数 2

回答已采纳

1回答

Spark Scala拆分字符串语法问题

apache-spark、apache-spark-sql

我尝试使用SparkSQL和Scala拆分DataFrame列中的字符串，这两种拆分条件的工作方式似乎有所不同使用Scala，这是可行的- val seq = Seq("12.1")val df = seq.toDF("val") val afterSplit = df2.withCo

浏览 18提问于2019-01-08得票数 0

回答已采纳

1回答

我们可以在不分解hive/spark中的行的情况下进行汇总或多维数据集吗

apache-spark、hive、rollup、grouping-sets

我在一个hive表上聚合了4个维度(数百亿行)，它们需要卷起来或立方。假设我的表是关于用户交互的，我将汇总他们使用的移动应用程序，他们使用的移动操作系统，等等。我的自定义解决方案是有一个临时表，首先在其中聚合用户id和4个维度，然后执行汇总。

浏览 23提问于2019-05-09得票数 0

回答已采纳

0回答

Object sql不是package org.apache.spark的成员

sql、scala、apache-spark、sbt、apache-spark-sql

我正在尝试使用spark-sql，但在导入时获取以下错误：以下是我的详细信息：这是我的build.sbt文件：version := "1.0"

浏览 3提问于2017-12-06得票数 2

1回答

多项目sbt-装配问题

scala、apache-spark、sbt、sbt-assembly

我正在尝试创建一个包含两个主要类的项目-- SparkConsumer和KafkaProducer。为此，我在sbt文件中引入了多项目结构。消费者和生产者模块分别用于不同的项目，核心项目包含生产者和消费者都使用的实用程序。Root是主项目。还引入了通用设置和库依赖项。但是，由于某些原因，该项目无法编译。com.fasterxml.jackson.core" % "jackson-databind" % "2.9.5", "com.faster

浏览 96提问于2018-06-05得票数 3

1回答

创建spark会话时的NoSuchMethodError

scala、apache-spark

<init>(SQLConf.scala:1011) at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:938) 类似的错误已经在这里发布：Error while using SparkSession or sqlcontext 我对spark-core<em

浏览 104提问于2021-10-20得票数 1

1回答

SQL Server索引使用情况统计信息多久更新一次?更新的原因是什么？

statistics、sql-server-2012、indexing

我知道有一个函数STATS_DATE()可以知道统计数据在哪里更新，这很好，但我想知道的是，是什么触发了此统计数据的更新或截止。我知道也有这方面的报道。但上周我看到了某些服务器上的统计数据，它们为我提供了非常好的信息，这个特定数据库中的主表有4位数。因此，我想知道在哪里可以设置此设置，以便服务器不断累积索引使用情况统计数据，直到我清除日志或它使用的任何存储。

浏览 0提问于2012-12-04得票数 3

回答已采纳

1回答

Spark read as jdbc将所有行作为列名返回

scala、apache-spark、pyspark、apache-spark-sql

我在Scala 2.12中使用Spark 3.x SQL查询Spark的数据库表。我遵循了互联网上给出的例子。create table example( tutorial_title VARCHAR(22) NOT NULL) ; var example= spark.read.format我的表有3行。我尝试更改了db中的行数，并且我的输出也相应地发生了变化。

浏览 4提问于2020-07-31得票数 4

2回答