我们可以将数据从ADX流式传输到Databricks Spark集群吗？ - 腾讯云开发者社区

spark-streaming、azure-data-explorer

ADX是否支持以流式方式将数据发送到Databricks Spark集群--基本上Spark将从ADX中提取数据，而不是ADX导出数据？换句话说，我正在尝试理解ADX表是否可以作为spark streaming的源？有没有这方面的例子链接，我可以通过？

浏览 20提问于2021-10-20得票数 0

2回答

Azure数据资源管理器(ADX)与Polybase和Databricks

azure、databricks、azure-sqldw、azure-data-explorer、polybase

问题今天，我发现了另一个名为的Azure服务。对不起，对这样的比较服务，我有很好的理解，除了ADX。我觉得有一个很大的功能覆盖，所以想知道ADX在Azure基础设施中的确切角色。当ADX明显优于Synapse/Databricks时，用例是什么？我对ADX的理解 AFAIK，ADX是一个集群(每小时计费，比如Databricks或Synapse，而不是ADLA)，它正在为您处理数据库，并且是针对大规模流吞食和临时查询进行优化的。它还支持外部表，它的性能较差，但更便宜(您需要为Blob/ADLS存储支付费用)。详细信息我不明白为什么我们需要ADX如果： Azure Synapse有

浏览 1提问于2020-05-27得票数 8

回答已采纳

1回答

将Azure数据资源管理器数据延迟加载到Databricks工作区

pyspark、databricks、azure-databricks、azure-data-explorer、kql

我的公司正在实现Azure数据资源管理器(ADX)作为后端。他们还希望将Databricks用于包括数据探索在内的数据科学项目。我负责连接数据库到ADX。我第一次尝试了Azure Kusto包裹。 from azure.kusto.data import KustoClient, KustoConnectionStringBuilder from azure.kusto.data.exceptions import KustoServiceError from azure.kusto.data.helpers import dataframe_from_result_table import

浏览 7提问于2022-06-19得票数 1

回答已采纳

1回答

如何使用KQL查询执行增量加载

apache-spark、azure-data-explorer、kql

我正在尝试使用星火连接器从ADX集群加载数据，并将其保存在Azure存储中。但是ADX数据库中的表将每周更新一次，所以我如何编写KQL查询来只从集群加载最新数据并将其保存在存储中？提前感谢！这是火花连接器的代码。 query=“”表数“” dataframe= spark.read. \ format("com.microsoft.kusto.spark.datasource"). \ option("kustoCluster", kustoOptions["kustoCluster"]). \

浏览 12提问于2022-11-16得票数 0

2回答

如何使用ADF在databricks中安装jar

bash、databricks、azure-databricks

我们可以使用UI方法将jar文件安装到特定的集群。但是我们需要在工作空间中的所有按需集群上安装它。我们使用下面的shell脚本将jar文件下载到DBFS。不确定如何使用全局init脚本在所有集群中引用/安装此jar curl https://repo1.maven.org/maven2/com/databricks/spark-xml_2.12/0.12.0/spark-xml_2.12-0.12.0.jar >/dbfs/FileStore/jars/maven/com/databricks/spark_xml_2_12__12_0.jar 任何帮助都将不胜感激！

浏览 54提问于2021-07-28得票数 3

回答已采纳

1回答

为什么Databricks连接测试不能在Mac上工作？

apache-spark、pyspark、databricks

我已经阅读了配置databricks-connect的文档，但是在运行databricks-connect test时仍然会遇到下面的错误来自终端的错误 java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.STRING_REDACTION_PATTERN()Lorg/apache/spark/internal/config/ConfigEntry; error: not found: value spark import spark.implicits._ error: not found: value

浏览 0提问于2019-07-22得票数 4

1回答

有没有办法通过.NET for Apache Spark查询Databricks、DBFS或parquets？

c#、.net、apache-spark、databricks、azure-databricks

简而言之，我正在尝试探索从Databricks工作区向C#/.NET应用程序提供数据以进行用户交互和即席查询的可能性。我花了一些时间来设置Databricks-Connect，就我可以从本地机器运行Databricks集群上的Python Spark作业而言，它似乎是有效的。我还尝试遍历设置并执行来自.NET for Apache Spark的示例我的问题是，我很难找到任何涉及这两者协同工作的文档、示例或演示。有没有可能在.NET中建立一个spark会话，允许针对databricks集群中的数据使用spark sql？Databricks-connect是否为此提供了合适的途径？最重要

浏览 32提问于2021-05-07得票数 1

回答已采纳

1回答

获取HTTP错误403 -尝试通过Azure数据库访问集群时无效的访问令牌

python、apache-spark、access-token、http-error、azure-databricks

我试图通过python脚本访问Azure databricks spark集群，该脚本将令牌作为通过databricks用户设置生成的输入，并调用Get方法来获取集群的详细信息和集群id。下面是代码片段。如图所示，我在southcentralus区域创建了一个集群。 import requests headers = {"Authorization":"Bearer dapiad************************"} data=requests.get("https://southcentralus.azuredatabricks.net

浏览 0提问于2019-02-05得票数 2

1回答

数据库中的addSparkListener等价

apache-spark、pyspark、listener、databricks

我想在Databricks的spark上下文中注册自定义SparkListener。与基本火花，我可以使用"spark.jars“和"spark.extraListeners”吐露在火花-提交。或者使用sparkContext.addSparkListener api。对于databricks安装程序，我已经在集群中安装了包含监听器的jar。当我将配置"spark.extraListeners“放在集群的”高级“配置选项卡中时，集群无法初始化抛出错误侦听器。我试着在火花会话构建器期间设置它，如 .builder \ .appName("ab

浏览 14提问于2022-02-03得票数 2

2回答

如何在Azure数据库中更改运行作业的Spark用户？

azure、apache-spark、pyspark、databricks、azure-databricks

我正在使用星火在Azure数据库5.5。我通过Databricks工作区UI通过乔布斯、笔记本和火花提交提交火花作业。作业正在成功提交，Databricks正在生成新的集群或使用现有的集群。但是，默认情况下，在executor节点上运行作业的用户是根。是否有可能更改在Azure Databricks上运行作业的用户(这本质上不允许SSH访问)？通常，当我在具有Shell访问权限的集群上使用星火提交CLI时，我使用sudo：sudo -u exampleuser spark-submit...更改用户。在这个例子中，用户'exampleuser‘出现在集群的所有节点上。因此，我想知道是

浏览 0提问于2019-09-17得票数 2

回答已采纳

1回答

Azure数据库:如何在Databricks集群中添加火花配置

apache-spark、databricks、azure-databricks

我正在使用星火数据库集群，并希望添加自定义星火配置。在这方面有一个Databricks文档，但是我不知道我应该如何以及应该做什么更改。有谁能分享一下配置Databricks集群的例子吗？在Databricks集群中是否有任何方法可以查看Spark的默认配置。

浏览 1提问于2019-11-04得票数 5

回答已采纳

2回答

如何部署指定权限的Databricks集群？

azure、databricks、azure-databricks

我正在使用powershell脚本部署一些Databricks集群，该脚本使用预定义的集群模板作为输入json文件，例如： { "cluster_name": "test1", "max_retries": 1, "spark_version": "5.3.x-scala2.11", "timeout_seconds": 3600, "autotermination_minutes": 60, "node_type_id"

浏览 0提问于2019-09-16得票数 1

1回答

数据库+ H2O PySparkling: addURL Py4JException

python、pyspark、jupyter-notebook、h2o、sparkling-water

我是H2O和spark框架的新手，我在数据库中的H2O+Spark (sparkling-water) PySparkling上遇到了麻烦。我在1.5.2环境中的Databricks中运行了12个员工集群。我采取的步骤如下：将所需的必要库(6个、请求、表和未来)附加到我的集群中然后，我从闪闪发光的水-1.5.14.zip包中解压缩后，从sparkling-water-1.5.14/py/dist文件夹中取出了必要的sparkling-water-1.5.14/py/dist文件。我还将sparkling-water-assembly-1.5.14.jar附加到我的D

浏览 8提问于2016-05-28得票数 0

回答已采纳

1回答

如何在databricks集群上运行非spark代码？

python、databricks、azure-databricks、databricks-connect

我能够完美地从databricks中提取数据，连接并运行spark作业。我的问题是如何在远程集群上运行非spark或原生python代码。由于机密性的原因，没有共享代码。

浏览 19提问于2021-10-11得票数 3

1回答

将AWS Redshift上的Azure Databricks Spark Cluster列入白名单

amazon-web-services、azure、amazon-redshift、databricks、azure-databricks

嗨，我不知道以前有没有人遇到过这种情况。我同时拥有Azure和AWS环境。我有一个在Azure Databricks上运行的Spark群集。我有一个要在Azure Databricks Spark集群上运行的python/pyspark脚本。在这个脚本中，我想要将一些数据写入到AWS Redshift集群中，我计划使用psycopg2库来实现这一点。我在哪里可以找到Azure Databricks Spark群集的IP地址，以便我可以将其列入AWS Redshift群集的安全组的白名单。我认为目前我无法写入AWS Redshift群集，因为脚本正在Azure Databricks Spark群

浏览 0提问于2020-12-29得票数 1

2回答

如何监视相同集群/数据库上的SparkContext上的不同火花作业？

apache-spark、monitoring、databricks、metrics、datadog

我希望有一个监控和警报系统(使用Datadog这样的工具)，它可以从我在Databricks中的Spark应用程序中获取度量和日志。问题是，由于不需要每天旋转、运行和杀死数百甚至数千个作业集群，所以最好将现有的集群重新用于类似的数据抽取工作。为了从Datadog中的Databricks和Spark获取度量标准，我尝试了以下方法：在每个笔记本中更改SparkSession.builder.appName：不起作用，因为在集群启动后不可能更改它。默认情况下，它总是"Databricks Shell“ 设置一个集群范围的标记，并在作业结束后取消它，当并发发生时，->会导致标

浏览 2提问于2021-11-23得票数 1

回答已采纳

1回答

小Spark数据帧在Databricks中速度非常慢

pyspark、databricks

我使用了一个非常标准的Databricks集群(2个节点，14 GB内存，4核，0.75DBU)。我有一个定义为spark_shape的函数 def spark_shape(df): """Returns (rows, columns) """ return (df.count(), len(df.columns)) 以及仅具有形状(590，2)的简单数据帧df。然而，运行spark_shape(df)需要超过6分钟！我想知道我是否需要增加内存或nodes Databricks集群，除了这个数据帧如此之小，我不明白为什么一个简单的

浏览 9提问于2021-06-26得票数 0

1回答

如何在Databricks中获取作业/运行级日志？

log4j、stdout、databricks、stderr、azure-databricks

Databricks仅在UI或API中提供集群级别日志。有没有办法在databricks中配置spark或log4j，这样我们就可以得到运行/作业级日志？

浏览 24提问于2020-07-15得票数 2

1回答

如何检查是否将查询从databricks下推到snowflake？

python、pyspark、snowflake-cloud-data-platform、azure-databricks

我正在尝试使用从databricks到Snowflake的查询下推。我正在将数据从snowflake(数据源)读取到databricks，创建数据帧，并应用连接、过滤器和聚合函数。代码运行正常，但无法找到查询是否被下推到snowflake。如何检查是否在snowflake或spark(databricks)集群上运行了查询？

浏览 1提问于2021-11-17得票数 1

3回答

星星之火:在没有com.databricks.spark.avro的情况下读取avro文件

apache-spark

我想在spark中读取avro文件，但不幸的是，我的公司中的集群没有com.databricks.spark.avro。所以我试着 spark-shell --package com.databricks:spark-avro_2.10:0.1. 这就产生了未解决的依赖关系。 import com.databricks.spark.avro._ is not supported. 也试过 spark-shell --jar spark-avro_2.11-3.2.0.jar 这不会打开外壳。 spark.read.format("com.databricks.spark.avro

浏览 1提问于2018-03-28得票数 3

回答已采纳

1回答

从文件系统中填充Properties对象

scala、dataframe、apache-spark、apache-spark-sql、databricks

TL:DR 有办法从Databricks文件系统读取Scala/Java属性文件吗？或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。我猜Source无法识别Databricks文件系统(？)的URI。不过，我能够将该文件读入Spark，但是尝试填充java.utils.Properties对象时出错，因为它不接受Spark的“行”类型。我尝试将数据帧更改为Array和Li

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

当使用netcat处理spark streaming中的日志时，它会丢弃最后几行吗？

apache-spark、spark-streaming、netcat

我有一个spark-streaming服务，在那里我正在处理和检测基于某个离线生成的模型的异常。我从日志文件向此服务提供数据，日志文件使用以下命令进行流式传输 tail -f <logfile>| nc -lk 9999 在这里，spark流服务从端口9999获取数据。但是，我观察到最后几行正在被丢弃，即spark streaming没有接收到这些日志行，或者它们没有被处理。但是，我也注意到，如果我只是将日志文件作为标准输入，而不是对其进行尾随，则不会删除任何行： nc -q 10 -lk 9999 < logfile 有人能解释为什么会发生这种行为吗？对于将日志数据流式传

浏览 0提问于2016-02-09得票数 1

1回答

Apache Spark Streaming未读取目录

python、apache-spark、spark-streaming、pyspark

我正在从事Spark Streaming的工作，我想设置一个本地目录来将数据流式传输到我的spark应用程序中，这样目录中的每个新文本文件都将被流式传输到我的应用程序中。我尝试使用StreamingContext的textFileStream方法，但我没有从我移动到指定的本地目录的文件中获得任何数据。你能帮我找出为什么会发生这种情况吗？下面是我写的代码： def main(): if len(sys.argv) != 5: print 'Usage: SPARK_HOME/bin/spark-submit CoinpipeVectorBuilder.py <S

浏览 3提问于2015-02-26得票数 2

1回答

写入Spark Avro失败

pyspark、spark-dataframe、mapr

我们有一个MapR集群，它在上面运行，但现在它突然停止了，甚至不能在mapr演示集群上工作。我们运行的是MapR 5.1和Spark 1.6.1。 from pyspark import SparkConf, SparkContext from pyspark import HiveContext from pyspark.sql import DataFrameWriter conf = SparkConf().setAppName('test') sc = SparkContext(conf=conf) sqlContext = HiveContext(sc) df =

浏览 1提问于2016-09-29得票数 2

1回答

如何解决数据库中的AWSSecurityTokenServiceException错误？

amazon-web-services、databricks、roles、aws-databricks

我一直试图从AWS S3桶中读取一些数据到Databricks。development/team/user.是S3桶我使用Scala语句： val test = spark.read.format("team").load("/mnt/development/team/user/data.txt") 我得到了以下信息： com.amazonaws.services.securitytoken.model.AWSSecurityTokenServiceException：用户未被授权对资源:资源执行：AssumeRole 如何解决此错误？我正在运行的Databr

浏览 7提问于2022-02-11得票数 1

1回答

在结构化流应用编程接口(pyspark)中使用redshift作为readStream的JDBC源

apache-spark、amazon-redshift、spark-structured-streaming

我正在寻找一个包，或者使用redshift作为结构化数据流的源的以前的实现。 spark.readStream \ .format("io.github.spark_redshift_community.spark.redshift") \ .option('url', redshift_url) \ .option('forward_spark_s3_credentials', 'true') \ .load() 使用下面的格式，您会在读取时出错。例如： Data source io.github

浏览 2提问于2020-11-18得票数 0

1回答

如何通过Linux使用Databricks Cluster运行spark sql查询？

linux、apache-spark-sql、databricks、azure-databricks

我想从Databricks Cluster上的Linux Machine执行spark sql命令。有什么方法可以做到这一点吗？我在一个.sql文件中设置了一组spark sql命令，并希望使用Linux Machine中的Databricks集群来执行该文件。我正在寻找类似于SQLPLUS的东西，在那里我们与DB建立连接并执行sql，以类似的方式，我们是否有任何实用程序/解决方案来在Databricks集群上执行spark sql。

浏览 30提问于2021-08-10得票数 1

1回答

默认ADX数据库

azure-data-explorer

我有几个ADX集群的管理员权限。我正在ADF中构建某种自动化，并在循环中从每个集群执行.show databases命令。我已经创建了一个通用的ADF连接(链接服务)来与ADX集群对话以执行命令，但我不得不将数据库的名称传递给ADX命令活动。现在，在本例中，数据库并不重要，理想情况下，无论我传递什么名称，都是命令将针对的数据库。这就是为什么ADX命令活动需要它。但是在.show databases命令的情况下，它不是一个特定于数据库的命令，但是ADX活动迫使我无论如何都要指定它--所以我必须传递一些东西给它。现在，不同集群之间的数据库名称是不同的。我不喜欢为每个活动调用单独编写数据库名称。如果

浏览 5提问于2022-06-10得票数 2

回答已采纳

1回答

如何在无internet访问的Azure Databricks集群上安装Server驱动程序17

odbc、azure-databricks、azure-synapse、azure-storage-account

我的目标是从Azure数据库访问Azure Synapse Analytics。想到的第一件事是使用火花驱动程序com.databricks.spark.sqldw。但为此，数据库用户需要在数据库中使用db_owner，这是不合适的，因为用户可能会使用Synapse。我只希望用户使用他们自己的Active Directory帐户从Synapse读取数据。然后，我的第二次尝试是尝试使用ODBC驱动程序(或JDBC)访问Synapse，就像我们通常在本地Python脚本中所做的那样。问题是我们的Databricks集群没有internet访问权限，所以我们不能像命令那样运行apt-get (为了

浏览 7提问于2022-09-12得票数 1

回答已采纳

1回答

如何使用kafka-kusto-sink和debug

azure-data-explorer

将数据摄取到kakfka集群，kakfka集群可以使用kafka-sink azure- kusto将数据发送到adx kusto数据库。 iam正在成功地将数据摄取到kafka集群，但没有将数据传输到kusto db。如何调试这个？任何我能核实的日志。我已尝试检查broker日志是否有错误参考：

浏览 0提问于2019-02-15得票数 1

1回答

在Azure数据工厂中使用没有DataBricks的Jupyter笔记本？

python、azure、jupyter-notebook、azure-data-factory

我从文档中了解到，我们只能将Jupyter notebooks与Databricks Spark集群一起使用。有什么办法可以解决这个问题吗？我可以调用Jupyter notebook作为没有Databricks环境的ADF的活动吗？我想有一个简单的方式来调用一些从ADF的python代码。谢谢!

浏览 0提问于2018-10-09得票数 2

2回答

在齐柏林飞艇中加入火花CSV依赖性

csv、apache-spark、pyspark、apache-zeppelin

我在AWS上运行一个带有星火集群的EMR。火花版本为1.6 运行折叠命令时： proxy = sqlContext.read.load("/user/zeppelin/ProxyRaw.csv", format="com.databricks.spark.csv", header="true", inferSchema="true") 我得到以下错误： Py4JJava

浏览 4提问于2016-11-03得票数 2

1回答

数据库/火花错误-依赖关系更新？

azure、apache-spark、databricks、azure-databricks

我对databricks很陌生。有一个错误(几乎是随机的--我的代码本身似乎没有问题)只能通过重新启动集群才能解决。错误是： org.apache.spark.SparkException:由于阶段失败而中止作业 ..。 org.apache.spark.SparkException:未能在依赖关系更新期间获取spark://10.100.52.23:37487/file/Packages.tar 有人见过这个吗？你知道为什么会发生这种事吗？我的代码是用R编写的，我在集群上安装了包xgboost。我认为，这是唯一没有包含在缺省值中的库。

浏览 8提问于2019-11-19得票数 1

3回答

从CSV文件到python的实时数据流

python、csv、data-stream

我有一个CSV文件，其中包含在几分钟内记录的来自随机传感器的数据。现在，我想将CSV文件中的数据流式传输到pyhton代码中，就好像它直接从传感器本身接收数据一样。(代码是从两个不同的传感器/csv文件中获取读数并取其平均值)有人建议使用Apache Spark来流式传输数据，但我觉得这对我来说太复杂了。有没有更简单的解决方案？

浏览 27提问于2017-01-18得票数 5

1回答

什么是Databricks Spark集群管理器？它可以改变吗？

apache-spark、databricks、cluster-manager

原始的Spark distributive支持几个集群管理器，如YARN，Mesos，Spark Standalone，K8s。我找不到Databricks Spark中的内幕，它使用的是哪个集群管理器，是否可以更改？ <code>B0</code> 什么是Databricks Spark架构？谢谢。

浏览 8提问于2021-03-15得票数 0

1回答

在emr集群上安装com.databricks.spark.xml

python、amazon-web-services、apache-spark、amazon-emr、apache-spark-xml

有人知道如何在EMR集群上安装com.databricks.spark.xml包吗？我成功地连接到了主emr，但不知道如何在emr集群上安装软件包。码 sc.install_pypi_package("com.databricks.spark.xml")

浏览 2提问于2020-02-19得票数 1

1回答

将Databricks群集与本地计算机(AWS)连接

amazon-web-services、pyspark、databricks

我想从我的本地机器连接到Databricks集群(AWS)，但我想在集群中执行整个代码。使用Databricks Connect，只在集群中执行spark代码。我在寻找替代的解决方案。SSH解释器或类似的东西。我在集成开发环境( PyCharm )工作。

浏览 2提问于2021-12-02得票数 1

1回答

spark-提交从本地到群集的文件传输

apache-spark

我正在使用spark-submit集群模式从本地向spark集群提交作业。我需要在本地机器和spark集群之间来回传输输入文件、输出文件和作业日志文件。使用文件传输的任何推荐方法。有没有什么未来的计划，spark将支持文件从群集传输到本地，反之亦然。

浏览 2提问于2015-07-27得票数 0

1回答

通过全局init脚本启用Databricks群集日志

logging、databricks

我希望通过全局init脚本为工作区中的所有集群(新的或旧的)设置。我试着通过定制的spark /databricks/driver/conf/00-custom-spark.conf添加基础星火属性(见下文)。但这不管用。可能这些属性仅用于显示目的。 cat <<EOF >/databricks/driver/conf/00-custom-ud-spark.conf [driver] { "spark.databricks.clusterUsageTags.clusterLogDeliveryEnabled" = "true"

浏览 6提问于2022-08-04得票数 1

1回答

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

python-3.x、pandas、databricks、azure-databricks

我有一个要求，把数据从csv/熊猫数据写到databricks表。我的python代码可能不在databricks集群上运行。我可能在一个孤立的独立节点上运行。我使用databricks python连接器从databricks表中选择数据。选择是有效的。但我无法从csv或熊猫的数据加载到数据库。我是否可以使用databricks python连接器将csv/pandas数据中的大量数据加载到databricks表中？下面是用于获取databricks连接并使用databricks连接器在独立节点上执行选择的代码片段。 from databricks import sql conn = s

浏览 5提问于2022-08-19得票数 0

2回答

如何使用数据库查询外部蜂巢表

pyspark、hive、databricks

我在一些VM上运行了一个Databricks集群。我的组织有一个Hadoop集群，其中有一些我想要的数据。我没有访问Hadoop集群的权限，只有一个JDBC (我的所有权限都已经整理好了，它们只给了我一个URL)。我可以在本地机器(Dbeaver)上打开数据库管理工具，并成功地查询Hive表。但是，我很难使用Databricks和PySpark查询Hive表。似乎要为HiveContext设置连接字符串，我通常会将其写入hive-site.xml文件中。然而，Databricks没有给我这个选项。我在Hive 2.1.1 & Databricks 6.4上(包括ApacheSpa

浏览 2提问于2020-04-16得票数 2

2回答

如果在Cassandra中使用removenode删除节点，如何查找副本将成功流式处理

cassandra、datastax、datastax-enterprise、cassandra-2.0、cassandra-3.0

我有一个17节点的Cassandra集群。如果我使用nodetool removenode从集群中删除2个节点，那么我拥有所有复制因子为3的keyspace。我会有小于3的副本吗？， Cassandra会自动创建副本的另一个副本并流到其他节点吗？我是否需要执行一些命令来告诉cassandra创建丢失的副本并维护replication factor=3？如何确定副本是否成功地流式传输到现有节点、任何查询或nodetool命令等注意:由于我的集群节点中的海量数据和MV的广泛使用，工具的退役/修复和重建过程将永远无法执行。请帮帮忙

浏览 0提问于2018-08-16得票数 0

1回答

将HDFS数据流式传输到Storm (也称为HDFS spout)

hadoop、hdfs、apache-storm

我想知道是否有任何spout实现将数据从HDFS流式传输到Storm (类似于HDFS的Spark streaming )。我知道有用于将数据写入HDFS (和)的螺栓实现，但反过来我却找不到。我很感谢任何建议和提示。

浏览 0提问于2015-05-14得票数 3

1回答

通过数据库将记录插入到Delta表

python、pyspark、apache-spark-sql、databricks、azure-databricks

我想使用databricks将10万条记录插入到delta表中。我试图使用一个简单的for循环来插入数据，类似于- revision_date = '01/04/2022' for i in range( 0 , 100,000): spark.sql(""" insert into db.delta_table_name values ( 'Class1' , '{revision_date}' + i """) 问题是，在databricks中使用insert语句插入数据需要非常长的时间

浏览 12提问于2022-05-04得票数 1

6回答

未能为数据源加载类: com.databricks.spark.csv

apache-spark

我的build.sbt文件有以下内容： scalaVersion := "2.10.3" libraryDependencies += "com.databricks" % "spark-csv_2.10" % "1.1.0" 我在独立集群模式下运行Spark，我的SparkConf是SparkConf().setMaster("spark://ec2-[ip].compute-1.amazonaws.com:7077").setAppName("Simple Application") (我不使用

浏览 5提问于2015-07-23得票数 6

2回答

GeoMesa火花不能使用地散列

apache-spark、azure-databricks、geohashing、geomesa

我在一个Databricks集群上使用GeoMesa Spark，它引用了这个示例笔记本：。导入和使用UDF函数(如st_makePoint和st_intersects )没有问题。但是，当我尝试使用st_geoHash创建点的Geo散列时，我得到了以下错误： NoClassDefFoundError: Could not initialize class org.locationtech.geomesa.spark.jts.util.GeoHash$。集群安装了geomesa-spark-jts_2.11:3.2.1和scala-logging_2.11:3.8.0，这是给出的两个版本(但

浏览 5提问于2021-09-30得票数 0

回答已采纳

1回答

Pytest在Databricks repo中运行时不输出junitxml

python、pytest、databricks

我们有一个数据库平台，其中的repos和文件在repos中被启用。因此，我们可以在repos中包含.py文件，这些文件可以由Databricks笔记本调用。我们目前正在测试在Databricks集群上运行单元测试的可行性，而不是在Git / CI环境中使用(PySpark)映像。 Databricks中的回购看起来像 | - notebook | - mycode.py | - mycode_test.py 在这里，mycode.py包含一个函数，该函数在Spark上应用转换。文件mycode_test.py包含一个带有pytest的单元测试构建(以及一些用于创建测试数据和处理session

浏览 1提问于2022-06-29得票数 0

2回答

火花驱动程序意外停止并正在重新启动。您的笔记本将自动重新连接。

excel、scala、apache-spark、azure-databricks

我试图在Databricks中分析一个500 in的数据集。这些数据存储在Excel文件中。我做的第一件事是从Maven安装Spark包com.crealytics.spark.excel (最后一个版本- 0.11.1)。这些是集群的参数：然后，我在Scala笔记本中执行了以下代码： val df_spc = spark.read .format("com.crealytics.spark.excel") .option("useHeader", "true") .loa

浏览 0提问于2019-06-16得票数 6

回答已采纳

1回答

数据库环境中的SparkSessionExtensions injectFunction

apache-spark、apache-spark-sql、databricks、databricks-community-edition

SparkSessionExtensions injectFunction可以在本地运行，但我不能让它在数据库环境中运行。项目定义了Catalyst表达式，比如我可以通过spark-sql在本地成功使用的age bin/spark-sql --packages com.github.yaooqinn:itachi_2.12:0.1.0 --conf spark.sql.extensions=org.apache.spark.sql.extra.PostgreSQLExtensions spark-sql> select age(timestamp '2000', tim

浏览 22提问于2021-03-20得票数 1

1回答

Azure监控日志与Azure数据资源管理器

azure、azure-data-explorer、azure-monitoring

我正在尝试了解Azure Log Analytics和Azure Data Explorer(ADX)之间的区别。在阅读文档时，我所理解的是Log Analytics是用于创建/编辑查询以从Azure监控日志中提取数据的web工具，数据由azure的监控日志收集并存储在工作区中，可以使用日志分析KQL进行查询。让我困惑的是文档中的this section，因此，监控日志类似于ADX，数据类似地存储在表中，并使用相同的KQL来查询数据。有没有人能帮助我们理解其中的差异。

浏览 37提问于2021-04-08得票数 0