如何在databricks中将数据帧结果保存到表中？_如何在python中将这些while循环结果保存到多个数据帧中？_如何在Laravel中将html表中的数据保存到数据库中 - 腾讯云开发者社区

pandas、dataframe

我正在尝试将pandas dataframe的内容保存到windows/azure databricks的excel文件中。将熊猫作为pd导入根据数据创建一个Pandas数据帧。 df = pd.DataFrame({'Data'：10，20，30，20，15，30，45}) 使用XlsxWriter作为引擎创建一个Pandas Excel编写器。 writer = pd.ExcelWriter('pandas_simple.xlsx'，engine='xlsxwriter') 将数据帧转换为XlsxWriter Excel对象。 Df.to

浏览 234提问于2020-07-03得票数 2

1回答

如何在Databricks中读取/加载本地文件？

apache-spark、apache-spark-sql、databricks、azure-databricks、pyspark-dataframes

除了导航到Databricks上的“Data”>“Add Data”之外，是否还可以读取位于本地计算机中的文件。在我过去使用Databrick的经验中，当使用s3存储桶时，我能够通过如下方式指定路径来读取和加载数据帧： df = spark.read.format('delta').load('<path>') 有没有办法使用databricks读取本地文件来做类似的事情？

浏览 132提问于2020-10-30得票数 2

2回答

在dataframe中注册临时表不工作

python、sql、apache-spark、temp-tables

下面是我通过python在dataframe中使用sql的脚本： pyspark --packages com.databricks:spark-csv_2.10:1.4.0 from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load('file:///root/Dow

浏览 1提问于2017-01-02得票数 1

回答已采纳

2回答

Databricks:转换数据框并导出为xls / xlsx

excel、databricks

对于Databricks:转换数据帧并导出到xls / xlsx并保存到blob存储中是可能的吗？使用Python

浏览 41提问于2019-09-30得票数 0

1回答

从Azure Databricks Notebook访问SQL Server

sql-server、scala、apache-spark、databricks、azure-databricks

我正在使用Azure Databricks笔记本并访问Azure plateform上提供的SQL Server。我正在将Spark数据帧添加到表'TableName‘中。以下是从Azure Databricks笔记本连接数据并将其保存到SQL Server DB中的示例代码： val jdbc_url = sql-db-connection-string val user = sql-db-username val password = sql-db-password val connectionProperties = new Properties() connectionPr

浏览 4提问于2019-11-13得票数 0

1回答

在Databricks中使用Pyspark更新数据库表

python、pandas、pyspark、databricks

我在Azure SQL Server数据库中有一个表，该表是从我的Dataframe填充的。我想使用pyspark / pandas基于多条件数据库来更新这个表。我是PySpark / Databricks / Pandas的新手，有人能告诉我如何更新表吗？我已经将数据插入到表中-我可以想到的一种解决方案是将表中的数据加载到数据帧中，然后将新文件合并到相同的数据帧中，然后从表中删除数据并插入此数据帧。如果这是正确的方法，那么在上述场景中，我们如何从数据库表中删除数据？

浏览 2提问于2020-04-20得票数 0

1回答

Azure Databricks，如何将csv自动下载到本地网络驱动器？

azure、databricks、azure-databricks

我的工作目前实现了Azure Databricks。是否可以定期将我的数据帧作为csv自动下载到本地网络驱动器路径？例如，我们公司有周期性的报告，希望我可以通过在databricks中创建数据帧来实现自动化，并以某种方式让azure将csv下载到我们公司网络文件夹中的特定路径中。这有可能吗？仅供参考，我知道我可以将csv文件保存到文件存储(dbfs)，但主要问题is..how我或azure是否可以让csv定期自动填充到我们的公司网络中？

浏览 27提问于2020-01-08得票数 1

1回答

从在azure云上运行的databricks向外部配置单元群集写入pyspark

pyspark、hive、azure-databricks、pyhive

我有在databricks中运行的pyspark笔记本。我使用pyhive中的'hive.Connection‘连接到外部配置单元群集。我的数据存储在spark数据帧中。我的问题是，如何将来自dataframes的数据写入Hive中的新表，该表位于databricks以外的不同集群中？谢谢

浏览 11提问于2020-09-26得票数 0

1回答

如何在spark 1.6中将DataFrame保存为csv文件？

csv、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在处理一个包含两列的数据帧: uni_key和createdDate。我运行了一个SQL查询并将结果保存到a中，现在我希望将这些结果保存到csv文件中。有没有办法做到这一点？下面是一个代码片段： import sys from pyspark import SparkContext from pyspark.sql import SQLContext, Row import csv if len(sys.argv) != 2: print("Usage: cleaning_date.py <file>") exit(-1) sc = Sp

浏览 2提问于2017-04-17得票数 1

回答已采纳

1回答

如何在SparkR中从数据帧创建表

sql、r、data-science、databricks

我正在尝试找到一种方法，将一个数据帧转换为一个表，以便在另一个Databricks笔记本中使用。我找不到任何关于在R中执行此操作的文档。

浏览 0提问于2020-08-12得票数 0

1回答

如何在数据库中的架构下创建表

apache-spark、databricks

我正在尝试创建一个像sql这样的数据库表，其中我们有数据库、模式下的数据库，然后是模式下的表，这样我的表的完全限定名就变成了database.schema.tablename。我正在查看是否可以在databricks中为非托管表执行类似的操作，以及是否推荐使用这种方法。我试过：，它创建了数据库，但不确定如何在其下创建模式。如果我创建模式myschema，它将显示为databricks UI中的一个新数据库。

浏览 1提问于2019-10-24得票数 3

回答已采纳

1回答

为什么Azure数据库需要在Azure中的临时存储中存储数据

azure-databricks、azure-synapse

我学习了关于用azure databricks进行数据转换的教程，它说在将数据加载到蔚蓝突触分析中之前，由azure databricks转换的数据在加载到蔚蓝突触分析之前先保存在azure blob存储中的临时存储中。为什么需要在加载到蓝突触分析之前将其保存到临时存储中？

浏览 5提问于2020-08-01得票数 2

回答已采纳

1回答

Spark中的长谱系(DAG)问题

apache-spark、databricks、directed-acyclic-graphs

我们通常使用Spark作为存储在S3或HDFS上的数据的处理引擎。我们使用Databricks和EMR平台。我经常面临的一个问题是，当任务规模增长时，工作绩效会严重下降。例如，假设我从五个表中读取数据，这些表具有不同的转换级别(过滤、分解、连接等)，并从这些转换中获得数据的联合子集，然后进行进一步的处理(例如：根据需要窗口函数等的条件删除一些行)，然后是其他一些处理阶段，最后将最终输出保存到目标s3路径。如果我们在不使用它的情况下运行此作业，则需要很长时间。但是，如果我们将临时中间数据帧保存(暂存)到S3，并将保存的(在S3上)数据帧用于后续的查询步骤，则作业完成得更快。有没有人有类似的经历？

浏览 17提问于2019-10-26得票数 0

回答已采纳

1回答

如何将Databricks表(时间戳和版本)复制到新订阅中的另一个Databricks？

azure、pyspark、azure-storage、databricks、azure-databricks

目前，我正在将一个旧的Databricks环境迁移到一个新的环境。由于许多依赖项，目标是并行运行旧的和新的环境，直到所有的测试都通过为止。因此，我试图将Databricks表从旧环境复制到新环境。要尝试成功复制表，我尝试将Databricks表从旧订阅导出到帐户存储，并从帐户存储中将它们导入到新Databricks环境中。到目前为止，我尝试过： df.write.format("delta").save(<mount_path>), spark.read.format("delta").load(<mount_path>), df.

浏览 2提问于2020-11-13得票数 2

1回答

如何在DF数据流、数据集源选项中使用管道参数

azure-data-factory、azure-databricks

我已经做了一天了，尝试每一种可能的变化，并寻找其他的解决方案。我有一个DF管道，带有一些DataBricks笔记本，最终结果被保存到blob存储中，但是需要使用一个SQL表来更新一些值。我使用动态文件夹名来提取运行良好的blob文件，但是当我尝试对SQL查询进行相同的操作时，它不会失败，但它似乎没有选择任何记录。那么如何在数据流SQL查询中使用管道参数呢？管道概述：失败的来源：我要使用变量的查询：最后的结果是：任何帮助都是非常感谢的！

浏览 3提问于2020-10-07得票数 0

1回答

databricks:在表中添加一列并插入其余数据

python、pandas、azure、databricks

我对databricks和sql是新手，我想在那里添加一些数据。我在azure databricks中使用python notebook。我已经创建了一个非常大的空增量表。此处的列： Id| A| B| C| D| E| F| G| H| I| J| K (A，B，C....是列名) 我将解析日志文件，因为它们将出现在blob中，并创建数据帧。数据帧可能是这样的。DF1 A| B| C| D| (A，B，C....是列名) DF2 A| B| D| E| (A，B，C....是列名) DF3 A| B| D| F| (A，B，C...是列名) 我想在增量表中插入所有这些数据帧。此外，我还需要

浏览 0提问于2021-06-07得票数 0

1回答

在databricks中使用Pyspark(Python)的连接不起作用

azure、databricks、pyspark-dataframes

使用Pyspark的内部联接不适用于使用分区csv、常规csv和SQL表创建的数据帧。例如:当我尝试在使用分区csv (存储在ADLS中)和普通csv创建的数据帧上应用内部联接时，输出df是用空值创建的，但当我在常规csv上创建的数据帧上联接时，它工作得很好。在databricks中对此有什么限制吗？

浏览 24提问于2019-12-19得票数 0

1回答

如何避免在pyspark数据帧上一次又一次地重新评估每个转换

apache-spark、pyspark、pyspark-sql、pyspark-dataframes

我有个spark数据框。我正在对数据框架进行多个转换。我的代码如下所示： df = df.withColumn ........ df2 = df.filter...... df = df.join(df1 ... df = df.join(df2 ... 现在我有大约30多个这样的转换。另外，我知道数据帧的持久化。所以如果我有一些像这样的转换： df1 = df.filter.....some condition df2 = df.filter.... some condtion df3 = df.filter... some other conditon 在上面的例子中，我持久化了数据帧&

浏览 1提问于2019-10-31得票数 1

1回答

有人能解释MS数据库中数据阶段开始到结束的顺序吗？

azure、cloud、databricks、azure-databricks

我正在学习MS azure中的Databricks，并被赋予了完成一项任务的4个步骤：将csv文件(自己标识相关数据集)上载到dbfs中，在databricks中执行数据集上的一些基本转换活动，最后将输出保存到数据块的Delta表中。我做了第一步，但在第二步，我被告知要创建一个dataframe，并通过我不知道的delta表执行sql活动。有人能分享在数据库工作中需要做的事情的顺序吗？

浏览 3提问于2020-07-23得票数 1

1回答

将clojure向量转换为flambo sql行

sql、clojure、apache-spark、apache-spark-sql、flambo

我正在开发一个函数，将向量转换为sql行，以进一步将其转换为数据帧，并使用Apache中的SQLcontext将其保存到表中。我正在克洛尔开发，一路上迷路了。因此，我想实施这个解决方案：对于每个rdd (向量)，将其转换为行将行转换为数据帧将数据帧保存到表中使用sqlContext查询表中的特定信息以及如何将查询结果再转换为RDD，以便进一步分析。 (defn ecom ) 我正在使用flambov0.60API函数来抽象Apache火花函数，我也欢迎关于如何解决这个问题的任何建议。谢谢下面是Flambo行-> vec文档的链接：

浏览 3提问于2015-07-30得票数 1

回答已采纳

1回答

如何将Html验证结果保存到Databricks、DBFS或Azure Blob

azure-databricks、great-expectations

不久前我问了这个问题如何将远大期望的结果保存到Apache的文件中--使用数据文档答案集中在在Databricks中查看结果，但是我想知道如何将Html结果保存到文件中--无论是在Databricks DBFS上还是在Azure ADLS / Blob上。亚历克斯·奥特提到了以下几点：如果不使用Databricks，则可以将数据呈现为，并将其作为存储在某处的文件存储但是，我不确定他是否暗示如果我不使用Databricks，就不可能存储这些文件？在任何情况下，有人能告诉我如何存储/保存文件：我尝试了下面的代码，但得到了错误消息： ResourceNotFoundError:

浏览 3提问于2022-02-01得票数 0

1回答

如何在没有使用UDF的情况下对Spark SQL结果进行后处理

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我读过建议不要使用UDF来节省反序列化/序列化成本。在我的例子中，我执行了如下查询 select MYFUN(f1, f2, ...) from A ... 我使用MYFUN逐行对查询结果进行后处理，例如，将它们发送到另一个服务。 def my_fun(f1, f2, ...): service.send(f1, f2, ...) session.udf.register('MYFUN', my_fun) 在没有使用UDF的情况下，我可能想要将查询结果保存到Python数据框或hdfs上的Parque表中，然后通过数据帧读取，并逐个处理数据帧。问题是结果表很大

浏览 1提问于2019-03-07得票数 0

3回答

无法将Dataframe保存到本地Mac计算机

python、python-3.x、pyspark、databricks

我正在使用Databricks笔记本，并试图在查询数据帧后将其作为CSV导出到我的本地计算机。但是，它不会将我的CSV保存到我的本地计算机。为什么？连接到数据库 #SQL Connector import pandas as pd import psycopg2 import numpy as np from pyspark.sql import * #Connection cnx = psycopg2.connect(dbname= 'test', host='test', port= '1234', user= 'test'

浏览 4提问于2018-08-20得票数 1

回答已采纳

1回答

Azure Data Factory -如何从azure函数返回JSON作为参数并将其传递给Databricks服务？

azure、azure-functions、azure-data-factory、databricks

我正在使用azure函数和databricks服务构建pipline。在我的函数中，我返回从外部api获取的JSON。它是有效的，并且函数将其作为调用结果返回。我需要在我的数据库服务->中使用这个JSON，清除它并将它保存到sql中(我知道如何做这一部分)。我希望避免创建二进制json文件，而更喜欢将函数的结果直接传递给databricks。有没有办法做到这一点？我想过在databricks中使用python调用我的azure函数，但我不确定这是不是一种方法。

浏览 41提问于2021-09-15得票数 0

2回答

使用pyspark覆盖spark输出

python、apache-spark、pyspark

我正在尝试使用PySpark中的以下选项覆盖Spark数据帧，但未成功 spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path) mode=overwrite命令不成功

浏览 0提问于2016-03-08得票数 38

回答已采纳

3回答

如何将PySpark中的数据帧/RDD作为CSV/Parquet文件快速保存到磁盘？

apache-spark、pyspark、google-cloud-platform、google-cloud-storage、google-cloud-dataproc

我有一个正在运行的Google Dataproc集群，并且正在向它提交一个PySpark作业，该作业从Google Cloud Storage (945MB CSV文件，400万行-->总共需要48秒才能读入)读取一个文件到PySpark dataframe，并对该数据帧应用一个函数(parsed_dataframe = raw_dataframe.rdd.map(parse_user_agents).toDF() -->大约需要4到5秒)。然后，我必须将这些修改后的结果作为GZIP的CSV或Parquet文件保存回Google Cloud Storage。我还可以将这些修改后的

浏览 8提问于2017-08-01得票数 4

1回答

使用ADF向Databricks表传输数据时的数据类型转换为字符串

azure、azure-data-factory、databricks、azure-databricks

大图: Netezza表(有整数值，有datatime值) I将大表从转移到ADLS，然后从ADLS传输到数据库(再次使用ADF = Azure Data 数据直接从到Databricks由于不同的体系结构决策而搁置。详细信息： ADF有一个具有参数的通用流水线，使其能够读取所有 ADF提供的所有Netezza表，ADF允许每天使用一个管道，其中复制通用管道以覆盖所有netezza表。而且我无法通过ADF中的map选项卡进行更改，ADF在ADLS中写入数据作为CSV沿着ADF pipline行，我正在运行一个databricks笔记本，它将数据加载到databricks表中，我可以看到str

浏览 2提问于2022-01-12得票数 0

回答已采纳

2回答

按创建日期获取不同的行

dataframe、pyspark、databricks

浏览 14提问于2019-05-16得票数 0

回答已采纳

2回答

是否可以从Azure数据工厂读取Azure Databricks表？

azure、azure-data-factory、metabase、azure-databricks

我将一个表复制到Azure Databricks群集中，我想将此数据复制到Azure SQL数据库中，以便让其他用户从元数据库中分析此数据。是否可以通过Azure数据工厂访问databricks表？

浏览 10提问于2019-01-15得票数 0

1回答

将大型数据框导出到可供Power BI使用的单个文件的最佳方法

pyspark、powerbi、azure-databricks

我正在Azure Databricks中处理大量输入文件。我的最终数据帧大约有9800万行。我需要将其从Databricks导出，以便我可以将其导入Power BI进行报告。 Power BI目前似乎没有一个连接器可以解释分区的性质，如果我只是简单地将数据帧写入CSV。使用合并或转换为pandas数据帧并导出到CSV的速度非常慢，并且容易受到群集上的资源限制。我尝试过上述两种方法，但收效甚微。要以Power BI可以理解的方式有效地导出我的数据帧，我还有哪些其他选择？我不介意这是从Databricks方面还是从Power Query方面进行处理。

浏览 10提问于2019-04-29得票数 0

1回答

Spark DataFrame到Avro并将AVRO文件保存到Cassandra表中

apache-spark、cassandra、spark-dataframe、avro

我已经在Spark中创建了一个数据框，现在想将其保存为用户定义的AVRO格式，并将其保存到Cassandra表中。该怎么做呢？我已经尝试使用以下命令将其保存到本地AVRO文件： df.write().mode("append").format("com.databricks.spark.avro").save("/Users/xyz/AVRO Files/fifth");

浏览 0提问于2017-10-17得票数 0

1回答

如何在databricks中将数据帧结果保存到表中？

python、nlp、databricks

我正在尝试将已转换为dataframe的单词列表保存到databricks中的表中，以便稍后在集群重新启动时可以查看或引用它。我已经尝试了下面的代码，但它总是给我一个错误，或者我确实运行了，但我看不到数据库中的表 myWords_External=[['this', 'is', 'my', 'world'],['this', 'is', 'the', 'problem']] df1 = pd.DataFrame(myWords_External) df1.writ

浏览 16提问于2019-09-07得票数 0

1回答

spark写的SQL版本

sql、apache-spark、databricks

我只想在databricks上的SQL笔记本中使用SQL。我对一个表有一个查询，我想将查询结果保存到S3。同样，我只使用SQL。我知道如何用pyspark和scala来完成这个任务。

浏览 4提问于2020-10-29得票数 0

回答已采纳

1回答

如何从pyspark dataframe中更快地保存csv文件？

python、apache-spark、hadoop、pyspark

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

在Scala中将SQL表直接写入文件

scala、export-to-csv、azure-databricks

团队成员，我正在处理Azure databricks，我可以使用以下选项将数据帧写入CSV文件： df2018JanAgg .write.format("com.databricks.spark.csv") .option("header", "true") .save("dbfs:/FileStore/output/df2018janAgg.csv") 但是我正在寻找一种在Scala中将数据直接从SQL表写入CSV的方法。有没有人可以让我知道这样的选择是否存在。谢谢，斯里尼

浏览 28提问于2019-10-04得票数 1

2回答

如何在现有数据库之上创建具有只读访问权限的databricks数据库

databricks、delta-lake

我将用这张图片来想象我的问题： Databricks1在Databricks中创建数据库(和表)，并将其数据存储在存储帐户中。在Databricks2中，我想读取数据: Databricks2只具有读取权限。我可以直接读取原始的增量文件，但是我想要创建一个数据库和表，它也可以在Databricks UI中可视化。我认为它会以下列方式工作： CREATE DATABASE IF NOT EXISTS datastore_panels LOCATION '/mnt/readOnlyTraining/tmp/panels/'; 但是这会产生一个权限错误，尽管tmp/panel

浏览 2提问于2020-04-10得票数 2

回答已采纳

1回答

使用更改模式将数据插入到增量表中

scala、pyspark、databricks

如何通过改变数据库中的模式将数据插入到增量表中。在Databricks Scala中，我分解了一个Map列并将其加载到增量表中。我有一个预定义的增量表模式。假设模式有4列A、B、C、D。因此，有一天，我使用下面的代码将包含4列的数据帧加载到增量表中。 loadfinaldf.write.format("delta").option("mergeSchema", "true")\ .mode("append").insertInto("table") 数据帧中的列每天都会发生变化。例如，在第2天

浏览 18提问于2021-10-29得票数 0

1回答

将Databricks dataframe写入BLOB存储

azure-databricks

我正在使用Azure databricks，并且有一个挂载的BLOB存储区。我尝试使用以下命令将我的数据帧保存到那里： df.write.mode("overwrite").format("com.databricks.spark.csv").option("header","true").csv("/mnt/gl") 我得到了以下错误： shaded.databricks.org.apache.hadoop.fs.azure.AzureException: java.util.NoSuchElementExc

浏览 43提问于2019-01-14得票数 2

1回答

如何在数据库中获取用户名称？

scala、apache-spark、environment-variables、databricks

我正试图在Databricks中检索星火提交任务中的用户名，以便向表中写入有关正在更改数据的用户的附加信息。不幸的是，我找不到正确的方法。现在，我试着做两件事： spark.sparkContext.sparkUser 和 System.getProperty("user.name") 但他们都返回了root。你知道如何做到这一点吗？

浏览 5提问于2022-02-17得票数 1

回答已采纳

1回答

如何使用SparkR::read.jdbc()或sparklyr::spark_read_jdbc()来获取SQL查询的结果而不是整个表？

sql、r、jdbc、sparkr

我通常在本地使用RODBC查询我的数据库。然而，我们的公司最近转移到了Azure Databricks，它本身并不支持RODBC或其他odbc连接，但确实支持jdbc连接，这是我以前没有使用过的。我已经阅读了SparkR::read.jdbc()和sparklyr::spark_read_jdbc()的文档，但它们似乎从数据库中提取整个表，而不仅仅是查询的结果，这对我来说并不合适，因为我永远不需要提取整个表，而是运行将多个表连接在一起的查询，但只返回每个表中非常小的数据子集。我找不到使用jdbc连接器执行以下操作的方法： (A)运行引用同一数据库上的多个表的查询和 (B)将结果存储为R数

浏览 13提问于2020-03-03得票数 1

1回答

如何在databricks上的Pandas dataframe中使用SQL intersect操作符

python、sql、pandas

我在databricks上使用python 3.x。我有两个数据帧，a和b。a包含2行，b包含5行。当我使用下面的命令合并这两个数据帧时 combine=pd.merge(a,b,on=[...],how="inner") 我得到了10排。但我需要5行或数据帧中的最大行数。我尝试使用以下代码来实现SQL intersect combine=a.merge(b) 同样，我得到了10行。你能建议我如何在Python中实现intersect吗？

浏览 17提问于2020-09-14得票数 0

1回答

数据库上的sql sparklyr sparkr数据帧转换

r、sparkr、sparklyr、databricks

我使用以下代码在databricks上创建了sql表 %sql CREATE TABLE data USING CSV OPTIONS (header "true", inferSchema "true") LOCATION "url/data.csv" 下面的代码将该表分别转换为sparkr和r dataframe： %r library(SparkR) data_spark <- sql("SELECT * FROM data") data_r_df <- as.data.frame(data_spark

浏览 10提问于2018-07-25得票数 3

1回答

如何将每个dataframe分区写入不同的表

python-3.x、pyspark、azure-databricks

I使用Databricks连接到Eventhub，其中从EventHub发出的每条消息可能与另一条消息有很大的不同。在信息中，我有一个身体和一个身份。我正在寻找性能，所以我避免收集数据或做没有必要的处理，我也想通过分区并行保存。然而，我不知道如何正确地做到这一点。 --我想把每个ID的主体附加到一个不同的和特定的表中--，这个ID将提供我需要保存在正确表中的信息。为了做到这一点，我一直在尝试两种方法：分区:重新分区(numPartitions，ID) -> ForeachPartition 分组: groupBy('ID').apply(myFunction

浏览 2提问于2019-07-03得票数 0

回答已采纳

2回答

在数据库上运行时将PySpark标准输出和标准错误日志保存到云对象存储中

python、apache-spark、pyspark、azure-blob-storage、azure-databricks

我正在标准databricks集群上运行我的PySpark数据管道代码。我需要将所有Python/PySpark标准输出和标准错误消息保存到Azure BLOB帐户中的文件中。当我在本地运行Python代码时，我可以看到所有的消息，包括终端中的错误，并将它们保存到日志文件中。对于PySpark数据管道代码，如何使用Databricks和Azure BLOB实现类似的功能呢？这能办到吗？ (非常感谢:)

浏览 14提问于2022-07-05得票数 0

1回答

使用pyspark从databricks中删除红移表

pyspark、amazon-redshift、databricks、pyspark-dataframes

我尝试连接到一个名为stv_sessions的红移系统表，我可以将数据读取到数据帧中。此stv_sessions表是一个红移系统表，其中包含当前正在运行的所有查询的进程id。要从运行中删除查询，我们可以这样做。 select pg_terminate_backend(pid) 如果我直接连接到redshift (使用代理)，这对我来说是有效的，但当我试图从databricks运行时，它会给我带来不充分的占有权问题。简单地说，我不知道如何从databricks notebook运行查询。到目前为止我已经试过了， kill_query = "select pg_terminate_

浏览 5提问于2020-02-07得票数 0

1回答

ADLS Gen 1中DELTA格式文件外部表

pyspark、azure-databricks、delta-lake

我们在ADLS Gen1上创建了多个databricks DELTA表。而且，在其中一个databricks工作区中的每个表之上都构建了外部表。类似地，我试图在相同的DELTA格式文件上创建相同类型的外部表，但是在不同的工作区中。我在ADLS Gen1上确实读过通过服务原则进行的只读访问。因此，我可以通过星火数据帧读取DELTA文件，如下所示： read_data_df = spark.read.format("delta").load('dbfs:/mnt/data/<foldername>') 我甚至可以创建hive外部表，但在从同一个表读取

浏览 0提问于2020-11-11得票数 1

回答已采纳

1回答

pandas数据透视表上的文本格式

python、pandas、pymongo

我正在创建一个数据帧，然后将该数据帧转换为一个数据透视表。透视表中的文本和列标题在结果中居中对齐。我想将文本对齐设置为"left“。你能帮个忙吗？我尝试过df.to_string(justify = 'true')，但它抛出了一个属性错误，即"'Unicode' object has no attribute 'columns'" 这是我的数据框架： df = DataFrame({'Customer': CustomerCOL,'Title': titleCOL,'count

浏览 0提问于2016-06-11得票数 0

2回答

Azure DevOps管道与Databricks的集成+如何在管道结果屏幕上打印数据库记录结果

yaml、azure-pipelines、databricks、azure-databricks

我试图在DevOps管道中集成Azure，并使用以下URL： At Azure Databricks，在我的笔记本上创建了一个作业，使用了一个单独的VM和预装的Databricks-CLI，并将它设置为一个自托管池代理准备了一个正在管道中的YAML脚本，它在我的自我托管代理池上调用了上面的databricks作业。我的管道和数据库作业正在成功执行。但是我想提取笔记本电脑在pepeline中产生的输出，并在控制台上打印。通过这种方式，任何人都可以通过传递参数并在控制台屏幕上查看结果来触发管道。笔记本电脑主要以表数据的形式返回输出(例如从表中选择*)。有人能帮我做这个吗。

浏览 3提问于2021-03-19得票数 0

1回答

dataframe中每列的pyspark最大字符串长度

azure-databricks

浏览 92提问于2020-11-03得票数 0

回答已采纳

1回答

将azure数据工厂连接到Databricks SQL端点

azure-data-factory、azure-databricks、databricks-sql

我们可以从数据工厂连接到Azure端点吗？我正在使用数据工厂中的odbc连接器来创建到sql端点的链接服务，但是我没有这样做。在数据库sql端点UI中，我能够获取基于jdbc的连接字符串，但无法用odbc术语转换相同的连接字符串。我们无法访问Databricks工作区，因此不能编写Databricks记事本来访问SQL端点。但是，我们只能对Databricks sql表进行读级访问，因此我们使用odbc连接器在ADF.中设置链接服务。任何帮助都是非常感谢的。谢谢。

浏览 4提问于2022-04-17得票数 1

回答已采纳