我正在尝试运行查询,并将结果另存为CSV文件,该文件将上载到SharePoint文件夹。这是通过Pyspark在Databricks中实现的。
我的下面的代码几乎可以做到这一点,但是最后一行不能正常工作--在SharePoint中生成的文件不包含任何数据,尽管数据帧包含。
我是Python和Databricks的新手,如果有人能提供一些关于如何纠正最后一行的指导,我将非常感激!
from shareplum import Site
from shareplum.site import Version
import pandas as pd
sharepointUsername =
shar
我在azure上使用databricks,当我像这样尝试从adls读取数据时,Pyspark会时不时地读取倾倒在azure数据湖存储adls中的数据:
spark.read.format('delta').load(`/path/to/adls/mounted/interim_data.delta` )
它抛出以下错误
AnalysisException: `/path/to/adls/mounted/interim_data.delta` is not a Delta table.
数据必须存在
当我运行时,文件夹内容和文件就会显示出来
%fs ls /path/to/adl
我在亚马逊网络服务s3中有一个分隔的.txt文件。datan由þ 839729þ25þad@xxx.comþfirstnameþlastnameþ0þBLACKþ28/08/2017þ12329038þ99þ287þ81þ0分隔
我尝试使用databricks and sparkcontext导入数据。虽然databricks方法运行时没有抛出错误,但数据帧中没有数据。spark上下文只是抛出了一个错误- Cannot run multiple SparkContexts at once.
下面是我尝试过的两个appraoches的代码:
from pyspark import SparkCo
当尝试在PyCharm上启动并运行Pyspark时(通过使用亚马逊网络服务的数据库),我得到了以下错误:
Spark service enabled. To enable the Spark service on this cluster, go to
https://....cloud.databricks.com/?o=...#setting/clusters//#setting/clusters/.../configuration
and add the following to the cluster's Spark config:
spark.databricks.serv
在Databricks中,我有一个现有的delta表,我希望在其中再添加一个列,作为Id,这样每一行都有唯一的id no,并且是连续的(主键在sql中的存在方式)。
到目前为止,我已经尝试将delta表转换为,并将新列添加为
from pyspark.sql.window import Window as W
from pyspark.sql import functions as F
df1 = df1.withColumn("idx", F.monotonically_increasing_id())
windowSpec = W.orderBy("idx"
我已经阅读了配置databricks-connect的文档,但是在运行databricks-connect test时仍然会遇到下面的错误
来自终端的错误
java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.STRING_REDACTION_PATTERN()Lorg/apache/spark/internal/config/ConfigEntry;
error: not found: value spark import spark.implicits._
error: not found: value