Databricks - CSV未正确加载 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

Databricks - CSV未正确加载

databricks、azure-databricks

我有一个简单的csv文件，它是以竖线分隔的，我可以将它加载到Databricks中，然后显示df，它显示得很好。然后，我尝试使用以相同方式格式化的主数据集，并从SQL server中导出。加载后，输出显示它已加载(列出字段名称和它推断的数据类型--虽然都是字符串，但这不是一个好兆头) df = spark.read.format("csv").options(header='true',quote='"', delim

浏览 20提问于2019-01-15得票数 0

2回答

使用SparkR 1.5从RStudio中的hdfs读取大文件(纯文本、xml、json、csv)的选项

r、sparkr、apache-spark-1.5

我是Spark的新手，我想知道除了下面这些选项之外，是否还有其他选项可以使用SparkR从RStudio中读取存储在hdfs中的数据，或者我是否正确使用它们。数据可以是任何类型(纯文本、csv、json、xml或任何包含关系表的数据库)和任何大小(1kb -几gb)。SparkR) sc <- sparkR.init(master="local", sparkPackages="com.databricks:spark

浏览 6提问于2015-09-15得票数 5

1回答

我们能否在没有spark.sql的情况下将数据从熊猫数据加载到databricks表

python-3.x、pandas、databricks、azure-databricks

我有一个要求，把数据从csv/熊猫数据写到databricks表。我的python代码可能不在databricks集群上运行。我可能在一个孤立的独立节点上运行。我使用databricks python连接器从databricks表中选择数据。选择是有效的。但我无法从csv或熊猫的数据加载到数据库。我是否可以使用databricks python连接器将csv/pandas数据中的大量数据加载到<e

浏览 5提问于2022-08-19得票数 0

4回答

通过com.databricks.spark.csv加载RStudio

rstudio、sparkr

/bin/sparkR --master local[7] --packages com.databricks:spark-csv_2.10:1.0.3flights<- read.df(sqlContext, "data/nycflights13.csv", "com.databricks.spark.csv", header="true") 不幸的是，

浏览 0提问于2015-06-16得票数 4

回答已采纳

1回答

如何用星火从csv文件中写入avro文件？

java、csv、apache-spark、avro、spark-avro

= read.csv(path); DataFrameWriter<Row> format = write.format("com.databricks.spark.avro"); format.save("C:\\git\\sparkCsvToAvro\\src\\main\\resources\\avro")<version>${spark-core.ve

浏览 7提问于2017-05-09得票数 0

回答已采纳

3回答

如何将数据从dataframe导出到文件数据库

apache-spark、pyspark、databricks

是否有可能从我的计算机上的Databricks保存数据格式。我找到了这个解决方案

浏览 9提问于2016-07-27得票数 13

1回答

Json火花红移

json、scala、apache-spark、amazon-redshift

我有一个有多个嵌套的jsons的文件，我希望topush进行红移，我想首先可以将整个行保存为一个列字符串，然后保存。因此，我的问题是，如何在具有嵌套json的文件中读取，将每一行保存在一个列"message“的表中。假设我有一个样本json "OrderId": "foo",

浏览 3提问于2016-07-11得票数 1

回答已采纳

1回答

星星之火-xml在读取处理指令时崩溃。

xml、apache-spark、pyspark、databricks、apache-spark-xml

我正在尝试将XML文件导入数据文件，然后可以将其操作为平面文件，以便写入CSV。数据集足够大，我们需要某种处理程序，比如Spark。我已经翻阅了spark文档，没有发现任何关于处理指令的内容。").option("rowTag", "row").load("example.xml")spark-submit --packagescom.databricks:spark-

浏览 0提问于2019-08-20得票数 0

回答已采纳

1回答

加载Dataframe时从文件中移除CSV列

csv、apache-spark、pyspark、databricks

当通过databricks加载csv时，第2行第4列下面没有加载。csv的no列随行而变化。在test_01.csv中，s,d,a,d通过databricks加载上述csv文件，如下所示| s| d| a|

浏览 0提问于2019-01-31得票数 0

2回答

Spark SQL -如何将DataFrame写入文本文件？

java、apache-spark-sql

我正在使用Spark SQL读拼图和写拼图文件。是否支持任何默认方法，或者我必须将该DataFrame转换为RDD，然后使用saveAsTextFile()方法？

浏览 1提问于2016-03-15得票数 11

回答已采纳

1回答

“格式()”在火花放电中加载数据时做什么

apache-spark、pyspark

我开始使用spark，通常在从云中加载数据时，我会看到以下代码我的问题如下:这里我们似乎有两个数据集:一个是com.databricks.spark.csv

浏览 0提问于2017-03-06得票数 0

6回答

如何在Apache预构建版本中添加任何新的库(如Spark csv)

python、apache-spark、apache-spark-sql

我已经构建了，并能够使用下面的命令使用同样的pyspark错误获取Traceback (most recent call last): File "<stdin>",in g

浏览 13提问于2015-06-10得票数 26

回答已采纳

1回答

Pyspark sqlContext.read.format和registerDataFrameAsTable

pyspark、pyspark-sql

我刚开始使用spark sql，想知道如何在加载数据帧后使用"registerDataFrameAsTable“将其转换为表？我有所有的标题和格式正确，但我似乎不能转换成一个table.Is，有其他方式，你应该使用?？df = (sqlContext.read.format("com.databricks.spark.csv")

浏览 0提问于2018-02-22得票数 0

1回答

带有多字符分隔符的Apache火花数据文件

python、python-3.x、apache-spark、databricks

我有一个使用多字符分隔符的"CSV“文件，因此数据看起来类似于在Databricks内部的笔记本中，下面的代码会在第二行抛出错误(如下所示)，其中它试图将dataframe df写入目标表： df = spark.read.csv(".../Test/MyFile.csv", sep="^|^,^|^", header="true", inf

浏览 1提问于2022-05-12得票数 0

1回答

试图加载jar和外部类

mysql、jdbc、apache-spark、apache-zeppelin

在我的zeppelin-env.sh中，我以jar方式加载一个JDBC MySQL连接器，如下所示此外，我还想加载Databricks CSV包，它应该以2种(或更多)方式工作： %dep z.l

浏览 3提问于2015-11-11得票数 0

回答已采纳

1回答

Spark Dataframe:行对象分隔符

scala、apache-spark、spark-dataframe

提前谢谢。例如，假设我有3列 |-- field1: string (nullable = true) |-- field3

浏览 3提问于2016-04-08得票数 0

1回答

SparkR和软件包

r、apache-spark、sparkr

下面是我试图在hdfs中访问我的test.csv的例子library(SparkR)但是得到的错误如下： Caused by: java.lang.RuntimeException: Failedto load class for

浏览 1提问于2015-06-20得票数 2

回答已采纳

3回答

Spark:将CSV转换为RDD[Row]

scala、apache-spark、apache-spark-sql、rdd

我有一个.csv文件，它包含258列，结构如下。. , "index_257"]val data_csv = sc.textFile("~/test.csv") val rowRDD = data_csv.map(_.split(",")).map(p => Row( _ => p(_).

浏览 20提问于2017-07-24得票数 0

回答已采纳

1回答

在SparkR中查找文件

apache-spark、sparkr

我正在运行一个SparkR应用程序。我有一个初始化SparkR的R脚本。我需要在其他文件中使用一个函数，就像我们在正常的R文件名中所做的那样，我调用了源文件(“language.When”)，它显示找不到文件。如何调用文件？

浏览 0提问于2016-11-04得票数 0

1回答

在pyspark代码中加载外部库

python、csv、apache-spark、pyspark

我想阅读带有databricks外部库spark.csv的csv。sc=SparkContext()df = sq.read.format('com.databricks.spark.csv').options(header=: Failed to load class for data source: com.databricks.spark.csv.我的问题是:如何在python代码中加载</em

浏览 3提问于2016-02-11得票数 2

回答已采纳

点击加载更多