Pyspark :无法在Zeppilin实例中导入csv文件

Pyspark是一种基于Python的Spark编程框架，用于在大数据处理和分析中进行并行计算。它结合了Python的简洁性和Spark的高效性，可以处理大规模数据集并提供分布式计算能力。

针对你提到的具体问题，在Zeppelin实例中导入csv文件时，可能会遇到一些问题。以下是一个可能的解决方案：

确保Pyspark和相关依赖已正确安装。你可以通过在终端或命令提示符中运行pyspark命令来验证Pyspark是否能够正常启动。如果无法启动，可能需要检查Spark和相关环境变量的配置。
在Zeppelin中，使用%spark.pyspark魔法命令来指定使用Pyspark解释器。这将确保你正在使用Pyspark环境来运行代码。
使用pyspark.sql.DataFrame类中的read.csv()方法来读取csv文件。例如，可以使用以下代码来读取名为"data.csv"的文件：

df = spark.read.csv("data.csv", header=True, inferSchema=True)

其中，header=True表示csv文件包含头部行，inferSchema=True表示自动推断列的数据类型。你可以根据需要进行调整。

确保csv文件的路径是正确的，可以使用绝对路径或相对路径。如果文件不在当前工作目录中，可能需要提供完整的文件路径。
如果在Zeppelin中仍然无法导入csv文件，请检查Zeppelin和Spark的日志文件，以查看是否有任何错误或异常信息。根据具体情况调整配置或查找相关解决方案。

至于推荐的腾讯云产品，对于使用Pyspark进行大数据处理和分析，你可以考虑使用腾讯云的Tencent Analytics Platform（TAP）产品。TAP是一种基于云计算和大数据分析的服务，提供了Pyspark等开源框架的支持，使得数据处理和分析更加简单和高效。

产品介绍链接地址：腾讯云Tencent Analytics Platform（TAP）

请注意，以上答案仅供参考，具体解决方案可能因环境和配置而异。在实际应用中，建议根据具体情况进行调整和测试。

如何在IPython笔记本中加载jar依赖项

、、、

鼓励我尝试使用spark-csv来读取PySpark中的.csv文件。我发现有几篇文章描述了如何使用，比如但是我无法通过在启动过程中包含.jar文件或包扩展名来初始化ipython实例，这可以通过spark-shell来完成。也就是说，它不是 ipython notebook --profile=pyspark 我试过了 ipython notebook --profile=pyspark --packages com.databricks:spark-csv_2.10:1.0.3 但它不受支持。请给我建议。

浏览 1提问于2015-11-25得票数 8

1回答

Pyspark:在运行时为when()子句动态生成条件

、、

我已将csv文件读入pyspark dataframe。现在，如果我在when()子句中应用条件，那么当条件在runtime之前给出时，它会很好地工作。 import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import functions from pyspark.sql.functions import col sc = SparkContext('local', 'example') sql_sc =

浏览 0提问于2019-11-08得票数 0

回答已采纳

2回答

如何使用Apache在AWS集群上运行代码？

、、、

我编写了一个python代码，将每个csv文件的第一列中的所有数字相加，如下所示： import os, sys, inspect, csv ### Current directory path. curr_dir = os.path.split(inspect.getfile(inspect.currentframe()))[0] ### Setup the environment variables spark_home_dir = os.path.realpath(os.path.abspath(os.path.join(curr_dir, "../spark")))

浏览 5提问于2015-07-16得票数 1

回答已采纳

1回答

TypeError:无效参数，而不是字符串或列：< 0x7f1f357c6160>类型的<class‘>函数’>

、、

我使用下面的代码片段，它创建了Databricks目录中所有.csv文件的列表。 csv_dir = '/my_dir/' csv_paths = list(filter(lambda x: '.csv' in x, os.listdir(csv_dir))) 但是，它会产生以下错误 TypeError: Invalid argument, not a string or column: <function <lambda> at 0x7f1f357c6160> of type <class 'function'&g

浏览 3提问于2021-10-05得票数 3

回答已采纳

1回答

将csv.writer(csv.writer())- Python更改为PySpark

、、、

我正在尝试应用一个用Python语言编写的函数，以便在PySpark上可读。 open()函数在PySpark中不可读。在这种情况下如何更换？我有一个需要排序的非结构化列表： import csv from operator import itemgetter my_list = [ [3, 'ab','ac','ad'], [4, 'ae','af','at','aj','aa'], [1, 'ar'

浏览 29提问于2021-10-15得票数 0

1回答

Pyspark:从blob存储加载一个zip文件

、、、

我正在使用Pyspark尝试从blob存储区读取zip文件。我想在加载文件后将其解压缩，然后将解压缩的CSV写回blob存储。我遵循这个指南，它解释了如何解压缩文件一次读：但这并不能解释我是如何从blob中读到拉链的。我有以下代码 file_location = "path_to_my.zip" df = sqlContext.read.format("file_location").load 我希望这样可以以df的形式将zip加载到databricks，然后按照本文的建议解压缩，将csvs加载到dataframe，然后将数据返回到blob。对于如何使用p

浏览 3提问于2020-04-21得票数 1

4回答

将csv文件内容导入pyspark数据格式

我如何将一个.csv文件导入？我甚至尝试在Pandas中读取csv文件，然后使用createDataFrame将其转换为createDataFrame，但它仍然显示出一些错误。有人能指引我渡过难关吗？另外，请告诉我如何导入xlsx文件？我试图将csv内容导入熊猫数据格式，然后将其转换为spark数据帧，但它显示了错误： "Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeExceptio

浏览 0提问于2016-08-01得票数 14

1回答

能够读进RDD，但不能读到火花数据格式

、

我正在学习一篇关于pyspark的教程，并有以下代码： * %%pyspark people = spark.read.option("header", True).option("inferSchema",True).csv("abfss://user-797427@strprmsandboxpoc001.blob.core.windows.net/pysparkCourse/fakefriends-header.csv") 这会产生以下错误： AnalysisException:无法推断CSV的架构。必须手动指定。回溯(最近

浏览 3提问于2022-01-25得票数 0

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0

2回答

PySpark: ModuleNotFoundError:没有名为“app”的模块

、

我使用以下语句将数据存储到PySpark中的CSV文件： df_all.repartition(1).write.csv("xyz.csv", header=True, mode='overwrite') 但是我的错误越来越少了 Caused by: org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/opt/spark-2.3.0-bin-hadoop2.7/python/lib/pyspark.zip/pyspark/worker

浏览 0提问于2019-07-05得票数 7

回答已采纳

2回答

我能够使用Talend job创建.csv文件，并且我想使用tSystem组件将.csv转换为.parquet文件？

我有一个创建.csv文件的Talend作业，现在我想使用Talend v6.5.1转换.parquet格式。我能想到的唯一选择是，tSystem组件从.csv临时登陆的本地或目录调用python脚本。我知道我可以使用pandas或pyspark很容易地将其转换，但我不确定同样的代码是否适用于Talend中的tSystem。能否请您提供建议或说明- 代码： import pandas as pd DF = pd.read_csv("Path") DF1 = to_parquet(DF)

浏览 23提问于2019-07-10得票数 0

1回答

从Sparkcontext对象读取应用程序配置

我正在开发一个火花应用程序使用火花公子外壳。我使用下面的命令启动了iPython笔记本服务，参见如何创建配置文件： IPYTHON_OPTS="notebook --port 8889 --profile pyspark" pyspark 根据这些文档，已经为我创建了一个带有一些默认配置的sc spark上下文对象。在PySpark shell中，已经在名为sc的变量中为您创建了一个特殊的解释器感知的SparkContext。使您自己的SparkContext无法工作。我基本上有两个问题： (1)如何获得默认sc对象的配置摘要？我想知道分配了多少内存，我可以use

浏览 4提问于2014-12-28得票数 2

2回答

星火作业中不存在蜂窝表。

、、、、

我正在使用电子病历中的蜂巢Metastore。我可以通过HiveSQL或SparkSQL手动查询表。但是当我在星火作业中使用相同的表时，它会说表或视图找不到 File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 69, in deco pyspark.sql.utils.AnalysisException: u"Table or view not found: `logan_test`.`salary_csv`; line 1 pos 21; 'Aggregate

浏览 1提问于2017-12-20得票数 3

回答已采纳

1回答

将多个列的值存储在新列下的pyspark dataframe中

、、

我从csv文件导入数据，其中包含列Reading1和Reading2，并将其存储到pyspark数据帧中。我的目标是有一个新的列名为Reading，它的值是一个包含Reading1和Reading2值的数组。怎样才能在pyspark中实现同样的效果。 +---+-----------+-----------+ | id| Reading A| Reading B| +---+-----------------------+ |01 | 0.123 | 0.145 | |02 | 0.54

浏览 9提问于2019-09-22得票数 0

回答已采纳

3回答

删除pyspark中所有列名中的空格

我是pySpark的新手。我收到了一个csv文件，大约有1000列。我正在使用databricks。大多数这些列之间有空格，例如“总收入”，“总年龄”等。我需要更新所有的列名与空格下划线‘_’。我已经试过了 foreach(cloned.Columns中的DataColumn c) c.ColumnName = String.Join("_"，c.ColumnName.Split())；但它在databricks上的Pyspark中不起作用。

浏览 1提问于2019-08-02得票数 1

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

导入包含py文件的压缩程序库失败

、、、

我必须维护一个用pyspark运行的收费代码。它使用了一种我从未见过的方法。我将一些可重用的代码压缩到一个ingestion.zip文件中。然后，使用如下所示的pipeline.cfg文件调用此文件： [spark] master=spark://master py-files=${HOME}/lib/ingestion.zip spark-submit=${SPARK_HOME}/bin/spark-submit 当我尝试导入如下所示的库时，我无法让Pycharm理解库应该指向zip文件。 from ingestion.data import csv, storage 我已经看到这个zip

浏览 10提问于2020-08-20得票数 0

1回答

将array<string>转换为string pyspark dataframe

、、、、

浏览 2提问于2017-09-11得票数 5

回答已采纳

2回答

如何将电火花数据发送到卡夫卡主题？

、、、、

火花放电版本- 2.4.7卡夫卡版本- 2.13_3.2.0 嗨，我是新的火种和流属性。我在互联网上遇到了很少的资源，但我仍然无法弄清楚如何向kafka经纪人发送一个火花放电数据帧。我需要写一个制片代码。我正在从一个csv文件中读取数据，并试图将其发送到kafka主题。请帮我解决代码和配置。 import findspark findspark.init("/usr/local/spark") from pyspark.sql import SparkSession from pyspark.streaming.kafka import KafkaUtils from pysp

浏览 21提问于2022-06-13得票数 0

2回答

MS-Access:对链接CSV文件的缓慢查询

、、、

我的Access 2016 db有几个CSV文件的链接，其中一些文件相当大(>120 db)。当在这些CSV文件上运行复杂查询时，速度太慢，无法实用。我无法为这些链接的CSV文件创建本地表，因为每次运行查询周期之后，这些CSV文件都会由外部服务器用更新的数据刷新。我能做些什么来显着地加快速度？

浏览 5提问于2016-08-14得票数 1

回答已采纳

1回答

在PySpark中，SparkSession和Databricks的Spark-CSV模块在导入CSV文件方面有什么不同？

、、

我知道在PySpark中导入CSV文件的两种方法： 1)我可以使用SparkSession。这是我在Jupyter Notebook中的完整代码。 from pyspark import SparkContext sc = SparkContext() from pyspark.sql import SQLContext sqlContext = SQLContext(sc) from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Spark Session 1').getOrC

浏览 28提问于2019-10-18得票数 2

回答已采纳

1回答

读取DataFrames时，PySpark中的.csv文件。我得到了这个错误“名称‘火花’是不定义的”

、、

rom pyspark导入SparkConf 从pyspark.context导入SparkContext 从pyspark.sql导入SparkSession，SQLContext 从pyspark.sql.types导入* df = spark.read.csv("/home/sourabh/Downloads/1535617931_LMS_DATA_1.csv"，inferSchema=True，header=True) df.printSchema()

浏览 0提问于2020-04-20得票数 0

3回答

PySpark:如何将逗号指定为十进制

、、

我正在使用PySpark并加载一个csv文件。我有一个带有欧洲格式数字的列，这意味着逗号代替了点，反之亦然。例如:我使用2.416,67而不是2,416.67。 My data in .csv file looks like this - ID; Revenue 21; 2.645,45 23; 31.147,05 . . 55; 1.009,11 在熊猫中，通过在decimal=','和thousands='.'选项中指定pd.read_csv()来读取欧洲格式，可以轻松地读取这样的文件。 Pandas代码： import pa

浏览 0提问于2018-10-08得票数 13

回答已采纳

1回答

使用pyspark内核模式从sagemaker读取csv.gz文件

、、、、

我正在尝试在pyspark中读取压缩的csv文件。但是我无法在sagemaker的pyspark内核模式下阅读。当内核是conda-python3 (在sagemaker中)时，我可以使用pandas读取相同的文件。我尝试过的： file1 = 's3://testdata/output1.csv.gz' file1_df = spark.read.csv(file1, sep='\t') 错误消息： An error was encountered: An error occurred while calling 104.csv. : java.io.I

浏览 0提问于2020-10-07得票数 0

1回答

Windows (Spyder)：如何使用pyspark读取csv文件

、、

我使用以下代码读取csv文件 import os import sys os.environ["SPARK_HOME"] = "D:\ProgramFiles\spark-2.1.0-bin-hadoop2.7" os.environ["PYLIB"] = os.environ["SPARK_HOME"] + "/python/lib" sys.path.insert(0, os.environ["PYLIB"] +"/py4j-0.10.4-src.zip") sys.path.

浏览 0提问于2017-03-05得票数 2

1回答

我如何安装/导入火花放电-csv？

、、

我试图在PySpark中使用CSV文件中的数据。我发现了一个叫做PySpark的模块，它完全可以满足我的需要。根据的说法，“不需要安装”，所以我想我可以将源代码解压缩到我的Python中的一个名为'pyspark_csv‘的目录中，然后运行他们网站上列出的命令： import pyspark_csv as pycsv sc.addPyFile('pyspark_csv.py') 但是，这会使我出现一个导入错误，说明它找不到pyspark_csv。自述对我没有任何进一步的帮助，其他信息是稀缺的。这里有人熟悉这个模块吗？

浏览 4提问于2015-07-29得票数 2

回答已采纳

1回答

将Larga数据加载到amazon sagemaker笔记本上

、、、、

我有两个文件夹，每个文件夹上有70个csv文件，每个文件的大小从3mb到5mb，所以数据一般是2000万行，每个列有5列。我使用amazon s3.read_csv将包含所有70 csv的一个文件夹加载到一个dataframe中，但由于数据非常大，不确定这是否是一种好方法。我想知道如何使用aws wrangler s3.readcsv从这两个文件夹加载整个csv文件，还是应该使用pyspark？另外一个问题是，是否可以在本地使用？我不确定在管道开发中使用sagemaker笔记本是否会对我的客户造成很大的损失。

浏览 9提问于2022-05-17得票数 0

1回答

如何在Spark中处理多个csv.gz文件？

、、、、

我有一个包含多个表的大型数据集。每个表被分成数百个csv.gz文件，我需要通过PySpark将它们导入到Spark中。有关于如何将"csv.gz“文件导入到Spark的想法吗？SparkSQL的SparkContext或SparkSession是否提供了导入此类文件的功能？

浏览 22提问于2017-07-06得票数 1

1回答

使用Spark将列名附加到列值

、、、

我在逗号分隔的文件中有数据，我已经将其加载到spark数据框中:数据如下： A B C 1 2 3 4 5 6 7 8 9 我想在spark中使用pyspark将上面的数据帧转换为： A B C A_1 B_2 C_3 A_4 B_5 C_6 -------------- 然后使用pyspark将其转换为list of list： [[ A_1 , B_2 , C_3],[A_4 , B_5 , C_6]] 然后在上述数据集上使用pyspark运行FP增长算法。我尝试过的代码如下： from pyspark.sql.functions im

浏览 8提问于2019-08-12得票数 1

回答已采纳

2回答

Pyspark读取csv - NameError:未定义名称“spark”

、、

我尝试在databricks中运行以下代码，以便调用spark会话并使用它打开csv文件： spark fireServiceCallsDF = spark.read.csv('/mnt/sf_open_data/fire_dept_calls_for_service/Fire_Department_Calls_for_Service.csv', header=True, inferSchema=True) 我得到了以下错误： NameError:name 'spark' is not defined 你知道可能出了什么问题吗？我还试着运行： from py

浏览 2提问于2016-11-23得票数 2

1回答

spark sql日期间隔sql查询不起作用

、、、、

我的目标是每天每隔15分钟显示一次数据(由csv文件提供)。我提出的解决方案是一个sql查询，它创建我需要的数据： select dateadd(minute, datediff(minute, 0, cast ([date] + ' ' + [time] as datetime2) ) / 15 * 15, 0) as dateInterval, SecurityDesc, StartPrice, SUM(CAST(TradedVolume as decimal(18,2))) as totalTradedVolume, SUM(c

浏览 1提问于2018-09-06得票数 1

4回答

无法访问pyspark中的本地文件。

、

我试图在Yarn框架上以客户端模式读取本地文件。我也无法在客户端模式下访问本地文件。 import os import pyspark.sql.functions as F from os import listdir, path from pyspark import SparkConf, SparkContext import argparse from pyspark import SparkFiles from pyspark.sql import SparkSession def main(): spark = SparkSession \ .builder \

浏览 1提问于2018-10-18得票数 1

回答已采纳

1回答

Py4JJavaError:调用o389.csv时出错

、、

我是新来的。我正在使用databricks运行pyspark。我的数据存储在Azure数据湖服务中。我正在尝试将csv文件从ADLS读取到pyspark数据帧。所以我写了下面的代码 import pyspark from pyspark import SparkContext from pyspark import SparkFiles df = sqlContext.read.csv(SparkFiles.get("dbfs:mycsv path in ADSL/Data.csv"), header=True, inferSchema= True) 但是我收到了

浏览 27提问于2020-10-05得票数 2

1回答

Conda无法从YML中找到一些环境包(pyspark)

、、

我有一个同事保存的.yml文件。我无法使用conda env create -f file.yml重新创建环境(在Ubuntu上使用anaconda和miniconda，以及两者的官方docker镜像) 我尝试将- conda-forge添加到channels中，但这并没有改变任何事情，我仍然得到： Collecting pyspark==2.1.1 Could not find a version that satisfies the requirement pyspark==2.1.1 (from versions: ) No matching distribution found f

浏览 26提问于2017-07-04得票数 0

1回答

火花源中双引号的问题

、、、

我的源文件如下所示，我正试图在pyspark中读取此文件以进行进一步的转换。 "ID","FNAME","LNAME","AGE","DESIGNATION" "1","John","Denver","34","Tech Staff" "2","Philip","Spencer","30","Tech Staff "CONTRACT""

浏览 1提问于2020-11-11得票数 0

1回答

如何在spark上使用双定界符从文件中读取数据

、、

有没有人能帮帮忙，怎么处理这个案子。 PySpark代码： from pyspark.sql import SparkSession, types spark = SparkSession.builder.master("local").appName('read csv').getOrCreate() sc = spark.sparkContext df = spark.read.option('delimiter', ',').csv('filename') #错误:错误超过1个字符。

浏览 15提问于2020-10-27得票数 0

3回答

按pyspark日期过滤文件

、、

我正在尝试使用pyspark从databricks datalake中提升一些文件。为此，我使用"sqlContext“语句来创建数据框，这样做没有问题。每个文件都按创建日期命名，例如"20211001.cv“。这些信息每天都会出现，我使用"* .csv“来获取它们。但现在我需要将文件从某个日期向前移动，但我找不到方法，这就是为什么我会求助于您。我使用的语句风格如下： df_example= (sqlContext .read .format("com.databricks.spark.csv")

浏览 58提问于2021-11-09得票数 1

1回答

如何使用pyspark从数据库中的ADLS Gen2 Datalake的“文件共享”中读取csv文件

、、

我有“斑点容器”和“文件共享”的ADLS Gen2 Datalake。我已经在Databricks笔记本中安装了Blob容器，因此我可以读取databricks笔记本中的所有内容。我在“文件共享”中也有一些文件，但我无法使用pyspark将这些文件读取到dataframe thorugh中。我已经为文件共享创建了一个访问签名，并且还获得了共享中的一个文件的url。这个url通过Postman运行得很好。我可以用网址下载那个文件。示例url如下所示： https://somedatalakename.file.core.windows.net/file_share_name/Data_2

浏览 17提问于2020-03-30得票数 0

1回答

用不同的头序追加多个CSV文件

、、、

我有一个包含CSV文件的目录，这些文件具有相同的列，但顺序不同。我想将它们附加到一个CSV文件中，但是当使用pyspark使用以下代码时，我会得到csv，但是里面有混合数据(也就是说，它没有正确地排序列的顺序)。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.functions import col sc = SparkContext("local", "Simple App") sqlContext = SQLContext(s

浏览 1提问于2018-02-21得票数 0

1回答

在读取pyspark中的csv时，SQLContext对象没有读取的属性

、、

我将csv文件加载到pyspark中，如下所示(在pyspark shell中)： >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv') 但是我得到了这个错误： Traceback (most recent c

浏览 0提问于2015-10-06得票数 4

回答已采纳

4回答

使用mongoimport导入数据类型

、

我在PostgreSQL数据库中存储了许多GB数据，我需要将这些数据导入到MongoDB中。我使用CSV导出和mongoimport实现了这一点。在该CSV中有类似于'2011-06-25‘的列，它已经作为字符串导入，而不是作为MongoDate导入，因此我无法按日期进行有效的搜索。我已经找到了这个：，但是这个例子说，我需要对文件使用JSON结构。我真的需要从PostgreSQL导出JSON文件吗？如果我想的话-怎么做？？如果我没有，如何通过CSV导出"MongoDate“？

浏览 6提问于2011-06-25得票数 11

回答已采纳

1回答

我如何让熊猫使用星火簇？

、、、

在pandas中的主要问题是它不能处理大量的操作数据，内存不足，无法处理大量的CSV文件，现在我在Hadoop中切换到Pyspark1.6，我已经尝试了dask.dataframe，但问题仍然存在，为什么让pandas与Hadoop集群或pyspark集群一起工作?我想在pandas中使用这个功能 import pandas as pd df = pd.read_csv('text1.txt',names =['DATE','IMSI','WEBSITE','LINKUP','LINKDOWN',

浏览 12提问于2019-01-30得票数 3

回答已采纳

1回答

Pyspark :云存储中来自多个文件的增量ETL

、、、、

我有大约500-700 csv文件的日志加载每周。文件名是每周随机生成的。这些文件存储在google云存储上，pyspark在google dataproc上运行，有几个工作节点。我已经创建了一个pyspark文件，它基本上只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表上看到增量加载，但似乎pyspark会将整个gz输入文件合并到dataframe中，然后立即处理它。所以我在大约90分钟后得到了结果。我如何编写pyspark代码，以便每次读取文件时，都会将其写入bigquery。总体时间可能不会有太大变化，但至少我如何才能看到部分写入bigquery的数据？

浏览 22提问于2021-10-10得票数 1

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题的答案，但我还没有找到关于我想要做什么的具体说明。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能推断出CSV的模式。 #Load Data source = <Blob SAS URL> elog = spark.read.format("csv").option("i

浏览 21提问于2019-04-28得票数 0

1回答

Pyspark无法读取以特殊字符(ø)作为分隔符的csv文件

、、、

我的csv文件如下所示： idøageøname 1ø25øAshutosh 2ø21øShipra 3ø11øNimisha 4ø15øBhavya 5ø7øSammridha 我无法读取此csv文件(分隔符为ø)。下面的Pyspark命令将整行读取为一列，而不是3列。 df = spark.read.option("header", "true").option("sep", "ø").csv('file_path.csv')

浏览 37提问于2020-07-20得票数 1

回答已采纳

1回答

PySpark使用自定义记录分隔符读取CSV文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

1回答

使用自定义列和记录删除器读取pyspark中的文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列，但它只计为一行 from pyspark import SparkContext sc = SparkSession.builder.appName('temp').getOrCreate() df = sc.read.format('csv').option("header", "fals

浏览 11提问于2021-05-26得票数 0

2回答

pyspark:将数据帧写入拼图

、、

在运行pyspark脚本加载拼图面板时，我遇到了以下错误。交互模式工作正常： df_writer = pyspark.sql.DataFrameWriter(df) df_writer.saveAsTable('test', format='parquet', mode='overwrite',path='xyz/test_table.parquet') 脚本模式抛出错误： /opt/mapr/spark/spark-2.0.1//bin/spark-submit --jars /opt/mapr/spark/spark-2

浏览 1提问于2017-02-17得票数 2

2回答

Pyspark读取csv

、、

新的pyspark，并希望读取csv文件到数据帧。看起来不能读。有什么帮助吗？ from pyspark.sql import SQLContext import pyspark from pyspark.sql import Row import csv sql_c = SQLContext(sc) rdd = sc.textFile('data.csv').map(lambda line: line.split(",")) rdd.count() ()中的Py4JJavaError回溯(最近一次调用)->1 rdd.count()

浏览 3提问于2018-05-14得票数 1

回答已采纳

1回答

如何在读取pyspark dataframe中的csv文件时读取选定的列？

、、、

在读取csv文件时，我正在尝试读取选定的列。假设csv文件有10列，但我只想读取5列。有没有办法做到这一点？ Pandas我们可以使用usecols，但是在pyspark中也有可用的选项吗？ df=pd.read_csv(file_path,usecols=[1,2],index_col=0) Pyspark： ?

浏览 6提问于2021-03-04得票数 1