Pyspark:读取多个csv文件并使用源代码对其进行注释_使用Python Flask上传CSV文件并对其进行处理_比较多个csv文件名并相应地对其进行分组 - 腾讯云开发者社区

python、apache-spark、pyspark

我们遇到了批量文件吞入spark的问题。目前，我知道可以使用通配符完成多个文件插入 spark.read.csv("path/to/file*.csv") 或者通过传递感兴趣的路径列表 spark.read.csv(["path/to/file1.csv", "path/to/file2.csv"]) 在我们的情况下

浏览 9提问于2021-08-12得票数 1

回答已采纳

1回答

读取CSV文件并对其进行标记。

r、data-analysis

我是R的新手，我一直在尝试读取这样的CSV文件。tweets <- read.csv("tweets.csv") 我需要能够删除所有的标点符号，转换为小写，删除数字和停止词和空格从数据帧'tweets‘，而不必将其转换为语料库或其他。

浏览 2提问于2017-10-11得票数 0

3回答

CSV解析时跳过空行

java、csv

我目前正在从URL中拉出一个CSV文件并修改它的条目。我目前使用StreamReader来读取CSV的每一行，并将其拆分为一个数组，在数组中我可以根据每个条目的位置对其进行修改。CSV是从电子表单提供者生成的，其中特定的表单条目是多行字段，用户可以在其中添加多个注释。但是，当用户输入新笔记时，他们会用一个回车行分隔每个笔记。CSV示例： "FName&q

浏览 0提问于2015-12-06得票数 0

1回答

PythonSpark:需要从文件列执行单元查询

python、pandas、apache-spark、hive、pyspark

我有一个文件，其行如下(文件名：sample.csv)T1012,"Select * from employee_dim limit 100"T1231,"Select dept_number,location,dept_name from locations" 我需要迭代这个文件(sample.csv)并<

浏览 0提问于2019-08-01得票数 2

回答已采纳

1回答

如何防止pyspark在以JSON对象为值的csv字段中将逗号解释为分隔符

python、csv、pyspark

我正在尝试使用pyspark版本2.4.5和Databrick的星火- csv模块读取一个逗号分隔的csv文件。csv文件中的一个字段有一个json对象作为其值。csv的内容如下header_col_1, header_col_2, header_col_3one, {“key1”:“value1",“key2下面是我用来读取<

浏览 6提问于2020-07-22得票数 2

1回答

验证CSV文件PySpark

csv、apache-spark、dataframe、pyspark

我正在尝试验证csv文件(每条记录的列数)。根据下面的链接，在Databricks 3.0中有处理它的选项。df = spark.read .parquet("/input/parquetFile") 但是，我使用的是2.3版本的spark，不能使用该选项。有没有办法找出csv文件中的坏记录

浏览 1提问于2018-11-21得票数 1

1回答

验证星火数据中的列名和数据类型

python、csv、apache-spark、validation、pyspark

我想使用python中的pyspark读取.csv文件，但我只想为每个列提供类型，并对列名(而不是模式中的名称)使用标头(来自.csv文件)。有人知道怎么做吗？

浏览 6提问于2021-04-14得票数 1

回答已采纳

1回答

AWS作业create_dynamic_frame_from_options()打开特定的文件？

amazon-web-services、apache-spark、pyspark、aws-glue

如果使用create_dynamic_frame_from_catalog()，则提供数据库名称和表名，例如，从Glue爬虫中创建，这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。我尝试过使用create_dynamic_frame_from_options()，但“路径”连接选项显然不允许我命名该文件。有办法这样做吗？

浏览 1提问于2020-07-15得票数 1

1回答

如何在Pyspark中读取多行CSV文件

python、csv、apache-spark、pyspark

我将此推文数据集与Pyspark一起使用，以便对其进行处理，并根据推文的位置获取一些趋势。但我在尝试创建数据帧时遇到了一个问题。我使用spark.read.options(header="True").csv("hashtag_donaldtrump.csv")创建数据帧，但是如果我查看tweets列，我会得到以下结果： ?你知道如何清理CSV文件，以便它

浏览 14提问于2021-01-15得票数 0

回答已采纳

1回答

正确检查源代码文件(使用Python)

python、objective-c、lexical-analysis

我正在进行一个项目，其中包括读取源代码文件，寻找特定的标记。(在我的例子中，我希望确定Objective类是否实现了协议。)问题是，虽然我只需扫描关键字行，但它可能会出现在注释或字符串中。我是否需要对整个文件进行标记并对其进行莱克斯处理？有更简单的方法吗？

浏览 2提问于2013-10-02得票数 0

回答已采纳

2回答

从csv文件读取增量/插入数据集

csv、apache-spark、pyspark、spark-dataframe

我有一个定期更新的数据集，作为一系列CSV文件接收这些更改。我想要一个只包含每一行的最新版本的Dataframe。是否有一种方法可以在火花/火花放电中加载整个数据集，从而允许并行性？示例：我知道，我可以通过顺序加载每个文件，然后使用一个反连接(用于

浏览 3提问于2017-06-28得票数 0

回答已采纳

1回答

将文本文件解析为在特定位置使用pyspark进行拆分

pyspark、rdd

我有一个没有任何字符分隔的文本文件，我希望在特定的位置分割它，以便我可以将它转换为‘dataframe’。1JITENDER333BIJENDER37 我希望将文件拆分，以便位置0到1进入第一列，位置2至9进入第二列，10至11位置进入第三列，以便最终将其转换为spark dataframe

浏览 1提问于2018-12-27得票数 1

回答已采纳

1回答

stages查询是如何转换成多个阶段的？

apache-spark、pyspark、apache-spark-sql

我有一份简单的提交工作：from pyspark.sql import SparkSessionfrom pyspark<

浏览 6提问于2020-07-06得票数 2

回答已采纳

3回答

读取多个txt文件并对其进行排序

java、android、file、find、storage

我有一个叫“保存”的地图(在安卓手机上)，在那个文件夹里我有几个.txt文件。 } 我得到了一个名为3_test.txt的txt文件，但他不能以这种方式找到它，如果我硬编码它，它会找到它。问题是，我不知道如何“扫描”文件夹中的所有文件保存，然后把“如果”检查它。希望有人能帮我解决这个问题。

浏览 0提问于2012-02-27得票数 0

回答已采纳

2回答

如何使用PySpark将这些多个csv文件(大约130,000个)有效地合并为一个大型数据集？

python、apache-spark、memory、pyspark、bigdata

我之前发布了这个问题，并得到了一些使用PySpark的建议。下面的压缩文件()包含一个名为data的文件夹，其中包含大约130,000个csv文件。我想把它们合并到一个单独的数据帧中。如果您打开任何csv文件，您可以看到它们都具有相同的格式，第一列用于日期，第二列用于数据系列。所以现在我改用PySpark，但是我不知道连接所有文件的最有效的方法是什么，对于pandas数据帧，我会像这样连接单个帧的列表，因为我想让

浏览 14提问于2020-02-17得票数 2

回答已采纳

2回答

如何只运行部分代码

python、pytest

我正在尝试使用pytest进行单元测试。我在单元测试代码中导入源代码并对其进行测试。但是，在进行单元测试时，我不想执行或注释掉源代码中的某些代码。但是我不能修改源代码。那么，在我的源代码中有什么方法只在执行过程中对某些代码块进行注释吗？

浏览 3提问于2016-10-22得票数 0

回答已采纳

1回答

要对pandas进行预处理的数据太多了-- pyspark.sql是一个可行的替代方案吗？[已关闭]

更新问题，以便可以通过以下方式使用事实和引用回答问题编辑此帖子..。两天前就关门了。改进此问题我在几个.csv文件中有大约20 GB的数据，并希望对其进行一些常见的预处理步骤，如连接、添加列、删除行/列、分组/聚合等。例如，使用pandas，我有以下操作： import pandas as pd df2 = pd.read_csv

浏览 34提问于2021-02-25得票数 0

1回答

pyspark一次读取多个csv文件

apache-spark、pyspark、hive

我正在使用SPARK读取hdfs中的文件。有一个场景，我们以csv格式从遗留系统中获取文件块。ID1_FILENAMEA_1.csvID1_FILENAMEA_3.csvID2_FILENAMEA_1.csvID2_FILENAMEA_3.csv 此

浏览 228提问于2021-09-27得票数 1

回答已采纳

1回答

如果.CSV文件已读取，则标记该文件

php、csv、permissions

站点B创建一个包含最新注释的.CSV文件。站点A读取该文件并获取信息，然后对其执行某些功能。这是位于不同服务器上的两个独立进程。我在“追加”模式下创建了CSV，这样我就可以编译新的注释，而不用担心在另一端运行函数时跳过任何注释：但是，一旦我在站点A上获得了.

浏览 2提问于2012-03-23得票数 0

1回答

如何在Spark (Pyspark)中加速缓存？

apache-spark、caching、pyspark、apache-spark-sql

我需要在Pyspark(2.4.4)中缓存一个数据帧，内存缓存很慢。我使用Spark缓存对Pandas缓存进行基准测试，通过读取相同的文件(CSV)。具体地说，Pandas的速度要快3-4倍。

浏览 26提问于2020-01-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云