Spark :没有输入文件名

Spark是一个开源的大数据处理框架，它提供了高效的数据处理能力和分布式计算能力。Spark可以处理大规模数据集，并且具有快速、易用和可扩展的特点。

Spark的主要特点包括：

快速：Spark使用内存计算技术，可以将数据存储在内存中进行计算，从而大大提高了计算速度。它还支持基于磁盘的持久化存储，以便处理更大规模的数据。
易用：Spark提供了丰富的API，支持多种编程语言，包括Java、Scala、Python和R。开发人员可以使用熟悉的编程语言进行开发，并且可以轻松地在不同的数据处理任务之间切换。
可扩展：Spark可以在集群中分布式运行，可以通过添加更多的计算节点来扩展计算能力。它还提供了高级的调度和资源管理功能，可以有效地管理集群资源。

Spark的应用场景非常广泛，包括数据清洗和转换、数据分析和挖掘、机器学习和深度学习等。它可以处理结构化数据、半结构化数据和非结构化数据，并且可以与各种数据存储系统（如Hadoop、Hive、HBase、Cassandra等）集成使用。

对于没有输入文件名的情况，Spark可以通过以下方式进行处理：

如果需要处理的数据是实时生成的，可以使用Spark Streaming模块，通过接收实时数据流进行处理。
如果需要处理的数据存储在其他数据存储系统中，可以使用Spark的数据源API，从其他数据存储系统中读取数据进行处理。
如果需要处理的数据是静态数据，可以使用Spark的DataFrame或Dataset API，通过编程方式创建一个空的DataFrame或Dataset，并在后续的处理过程中添加数据。

腾讯云提供了一系列与Spark相关的产品和服务，包括云服务器、云数据库、云存储等。您可以通过腾讯云官方网站了解更多关于这些产品的详细信息和使用方式。

参考链接：

页面内容是否对你有帮助？

有帮助

没帮助

Spark :没有输入文件名

csv、apache-spark、filenames、hadoop-yarn

函数对我们不起作用：.withColumn("inputfilename_", input_file_name())"inputfilename_":"" 我们对纱线使用spark

浏览 2提问于2018-08-07得票数 0

0回答

有没有一种有效的方法，可以在不读取所有文件内容的情况下，将输入文件过滤到基于input_file_name的spark数据帧中？我在S3上有一条路径，里面有许多我正在通过spark.read.csv("path/to/csvs/*")阅读的大型压缩csvs (xx.csv.gz)。我想根据文件名过滤输入，而不是求助于glob模式。但是，当我使用withColumn("file_name", input_file_nam

浏览 2提问于2017-06-13得票数 0

1回答

Linux在特定位置对上一个结果执行管道操作

linux、bash、shell、pipe

考虑shell命令，如下所示 PYSPARK_PYTHON=/usr/bin/python spark2-submit --driver-memory 40g --executor-memory 20g--conf spark.sql.broadcastTimeout=7200 myfile.py param1 param2 我想通过管道将my_file.py作为上一个命令的结果。我试过了 previous_command_that_returns_myfile.py | PYSPARK_PYTHON=/usr

浏览 14提问于2019-09-10得票数 0

1回答

在Spark DataFrame SQL中获取不带路径的文件名

apache-spark、apache-spark-sql、spark-dataframe

我有一个Spark Dataframe，它通过spark-xml包含来自已解析的XML文件夹的数据。我想添加一个包含源文件的列，这可以通过input_file_name()函数轻松完成。问题是这会返回整个路径，而我只需要文件名。因此，我尝试在spark SQL中注册一个UDF，它提取文件名，但最后得到一个空列。这个函数可以工作，但显然它得到了空值作为输入，我不明白为什么。有没有人知道这个问题以及如何解决它？如果我通过df.selectExpr('

浏览 0提问于2016-11-10得票数 3

3回答

如何在不使用spark -submit的情况下触发spark作业？实时代替批处理

scala、apache-spark、spark-streaming

我有一个spark作业，我通常使用spark-submit和输入文件名作为参数来运行它。现在我想让工作对团队可用，这样人们就可以提交一个输入文件(可能通过一些web-API)，然后spark作业将被触发，它将返回给用户结果文件(也可能是通过web-API)。(我使用的是Java/Scala) 在这种情况下，我需要构建什么才能触发spark作业？有什么教程吗？我应该在这种情况下使用spark-streaming吗？谢谢!

浏览 0提问于2015-06-16得票数 0

1回答

input_file_name在spark-xml中不起作用

apache-spark、apache-spark-sql、spark-dataframe、databricks

当通过com.databricks.spark.xml格式加载xml文件时，我尝试为每一行添加输入文件名。但它返回文件名的空列..sqlContext.read.format("com.databricks.spark.xml")+------------+-----------+----------

浏览 2提问于2017-04-12得票数 0

2回答

如何在Spark中获取文件名？

apache-spark

我的Spark应用程序接受一个包含大量文本文件的文件夹作为输入。如何以编程方式获得每个输入拆分的文件名？

浏览 2提问于2015-08-05得票数 1

2回答

如何将源文件名添加到Spark中的每一行？

scala、apache-spark

我是Spark的新手，我正在尝试在每个输入行中插入一个列，其中包含它所来自的文件名。我见过其他人问类似的问题，但他们所有的答案都使用wholeTextFile，但我正在尝试对较大的CSV文件(使用Spark-CSV库读取)、JSON文件和Parquet文件(不仅仅是小的文本文件)这样做我可以使用spark-shell来获取文件名列表：val names =

浏览 0提问于2015-10-23得票数 14

1回答

pyspark.sql.utils.IllegalArgumentException

pyspark、pycharm、hdfs

/F:/spark/sample_files/column_containing_JSON_data.csv :来自F:/spark/sample_files/column_containing_JSON_data.csv的路径名pyspark.sql.utils.IllegalArgumentException不是一个有效的pyspark.sql.utils.IllegalArgumentException文件名。我给出了本地输入文件路径(如下所示)，

浏览 2提问于2021-07-23得票数 0

1回答

如何在文件中执行包含一些附加内容的命令？

bash、shell

=/configuration/spark2 /spark2.1/bin/spark-submit --driver-memory 2g --executor-memory 4g --num-executors100 --jars /lib/json-serde-1.3.7-jar-with-dependencies.jars

浏览 0提问于2018-04-23得票数 0

1回答

Spark 2.0:绝对URI中的相对路径(火花-仓库)

windows、apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正试图从Spark1.6.1迁移到Spark2.0.0，并且在试图将csv文件读取到SparkSQL时出现了一个奇怪的错误。以前，当我从本地磁盘上读取一个文件时，我会这样做：df = sqlContext.read \ .load('file:///C:/path&

浏览 2提问于2016-07-30得票数 16

回答已采纳

1回答

在R中使用Sparklyr读取.csv文件

r、csv、apache-spark、sparklyr

我想使用Apache Spark来读取R中的数据。我使用的是Microsoft R Open 3.3.1和Spark 2.0.1。我不得不使用Sparklyr包中定义的函数spark_read_csv(...)来读取.csv文件。它要求输入以file://开头的文件路径。/Documents目录中的文件名结尾。

浏览 1提问于2016-11-25得票数 1

1回答

遍历scala中的文件以根据文件名创建值

scala、file、apache-spark、automation、spark-graphx

我想可能有一个简单的解决方案，我想知道是否有人知道如何迭代一组文件并根据文件名输出一个值。我的问题是，我想读取每个月的一组图的边，然后创建一个单独的月图。

浏览 1提问于2016-02-05得票数 0

2回答

从本地文件中读取星火流给NullPointerException

apache-spark、nullpointerexception、spark-streaming

使用Spark2.2.0在OS高级塞拉利昂。我正在运行一个Spark流应用程序来读取本地文件： lines.print()org.apache.spark.streaming.dstream.FileInputDStream logWar

浏览 1提问于2018-03-14得票数 3

回答已采纳

1回答

当逗号存在时，spark.sql写入csv会引起移位的列数据问题

scala、csv、azure-databricks、spark-notebook

spark.sql(""" """).coalesce(1) .option("header", "true") .mode("overwrite") .save(s"$dbfsMountPoint/

浏览 4提问于2021-10-25得票数 0

2回答

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

amazon-web-services、amazon-s3、pyspark、aws-glue、aws-glue-data-catalog

验证两个文件中的字段以及两个S3存储桶中的文件名。我可以读取和更改文件名吗？ETL job运行后，在S3存储桶中为ETL job的输出创建文件名。目前我得到的文件名是run-15902070851728-part-r-00000。让我知道我们是否可以在pyspark中做这件事？谢谢

浏览 19提问于2020-06-09得票数 1

2回答

Spark -忽略损坏的文件

apache-spark、apache-spark-sql

我们尝试了这个Spark配置，它似乎起作用了( Spark作业没有失败，因为损坏的文件被丢弃了)：但我不知道有没有办法知道哪些文件被忽略了。有没有办法获得这些文件名？提前感谢

浏览 0提问于2018-11-29得票数 2

2回答

如何在start()之前执行操作？

scala、apache-spark、spark-structured-streaming

我从kafka收到一条消息，其中将包含许多带有逗号分隔值的字段，其中第一列将是一个文件名。现在，基于该文件名，我将不得不从HDFS读取文件，并创建一个数据文件并在该文件上进一步操作。它们是将立即运行查询和返回结果的操作，这在流数据集中没有意义。 val lines = spark

浏览 3提问于2017-10-13得票数 1

2回答

如何使用wholeTextFiles读取Spark中的gz文件

hadoop、apache-spark、gzip

我需要在我的Spark作业中读取它们，但问题是我需要根据文件名中的信息进行一些处理。因此，我没有使用：因为据我所知，我不能以这种方式访问文件名。.); 因为这样我就得到了一对文件名和内容。然而，这样看来，输入阅读器无法从gz文件中读取文本，而是读取二进制乱码。因此，我想知道是否可以将其设置为以某种方式读取文本，或者使用sc.textFile(...)访问文件

浏览 2提问于2014-06-25得票数 6

回答已采纳

1回答

如何在使用NewHadoopRDD时给出文件名？

java、scala、apache-spark

我试图在Spark中使用newAPIHadoopRDD函数，但我发现构造函数中没有使用文件名的参数。那么，在这种情况下如何设置文件名呢？

浏览 4提问于2016-10-29得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark :没有输入文件名

相关·内容

Spark :没有输入文件名

过滤`input_file_name`上的火花路径

Linux在特定位置对上一个结果执行管道操作

在Spark DataFrame SQL中获取不带路径的文件名

如何在不使用spark -submit的情况下触发spark作业？实时代替批处理

input_file_name在spark-xml中不起作用

如何在Spark中获取文件名？

如何将源文件名添加到Spark中的每一行？

pyspark.sql.utils.IllegalArgumentException

如何在文件中执行包含一些附加内容的命令？

Spark 2.0:绝对URI中的相对路径(火花-仓库)

在R中使用Sparklyr读取.csv文件

遍历scala中的文件以根据文件名创建值

从本地文件中读取星火流给NullPointerException

当逗号存在时，spark.sql写入csv会引起移位的列数据问题

有没有办法在运行AWS Glue ETL作业时从S3存储桶中读取文件名并命名输出文件名。pyspark提供了这样做的方法吗？

Spark -忽略损坏的文件

如何在start()之前执行操作？

如何使用wholeTextFiles读取Spark中的gz文件

如何在使用NewHadoopRDD时给出文件名？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐