dask从spark读取镶木面板文件

、、、

对于由spark (没有任何分区)编写的拼图文件，其目录如下： %ls foo.parquet [Errno 17] File exists: 'foo.parquet/_SUCCESS' 为了让dask能够成功地读取数据，我需要进行哪些更改？

浏览 13提问于2020-04-23得票数 1

回答已采纳

1回答

使用jdbc slow将Spark数据帧写入数据库(Exasol)

、、

我写了6.18m行(大约3.5 gb)，耗时17分钟我如何让它变得更快？ds.write().format("jdbc").option("user"，用户名).option(“password”，password).option("driver"，Conf.DRIVER).option("url"，dbURL).option("dbtable"，exasolTableName).option("

浏览 1提问于2018-12-05得票数 0

1回答

在pyspark中读取已分区的配置子母表，而不是在拼接中

、、

我有一个分割的镶木地板。它很大，所以我当时不想读它，我只需要8月的部分，所以我使用：它工作得很好。然而，我不得不从直接读取镶木面板转移到从相应的hive表中读取。类似于：但是，我希望保持只读取

浏览 0提问于2021-08-27得票数 0

1回答

哪种方法最适合读取要处理为dask* dataframe的拼图文件*

、、、、

我有一个目录与小镶木地板文件(600)，我想做ETL的这些镶木地板和合并这些镶木地板到128mb的每个文件。处理数据的最佳方式是什么？我是否应该读取拼图目录中的每个文件，并将其作为单个数据帧进行合并，然后执行groupBY？或者向dd.read_parquet提供拼图目录名称并对其进行处理？我感觉，当我逐个文件地阅读时，它创建了一个非常大的dask图，不能作为一个图像。我猜它也能处理这么多数量的线程？这会导致内存错误。哪种方式<em

浏览 9提问于2020-05-19得票数 0

1回答

使用pyarrow引擎的Dask* read_parquet*

、

我正在使用spark将其保存到镶木面板上，然后尝试通过dask阅读。问题是未使用pyarrow引擎回读已分区的列。.config("spark.some.config.option", "some-value") \ spark.conf.set("spark.sql.execution.arrow.enabled", "true&

浏览 0提问于2018-05-24得票数 1

1回答

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据

、、、、

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据我在我的python应用程序中使用了一个大的稀疏矩阵(~20k x 100k)和向量(~20K x 1)，速度很快，而且很成功。我确实认为，更新SQL表比将整个稀疏矩阵作为numpy数据对象存储到文件中更快。我更担心在应用程序启动时将矩阵加载到内存中。numpy在这方面总是更快吗？如果我通过pandas或dask在python和SQL之间运行，这可能会更实用。渴望以某种方式找到这个问题的答案。

浏览 1提问于2020-10-10得票数 1

1回答

如何逐行加载拼图文件

、

为了节省笔记本电脑上的空间，我通过dask保存了一个相当大的数据集作为拼图文件。想知道是否有一种方法可以逐行读取镶木地板文件。谢谢你的帮助。

浏览 12提问于2019-03-28得票数 0

回答已采纳

1回答

从亚马逊网络服务s3存储桶中读取镶木地板数据

、、、

我需要从亚马逊网络服务s3读取镶木地板数据。bucketName, bucketKey));但是apache parquet阅读器只使用如下的本地文件例如，对于csv文件，有CSVParser，它使用inputstream。我知道使用spark来实现这个目标的解决方案。<Row> ds = spark.read().parquet("s3a:/&#

浏览 0提问于2017-10-19得票数 14

回答已采纳

1回答

如何使用dask从s3中读取镶木面板文件

、、、、

如何使用dask和特定的亚马逊网络服务配置文件(存储在凭证文件中)读取s3上的拼图文件。Dask使用使用boto的s3fs。这是我尝试过的：>>>import s3fs>>>import dask.dataframe as dd >>>os.environ['AWS_SHARED_CREDENTIALS_FI

浏览 10提问于2018-01-23得票数 12

回答已采纳

1回答

ORC vs拼图文件格式

、、、

我读过很多博客和文章，它们引用了"ORC文件格式在Apache Hive上工作得很好，Parquet在Apache Spark上工作得非常好“，但实际上并没有对此进行适当的详细解释。

浏览 4提问于2020-08-08得票数 3

1回答

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

、

我正在从pyspark中的s3存储桶中读取镶木地板文件。有一些地块文件具有不同的模式，这会导致作业错误。我想通过预定义的模式和火花作业应该只读取与预定义的scehma匹配的文件。data = spark.read.parquet(*path_list) 上面的parquet spark read命令是批量读取文件。如何能够只读取传递预定义模式的拼图文件，并且只读取

浏览 21提问于2021-01-12得票数 2

2回答

使用不同模式加载SPARK* Parquet文件*

、、

我们有两个不同的模式生成的拼图文件，其中有ID和Amount字段。文件：ID: INT内容：2,198.34file2.snappy.parquet内容：3198.34 当我同时加载两个文件df3 = spark.read.parquet("output/")，并试图获得数据时，它推断出Decimal(15,6)的模式与Deci

浏览 1提问于2020-07-13得票数 0

2回答

将Dask* DataFrame存储为泡菜*

、、、

我有一个Dask DataFrame，构造如下：type(df) //dask.dataframe.core.DataFrame 有没有办法将这个DataFrame保存为一个泡菜？

浏览 9提问于2018-01-30得票数 3

回答已采纳

2回答

如何在独立的java代码中读取拼图文件？

、

cloudera的镶木面板文档显示了与猪/蜂箱/黑斑马集成的示例。但在许多情况下，出于调试的目的，我希望读取parquet文件本身。有没有一个简单的java阅读器api来读取parquet文件？

浏览 0提问于2015-02-20得票数 19

1回答

如何从nifi中的s3存储桶中读取镶木面板文件？

我正在尝试从nifi中的s3存储桶中读取镶木面板文件。为了读取文件，我使用了处理器listS3和fetchS3Object，然后使用了ExtractAttribute处理器。这些文件在parquet.gz文件中，我根本无法从它们生成flowfile，我的最终目的是将文件加载到noSql(SnowFlake)中。 FetchParquet与我们不使用的HDFS一起工作。我的下一个选择是使用execut

浏览 32提问于2019-01-31得票数 0

2回答

使用Python将Dask* Dataframe转换为Spark dataframe*

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

1回答

在SparkSQL中使用Avro模式和Parquet格式进行读写

、、、

我正在尝试从SparkSQL中写入和读取镶木面板文件。出于模式演变的原因，我希望在写入和读取时使用Avro模式。我的理解是，这在Spark之外(或在Spark内手动)是可能的，例如使用AvroParquetWriter和Avro的通用API。换句话说，似乎没有办法通过Avro模式使用SparkSQL应用编程接口来读/写拼图文件。但也许我只是错过了什么？为了澄清，我也理解，这将基本上只是添加Avro模式到拼花的元数据写入，并将

浏览 1提问于2017-01-04得票数 5

1回答

如何在拼图文件中使用K-means

、、、

我想学习如何在Spark上使用K-Means算法。我有一个镶木文件，我想用k-means对它进行分析。如何让spark只分析特定的列？如何从行中删除空值？有没有人能写一段简单的代码来教你怎么做呢？

浏览 0提问于2019-09-16得票数 1

1回答

为什么spark中的sample和subtract方法会产生这样的结果

、、、、

df=sqlContext.read.parquet("/user/data.parquet")df.count()<br/>8246174 train=df.sample(

浏览 1提问于2016-04-05得票数 0

2回答

Spark中的快速镶木地板行数

、

拼图文件包含每个块的行计数字段。Spark似乎会在某个时候读到它()。我在spark-shell里试过了Spark运行了两个阶段，显示了DAG中的各种聚合步骤。我认为这意味着它正常地读取文件，而不是使用行数。(我可能错了。) 问题是:当我运行count时，Spark是否已经在使用行数字段了？是否有其他API可以使用这些字段？

浏览 1提问于2016-11-16得票数 13

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用jdbc slow将Spark数据帧写入数据库(Exasol)

在pyspark中读取已分区的配置子母表，而不是在拼接中

哪种方法最适合读取要处理为dask* dataframe的拼图文件*

使用pyarrow引擎的Dask* read_parquet*

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据

如何逐行加载拼图文件

从亚马逊网络服务s3存储桶中读取镶木地板数据

如何使用dask从s3中读取镶木面板文件

ORC vs拼图文件格式

如何在读取之前根据定义的模式读取pyspark中的拼图文件？

使用不同模式加载SPARK* Parquet文件*

将Dask* DataFrame存储为泡菜*

如何在独立的java代码中读取拼图文件？

如何从nifi中的s3存储桶中读取镶木面板文件？

使用Python将Dask* Dataframe转换为Spark dataframe*

在SparkSQL中使用Avro模式和Parquet格式进行读写

如何在拼图文件中使用K-means

为什么spark中的sample和subtract方法会产生这样的结果

Spark中的快速镶木地板行数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐