腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4111)
视频
沙龙
1
回答
dask
从
spark
读取
镶木
面板
文件
、
、
、
对于由
spark
(没有任何分区)编写的拼图
文件
,其目录如下: %ls foo.parquet [Errno 17] File exists: 'foo.parquet/_SUCCESS' 为了让
dask
能够成功地
读取
数据,我需要进行哪些更改?
浏览 13
提问于2020-04-23
得票数 1
回答已采纳
1
回答
使用jdbc slow将
Spark
数据帧写入数据库(Exasol)
、
、
我写了6.18m行(大约3.5 gb),耗时17分钟我如何让它变得更快?ds.write().format("jdbc").option("user",用户名).option(“password”,password).option("driver",Conf.DRIVER).option("url",dbURL).option("dbtable",exasolTableName).option("
浏览 1
提问于2018-12-05
得票数 0
1
回答
在pyspark中
读取
已分区的配置子母表,而不是在拼接中
、
、
我有一个分割的
镶木
地板。它很大,所以我当时不想读它,我只需要8月的部分,所以我使用:它工作得很好。然而,我不得不从直接
读取
镶木
面板
转移到
从
相应的hive表中
读取
。类似于:但是,我希望保持只
读取
浏览 0
提问于2021-08-27
得票数 0
1
回答
哪种方法最适合
读取
要处理为
dask
dataframe的拼图
文件
、
、
、
、
我有一个目录与小
镶木
地板
文件
(600),我想做ETL的这些
镶木
地板和合并这些
镶木
地板到128mb的每个
文件
。处理数据的最佳方式是什么?我是否应该
读取
拼图目录中的每个
文件
,并将其作为单个数据帧进行合并,然后执行groupBY?或者向dd.read_parquet提供拼图目录名称并对其进行处理?我感觉,当我逐个
文件
地阅读时,它创建了一个非常大的
dask
图,不能作为一个图像。我猜它也能处理这么多数量的线程?这会导致内存错误。 哪种方式<em
浏览 9
提问于2020-05-19
得票数 0
1
回答
使用pyarrow引擎的
Dask
read_parquet
、
我正在使用
spark
将其保存到
镶木
面板
上,然后尝试通过
dask
阅读。问题是未使用pyarrow引擎回读已分区的列。.config("
spark
.some.config.option", "some-value") \
spark
.conf.set("
spark
.sql.execution.arrow.enabled", "true&
浏览 0
提问于2018-05-24
得票数 1
1
回答
保存到SQL或
从
SQL加载的大型稀疏矩阵数据与Numpy
文件
数据
、
、
、
、
保存到SQL或
从
SQL加载的大型稀疏矩阵数据与Numpy
文件
数据 我在我的python应用程序中使用了一个大的稀疏矩阵(~20k x 100k)和向量(~20K x 1),速度很快,而且很成功。我确实认为,更新SQL表比将整个稀疏矩阵作为numpy数据对象存储到
文件
中更快。我更担心在应用程序启动时将矩阵加载到内存中。numpy在这方面总是更快吗?如果我通过pandas或
dask
在python和SQL之间运行,这可能会更实用。渴望以某种方式找到这个问题的答案。
浏览 1
提问于2020-10-10
得票数 1
1
回答
如何逐行加载拼图
文件
、
为了节省笔记本电脑上的空间,我通过
dask
保存了一个相当大的数据集作为拼图
文件
。想知道是否有一种方法可以逐行
读取
镶木
地板
文件
。 谢谢你的帮助。
浏览 12
提问于2019-03-28
得票数 0
回答已采纳
1
回答
从
亚马逊网络服务s3存储桶中
读取
镶木
地板数据
、
、
、
我需要从亚马逊网络服务s3
读取
镶木
地板数据。bucketName, bucketKey));但是apache parquet阅读器只使用如下的本地
文件
例如,对于csv
文件
,有CSVParser,它使用inputstream。 我知道使用
spark
来实现这个目标的解决方案。<Row> ds =
spark
.read().parquet("s3a:/
浏览 0
提问于2017-10-19
得票数 14
回答已采纳
1
回答
如何使用
dask
从
s3中
读取
镶木
面板
文件
、
、
、
、
如何使用
dask
和特定的亚马逊网络服务配置
文件
(存储在凭证
文件
中)
读取
s3上的拼图
文件
。
Dask
使用使用boto的s3fs。这是我尝试过的:>>>import s3fs>>>import
dask
.dataframe as dd >>>os.environ['AWS_SHARED_CREDENTIALS_FI
浏览 10
提问于2018-01-23
得票数 12
回答已采纳
1
回答
ORC vs拼图
文件
格式
、
、
、
我读过很多博客和文章,它们引用了"ORC
文件
格式在Apache Hive上工作得很好,Parquet在Apache
Spark
上工作得非常好“,但实际上并没有对此进行适当的详细解释。
浏览 4
提问于2020-08-08
得票数 3
1
回答
如何在
读取
之前根据定义的模式
读取
pyspark中的拼图
文件
?
、
我正在从pyspark中的s3存储桶中
读取
镶木
地板
文件
。有一些地块
文件
具有不同的模式,这会导致作业错误。我想通过预定义的模式和火花作业应该只
读取
与预定义的scehma匹配的
文件
。data =
spark
.read.parquet(*path_list) 上面的parquet
spark
read命令是批量
读取
文件
。如何能够只
读取
传递预定义模式的拼图
文件
,并且只
读取
浏览 21
提问于2021-01-12
得票数 2
2
回答
使用不同模式加载
SPARK
Parquet
文件
、
、
我们有两个不同的模式生成的拼图
文件
,其中有ID和Amount字段。
文件
:ID: INT内容:2,198.34file2.snappy.parquet内容:3198.34 当我同时加载两个
文件
df3 =
spark
.read.parquet("output/"),并试图获得数据时,它推断出Decimal(15,6)的模式与Deci
浏览 1
提问于2020-07-13
得票数 0
2
回答
将
Dask
DataFrame存储为泡菜
、
、
、
我有一个
Dask
DataFrame,构造如下:type(df) //
dask
.dataframe.core.DataFrame 有没有办法将这个DataFrame保存为一个泡菜?
浏览 9
提问于2018-01-30
得票数 3
回答已采纳
2
回答
如何在独立的java代码中
读取
拼图
文件
?
、
cloudera的
镶木
面板
文档显示了与猪/蜂箱/黑斑马集成的示例。但在许多情况下,出于调试的目的,我希望
读取
parquet
文件
本身。 有没有一个简单的java阅读器api来
读取
parquet
文件
?
浏览 0
提问于2015-02-20
得票数 19
1
回答
如何
从
nifi中的s3存储桶中
读取
镶木
面板
文件
?
我正在尝试
从
nifi中的s3存储桶中
读取
镶木
面板
文件
。为了
读取
文件
,我使用了处理器listS3和fetchS3Object,然后使用了ExtractAttribute处理器。这些
文件
在parquet.gz
文件
中,我根本无法
从
它们生成flowfile,我的最终目的是将
文件
加载到noSql(SnowFlake)中。 FetchParquet与我们不使用的HDFS一起工作。我的下一个选择是使用execut
浏览 32
提问于2019-01-31
得票数 0
2
回答
使用Python将
Dask
Dataframe转换为
Spark
dataframe
、
、
、
、
我想将
Dask
Dataframe转换为
Spark
Dataframe。让我们考虑这个例子:
dask
_df = dd.read_csv("file_name.csv")
spark
_df =
spark
_session.createDataFrame(
dask
_df) 但这是行不通的。
浏览 18
提问于2021-02-25
得票数 0
1
回答
在SparkSQL中使用Avro模式和Parquet格式进行读写
、
、
、
我正在尝试
从
SparkSQL中写入和
读取
镶木
面板
文件
。出于模式演变的原因,我希望在写入和
读取
时使用Avro模式。我的理解是,这在
Spark
之外(或在
Spark
内手动)是可能的,例如使用AvroParquetWriter和Avro的通用API。换句话说,似乎没有办法通过Avro模式使用SparkSQL应用编程接口来读/写拼图
文件
。但也许我只是错过了什么?为了澄清,我也理解,这将基本上只是添加Avro模式到拼花的元数据写入,并将
浏览 1
提问于2017-01-04
得票数 5
1
回答
如何在拼图
文件
中使用K-means
、
、
、
我想学习如何在
Spark
上使用K-Means算法。我有一个
镶木
文件
,我想用k-means对它进行分析。如何让
spark
只分析特定的列?如何
从
行中删除空值?有没有人能写一段简单的代码来教你怎么做呢?
浏览 0
提问于2019-09-16
得票数 1
1
回答
为什么
spark
中的sample和subtract方法会产生这样的结果
、
、
、
、
df=sqlContext.read.parquet("/user/data.parquet")df.count()<br/>8246174 train=df.sample(
浏览 1
提问于2016-04-05
得票数 0
2
回答
Spark
中的快速
镶木
地板行数
、
拼图
文件
包含每个块的行计数字段。
Spark
似乎会在某个时候读到它()。我在
spark
-shell里试过了
Spark
运行了两个阶段,显示了DAG中的各种聚合步骤。我认为这意味着它正常地
读取
文件
,而不是使用行数。(我可能错了。) 问题是:当我运行count时,
Spark
是否已经在使用行数字段了?是否有其他API可以使用这些字段?
浏览 1
提问于2016-11-16
得票数 13
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark核心编程RDD分区器以及文件读取与保存
Python文件读取技巧:从文件读取数据到内存缓存的高效方法
使用Spark将本地文件读取并封装为DataFrame的完整指南
Spark 核心编程RDD的使用(1)
Dask:并行计算的灵活解决方案,用完都说好神奇!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券