腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(59)
视频
沙龙
2
回答
如何将
一
个大
拼图
文件
拆
分成
多个
拼图
文件
并按
时间
列
保
存到
不同
的
hadoop
路径
中
scala
、
apache-spark
、
rdd
、
parquet
、
large-data
我
的
sparquet
文件
如下所示 id、名称、日期 1,a,1980-09-08 2,b,1980-09-08 3,c,2017-09-09 希望输出
文件
如下所示 ?
文件
夹19800908包含数据 id、名称、日期 1,a,1980-09-08 2,b,1980-09-08
文件
夹20170909包含数据 id、名称、日期 3,c,2017-09-09 我知道可以groupBykey date,但不知道如何使用这样
的
类MultipleTextOutputFormat输出
多
浏览 66
提问于2019-07-03
得票数 0
1
回答
将Parquet
文件
分区
列
存储在
不同
文件
中
python
、
pandas
、
parquet
、
pyarrow
、
apache-arrow
我想以parquet格式存储
一
个表格数据集,对
不同
的
列
组使用
不同
的
文件
。可以按
列
对
拼图
文件
进行分区吗?如果是这样的话,是否可以使用python (pyarrow)来实现呢?我有
一
个大
型数据集,它收集了许多对象(行)
的
属性/特性(
列
)。行数约为100k-1M (行数将随着
时间
的
推移而增长)。相反,这些<
浏览 47
提问于2020-03-05
得票数 3
1
回答
Spark
的
int96
时间
类型
datetime
、
apache-spark
、
parquet
当您在spark
中
创建
一
个timestamp
列
并保
存到
parquet时,您将获得
一
个12字节
的
整型
列
类型(int96);我收集
的
数据被
分成
6个字节,分别表示儒略日和
一
天内
的
纳秒。我
的
问题是,Spark如何知道加载这样
浏览 0
提问于2017-03-06
得票数 6
回答已采纳
2
回答
对于1-2
列
,
多个
镶嵌块
文件
具有
不同
的
数据类型
python
、
pyspark
、
schema
、
parquet
我尝试使用Pyspark将
不同
的
拼图
文件
读取到
一
个数据帧
中
,但它给了我错误,因为
多个
拼图
文件
中
的
一
些
列
具有
不同
数据类型
的
列
。例如:
列
"geo“在某些
文件
中
的
数据类型为"Double”,在另
一
些
文
浏览 12
提问于2021-11-22
得票数 0
5
回答
为python
中
的
大型
文件
创建校验和
的
最快方法
python
、
multithreading
、
md5
、
crc32
、
hashlib
我需要通过网络传输大型
文件
,并需要为它们创建每小时
的
校验和。所以生成校验和
的
速度对我来说是至关重要
的
。不知何故,我无法让zlib.crc32和zlib.adler32在Windows 64位计算机上处理大于4GB
的
文件
。我想我已经达到32位限制了?使用hashlib.md5,我可以得到
一
个结果,但问题是速度。生成4.8GB
文件
的
md5大约需要5分钟。任务管理器显示流程仅使用
一
个核心。
浏览 4
提问于2009-10-07
得票数 6
3
回答
关于
Hadoop
/HDFS
文件
分割
hadoop
、
mapreduce
只要确认
一
下就行了。请验证这是否正确: 1.根据我
的
理解,当我们将
文件
复制到HDFS
中
时,
文件
(假设其大小>64 my = HDFS块大小)被分割成
多个
块,并且每个块存储在
不同
的
数据节点上。当
文件
被复制到HDFS
中
时,
文件
内容已经被分割成块,并且在运行映射作业时不会发生
文件
拆分。地图任务
的
调度方式只能使它们在最大
的
每个块上工作。具有数据局部
浏览 19
提问于2012-02-13
得票数 20
回答已采纳
4
回答
带分区
的
多个
火花作业将拼花数据附加到相同
的
基
路径
apache-spark
、
parquet
我想并行执行
多个
作业,使用分区将每日数据附加到相同
的
路径
中
。dataFrame.write().,然后将生成
的
parquet
文件
保
存到
各自
的
分区
中
。它将工作
文件
保
存到
基本
路径
。 S3://桶/保存/
路径
/临时/.因此,这两个作业最终共享同
一
个临时
文件
夹并导致冲
浏览 3
提问于2016-08-16
得票数 29
回答已采纳
2
回答
内存管理火花
apache-spark
、
memory-management
、
pyspark
1.)我理解“星火
的
操作人员如果数据不适合内存,就会将数据泄漏到磁盘上,允许它在任何大小
的
数据上运行良好”。如果这是真的,为什么我们会得到OOM (内存
中
的
)错误?3.)与Hive相比,Spark更容易受到OOM
的
影响,因为它在内存
中
执行操作,Hive会重复读取、写入磁盘。对吗?
浏览 4
提问于2020-07-17
得票数 0
回答已采纳
8
回答
蜂群按vs顺序按vs排序
hadoop
、
hql
、
hive
据我所知; 那么,我
的
问题是,集群是否保证了全球秩序?按相同
的
键分配到相同
的
减速器
中
,但是相邻
的
键怎么办?我能在这上面找到
的
唯
一
文档是,从示例看,它似乎是在全球范围内订购它们。但从定义上看,我觉得它并不总是那么做。
浏览 7
提问于2012-12-05
得票数 66
回答已采纳
14
回答
计算大
文件
中
的
行数
linux
、
mapreduce
我通常处理大约20 Gb大小
的
文本
文件
,并且我发现自己经常计算给定
文件
中
的
行数。我希望解决方案像wc -l解决方案
一
样简单,就像
一
行运
浏览 0
提问于2012-10-04
得票数 77
回答已采纳
7
回答
比较大型
文件
的
内容
c#
、
binary
、
compare
、
large-files
我需要比较大型
文件
的
内容。程序
的
速度很重要。我需要100%
的
匹配,我读了很多信息,但没有找到最佳
的
解决方案。我有两个选择和两个问题。 你有什么建议?也许我可以利用线?MemoryMappedFile会有帮助吗?
浏览 13
提问于2012-08-24
得票数 2
4
回答
用于处理历史记录
的
ETL
performance
、
oracle
、
etl
下表UID | State | Date2 | Inactive | 20120517我们通常对每个用户
的
最新状态不感兴趣。到目前为止还不错,只要分拣
一
下,我们就能得到我们想要
的
方式。唯
一
的
问题是,这些
文件
通常都很大。就像20-60gb
一
样,对这些家伙进行排
浏览 4
提问于2012-05-18
得票数 3
回答已采纳
8
回答
在Hive
中
划分和存储表有什么区别?
hadoop
、
hive
我知道这两个操作都是在表
中
的
一
个列上执行
的
,但是每个操作有什么
不同
。
浏览 0
提问于2013-10-02
得票数 152
回答已采纳
2
回答
求出大型数字列表
的
平均值
algorithm
编写
一
个算法来找到
一
个大
列表
的
平均(平均值)。此列表可以包含数万亿或万亿个数字。每
一
个数字都是可以管理
的
,有数百,数千,甚至几百万。 如何处理这么大
的
清单?
浏览 6
提问于2014-02-10
得票数 1
回答已采纳
2
回答
将每个AWS S3
文件
作为单独
的
行存储在数据库
中
?
database
、
database-design
、
amazon-s3
、
amazon-web-services
、
filesystems
我知道,但是我找不到任何堆栈溢出问题,这些问题深入到了如何存储
多个
相关
文件
。我
的
问题是,如何处理具有相同“
文件
夹”
路径
的
多个
文件
。/
浏览 4
提问于2012-10-27
得票数 3
回答已采纳
10
回答
如何对非常大
的
文件
进行排序
java
、
file
、
sorting
我有
一
些
文件
应该根据每行开头
的
id进行排序。
文件
大小约为2-3 gb。0022024 0000004000000000000000000000000000000041 George Clan 00013如何对
文件
进行排序
浏览 15
提问于2011-10-27
得票数 32
回答已采纳
12
回答
根驱动器正在耗尽磁盘空间。我怎样才能腾出空间?
disk-usage
我使用
的
是Ubuntu11.04,我想在我
的
根目录
中
释放
一
些空间,这是重载
的
。我特别希望更改用于安装应用程序
的
路径
(它们将直接安装到根驱动器)。另
一
个考虑因素是,我正在处理
一
个MySQL数据库服务器。服务器安装在根目录本身,所以我不想冒丢失任何数据
的
风险。 请给我
一
些帮助解决这个问题
的
建议。
浏览 0
提问于2011-08-20
得票数 67
11
回答
将javascript放入
一
个.js
文件
中
,还是将其拆
分成
多个
.js
文件
?
javascript
我
的
web应用程序使用jQuery和
一
些jQuery插件(例如,验证、自动完成)。我想知道是应该将它们放在
一
个.js
文件
中
以便更容易缓存,还是应该将它们分开放到
不同
的
文件
中
,只包含给定页面所需
的
文件
。我还应该提到,我关心
的
不仅是下载.js
文件
所需
的
时间
,还包括根据加载
的
.js
文件
的</
浏览 1
提问于2009-02-17
得票数 51
10
回答
快速读取非常大
的
表作为数据帧
r
、
import
、
dataframe
、
r-faq
我有非常大
的
表(3000万行),我想在R中加载作为数据帧。read.table()有很多方便
的
功能,但似乎在实现中有很多逻辑会减慢速度。在我
的
例子
中
,我假设我提前知道
列
的
类型,表不包含任何
列
标题或行名,并且没有任何我必须担心
的
病态字符。例如: datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,max
浏览 5
提问于2009-11-13
得票数 538
回答已采纳
1
回答
确定
一
系列数据
的
平均值
javascript
、
json
、
momentjs
我收集了
一
组天气数据,如下所示: "city_name": "London", "lon": -0.127758年
中
,此数据按日期升序(逐小时)继续。从这些数据
中
,我希望获得整个数据集内每个月和每周
的
平均温度(object.main.temp)。过去40年里,1月份
的
浏览 1
提问于2020-08-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据之Hadoop—Hbase,让小白都能读懂的大数据教程
Hadoop之HBase
Hbase中对数据 增删改查 工作流程
Oracle与Hadoop对比:强一致性和高性能不可兼得!
再聊Hbase架构与原理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券