首页
学习
活动
专区
圈层
工具
发布

hadoop为什么64MB(或128MB或256MB)是最优选择?

(普通文件系统的数据块大小一般为4KB)减少硬盘寻道时间(disk seek time) HDFS设计前提是支持大容量的流式数据操作,所以即使是一般的数据读写操作,涉及到的数据量都是比较大的...假如数据块设置过少,那需要读取的数据块就比较多,由于数据块在硬盘上非连续存储,普通硬盘因为需要移动磁头,所以随机寻址较慢,读越多的数据块就增大了总的硬盘寻道时间。...当硬盘寻道时间比io时间还要长的多时,那么硬盘寻道时间就成了系统的一个瓶颈。合适的块大小有助于减少硬盘寻道时间,提高系统吞吐量。...减少Namenode内存消耗 对于HDFS,他只有一个Namenode节点,他的内存相对于Datanode来说,是极其有限的。...假如是对于64MB的数据块,我可以假设你10分钟之内无论如何也能解决了吧,超过10分钟也没反应,那就是死了。可对于640MB或是1G以上的数据,我应该要估算个多长的时间内?

1.3K60

磁盘分区也是隐含了技术技巧的

这部分时间叫寻道时间。...寻道时间,现代磁盘大概在3-15ms,其中寻道时间大小主要受磁头当前所在位置和目标磁道所在位置相对距离的影响 第二步,找到目标磁道后通过盘面旋转,将目标扇区移动到磁头的正下方,这部分时间叫旋转延迟。...这个是电磁操作,所以一般耗时较短,为零点几ms。 到此为止,单次磁盘IO时间 = 寻道时间 + 旋转延迟 + 存取时间 分区上采用哪一种方案,最主要看的是那种方式性能更快。...两种方案的对于旋转延迟、和存取时间上表现的性能是一样的,主要区别是在寻道时间的表现上: 假如采用第一种,那么这样磁头就需要在3000多个磁道间不停地跳来跳去,这样磁盘的寻道时间就降不下来。...不过在实际中,分区并不能从0号柱面开始的,因为磁盘的第一个磁道对应的柱面会被用来安装引导加载程序以及磁盘分区表。

47130
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Kafka 为什么这么快的七大秘诀,涨知识了

    图 5 Chaya:零拷贝技术如何提高 Kakfa 的性能? 零拷贝技术通过减少 CPU 负担和内存带宽消耗,提高了 Kakfa 性能。...为了解决单一日志文件过大的问题,kafka采用了分段(Segment)的形式进行存储。...完成一次磁盘 I/O ,需要经过寻道、旋转和数据传输三个步骤。 寻道:首先必须找到柱面,即磁头需要移动到相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转:磁盘旋转将目标扇区旋转到磁头下。这个过程耗费的时间叫做旋转时间。...减少了磁盘寻道和旋转的次数。磁头再也不用在磁道上乱舞了,而是一路向前飞速前行。

    1.1K10

    精读《算法 - 动态规划》

    动态规划听起来很高级,但实际上思路和解决的问题都很常见。 动态规划用来解决一定条件下的最优解,比如: 自动寻路哪种走法最优? 背包装哪些物品空间利用率最大? 怎么用最少的硬币凑零钱?...比如寻路算法中,走完前几步就是相对于走完全程的子问题,必须保证走完全程的最短路径可以通过走完前几步推导出来,才可以用动态规划。...不要小看这第一条,动态规划就难在这里,你到底如何将最优子结构与全局最优解建立上关系? 对于爬楼梯问题,由于每层台阶都是由前面台阶爬上来的,因此必然存在一个线性关系推导。 如果变成二维平面寻路呢?...除此之外,还有推导变种,即根据 dp(dp(i)) 推导,即函数里套函数,这类问题由于加深了一层思考脑回路,所以相对更难。我们看一道这样的题目:最长有效括号。...栅栏涂色 栅栏涂色是一道困难题,题目如下: 有 k 种颜色的涂料和一个包含 n 个栅栏柱的栅栏,每个栅栏柱可以用其中一种颜色进行上色。

    68540

    21 张图图解 Kafka 为什么吞吐量大,速度快?

    图 5 Chaya:零拷贝技术如何提高 Kakfa 的性能? 零拷贝技术通过减少 CPU 负担和内存带宽消耗,提高了 Kakfa 性能。...为了解决单一日志文件过大的问题,kafka 采用了分段(Segment)的形式进行存储。...完成一次磁盘 I/O ,需要经过寻道、旋转和数据传输三个步骤。 寻道:首先必须找到柱面,即磁头需要移动到相应磁道,这个过程叫做寻道,所耗费时间叫做寻道时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转:磁盘旋转将目标扇区旋转到磁头下。这个过程耗费的时间叫做旋转时间。...减少了磁盘寻道和旋转的次数。磁头再也不用在磁道上乱舞了,而是一路向前飞速前行。

    5010

    计算题总结

    磁盘驱动调度算法 先来先服务算法:根据进程请求访问磁盘的先后顺序进行调度。 优点:公平,简单。 缺点:未对寻道进行优化,平均寻道时间可能较长。...最短寻道时间优先算法:总是执行查找时间最短的那个磁盘请求。 优点:平均寻道时间最短。 缺点:存在“饥饿”现象。...优点:杜绝“饥饿”问题,平均寻道时间较好。 缺点:在磁盘请求平均的情况下,磁头到头转向时,靠近磁头一端的请求特别少,许多请求集中分布在另一端。...信号量与PV操作 信号量是用来解决进程同步的,不是用来解决死锁问题的。...P原语操作的主要动作是: s.value减一; 若s.value减一后仍大于或等于0,则进程继续进行; 若s.value减一后小于0,则该进程被阻塞后与该信号相对于的队列中,然后转进程调度。

    1.7K10

    Kafka性能篇:为何Kafka这么快?

    完成一次磁盘 IO,需要经过寻道、旋转和数据传输三个步骤。...影响磁盘 IO 性能的因素也就发生在上面三个步骤上,因此主要花费的时间就是: 寻道时间:Tseek 是指将读写磁头移动至正确的磁道上所需要的时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转延迟:Trotation 是指盘片旋转将请求数据所在的扇区移动到读写磁盘下方所需要的时间。...因此,如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。 Kafka 采用顺序写文件的方式来提高磁盘写入性能。顺序写文件,基本减少了磁盘寻道和旋转的次数。...Reacotr 模型主要分为三个角色 Reactor:把 IO 事件分配给对应的 handler 处理 Acceptor:处理客户端连接事件 Handler:处理非阻塞的任务 在传统阻塞 IO 模型中,

    43620

    Kafka性能篇:为何这么“快”?

    完成一次磁盘 IO,需要经过寻道、旋转和数据传输三个步骤。...影响磁盘 IO 性能的因素也就发生在上面三个步骤上,因此主要花费的时间就是: 寻道时间:Tseek 是指将读写磁头移动至正确的磁道上所需要的时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转延迟:Trotation 是指盘片旋转将请求数据所在的扇区移动到读写磁盘下方所需要的时间。...因此,如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。 Kafka 采用顺序写文件的方式来提高磁盘写入性能。顺序写文件,基本减少了磁盘寻道和旋转的次数。...Reacotr 模型主要分为三个角色 Reactor:把 IO 事件分配给对应的 handler 处理 Acceptor:处理客户端连接事件 Handler:处理非阻塞的任务 在传统阻塞 IO 模型中,

    1K41

    Kafka性能篇:为何Kafka这么快?

    完成一次磁盘 IO,需要经过寻道、旋转和数据传输三个步骤。...影响磁盘 IO 性能的因素也就发生在上面三个步骤上,因此主要花费的时间就是: 寻道时间:Tseek 是指将读写磁头移动至正确的磁道上所需要的时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转延迟:Trotation 是指盘片旋转将请求数据所在的扇区移动到读写磁盘下方所需要的时间。...因此,如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。 Kafka 采用顺序写文件的方式来提高磁盘写入性能。顺序写文件,基本减少了磁盘寻道和旋转的次数。...Reacotr 模型主要分为三个角色 Reactor:把 IO 事件分配给对应的 handler 处理 Acceptor:处理客户端连接事件 Handler:处理非阻塞的任务 在传统阻塞 IO 模型中,

    58620

    Kafka性能篇:为何Kafka这么快?

    ” 看经典大图: 完成一次磁盘 IO,需要经过寻道、旋转和数据传输三个步骤。...影响磁盘 IO 性能的因素也就发生在上面三个步骤上,因此主要花费的时间就是: 寻道时间:Tseek 是指将读写磁头移动至正确的磁道上所需要的时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转延迟:Trotation 是指盘片旋转将请求数据所在的扇区移动到读写磁盘下方所需要的时间。...因此,如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。 Kafka 采用顺序写文件的方式来提高磁盘写入性能。顺序写文件,基本减少了磁盘寻道和旋转的次数。...Reacotr 模型主要分为三个角色 Reactor:把 IO 事件分配给对应的 handler 处理 Acceptor:处理客户端连接事件 Handler:处理非阻塞的任务 在传统阻塞 IO 模型中,

    52831

    单圈绝对式编码器 vs. 多圈绝对式编码器

    码盘上有多个同心环形码道,每个码道代表一个二进制位(Bit)。 码道上刻有透光/不透光(光电式)或磁性/非磁性(磁电式)的图案。...圈数值存储在由电池维持的SRAM或非易失存储器中。 断电记忆: 依靠电池在断电期间维持计数器的供电或保存存储器的数据。 优点: 结构相对简单(比机械齿轮)。计数范围可以非常大。成本可能相对较低。...简化系统: 无需额外的外部圈数计数器或复杂的寻零/同步逻辑。 提高安全性: 防止因寻零失败或增量计数丢失/错误导致的设备误动作。 缺点: 结构更复杂: 增加了圈数计数机构。...简单来说两句话: 单圈: 解决“我在这一圈的哪里?”的问题。适用于行程在一圈内的精确定位。 多圈: 解决“我在第几圈?以及在这一圈的哪里?”的问题。...提供全局绝对位置,是长行程、需要断电位置保持、安全关键或难以寻零应用的关键解决方案。其核心技术差异(齿轮/韦根/电池)直接影响可靠性、维护需求和成本。

    73810

    软考系统架构设计师(三):操作系统

    3、索引分配 链接分配方式虽然解决了连续分配方式所存在的问题,但又出现了另外两个问题: 不能支持高效的直接存取。要对一个文件进行直接存取,需首先在FAT中顺序的查找许多盘块号。...在访问时间中,寻道时间和旋转延迟时间,通常是占据了访问时间的大头。适当地集中数据(不要太零散)传输,将有利于提高传输效率。...目前磁头停留在100道。此时开始磁盘调度;其调度序列为︰ 最短寻道时间优先 优先满足访问磁道与当前磁头所在磁道距离最近的进程,以使每次的寻道时间最短。 问题:可能导致某些进程发生“饥饿”。...这种调度算法不能保证平均寻道时间最短。 最短寻道时间优先调度算法之例 9个进程先后提出读盘请求,访问的磁道号为:55 ; 58;39; 18; 90; 160; 150; 38; 184。...算法既能获得较好的寻道性能,又能防止进程饥饿,被广泛用于大、中、小型机和网络中的磁盘调度。

    91920

    操作系统实验六

    此算法由于未对寻道进行优化,在对磁盘的访问请求比较多的情况下,此算法将降低设备服务的吞吐量,致使平均寻道时间可能较长,但各进程得到服务的响应时间的变化幅度较小。...,以使每次的寻道时间最短,该算法可以得到比较好的吞吐量,但却不能保证平均寻道时间最短。...此算法基本上克服了最短寻道时间优先算法的服务集中于中间磁道和响应时间变化比较大的缺点,而具有最短寻道时间优先算法的优点即吞吐量较大,平均响应时间较小,但由于是摆动式的扫描方法,两侧磁道被访问的频率仍低于中间磁道...如果对磁道的访问请求是均匀分布的,当磁头到达磁盘的一端,并反向运动时落在磁头之后的访问请求相对较少。...这是由于这些磁道刚被处理,而磁盘另一端的请求密度相当高,且这些访问请求等待的时间较长,为了解决这种情况,循环扫描算法规定磁头单向移动。

    1.2K10

    进字节了,Kafka 为什么这么快?

    看经典大图: 完成一次磁盘 IO,需要经过寻道、旋转和数据传输三个步骤。...影响磁盘 IO 性能的因素也就发生在上面三个步骤上,因此主要花费的时间就是: 寻道时间:Tseek 是指将读写磁头移动至正确的磁道上所需要的时间。...寻道时间越短,I/O 操作越快,目前磁盘的平均寻道时间一般在 3-15ms。 旋转延迟:Trotation 是指盘片旋转将请求数据所在的扇区移动到读写磁盘下方所需要的时间。...因此,如果在写磁盘的时候省去寻道、旋转可以极大地提高磁盘读写的性能。 Kafka 采用顺序写文件的方式来提高磁盘写入性能。顺序写文件,基本减少了磁盘寻道和旋转的次数。...Reacotr 模型主要分为三个角色 Reactor:把 IO 事件分配给对应的 handler 处理 Acceptor:处理客户端连接事件 Handler:处理非阻塞的任务 在传统阻塞 IO 模型中,

    24020

    【字节跳动】第十六讲 走进消息队列| 青训营笔记

    2.7 Producer 2.7.1 Producer-批量发送 10.png 批量发送可以减少IO次数,从而加强发送能力 可是出现了新的问题:如果消息量很大,网络带宽不够用,如何解决?...寻道成本比较高,因此顺序写可以减少寻道所带来的时间成本。...13.png 2.8.3 顺序写 14.png 采用顺序写的方式进行写入,以提高写入效率 2.8.4 如何找到消息 Consumer 通过发送 FetchRequest 请求消息数据,Broker会将指定...18.png 2.8.6 传统数据拷贝 19.png 2.8.7 零拷贝 20.png 2.9 Consumer 2.9.1 消息的接收端 21.png 如何解决Partition在Consumer...52.png 使用Mirror通过最终一致的方式,解决跨Region读写问题 3.12 Index 53.png 如果希望通过写入的LogId、UserId或者其他的业务字段进行消息的查询,应该怎么做

    2.2K11

    文件系统

    二、方式二:链式分配: 文件以数据块链表方式存储 文件头包含了到第一块和最后一块的指针 优势: 创建,增大,缩小很容易;没有碎片 劣势: 不可能进行真正的随机访问;可靠性 三、索引分配: 为每个文件创建一个名为索引数据块的非数据数据块...: 定位到期望的磁道所花费的时间 旋转延迟: 从扇区的开始处到到达目的处花费的时间 平均旋转延迟时间 = 磁盘旋转一周时间的一半 IO传输时间表达式 寻道时间是性能上区别的原因 对单个磁盘,会有一个IO...请求数目 如果请求是随机的,那么会表现很差 如何解决这种磁盘上寻道时间的开销大的问题 (一) FIFO 按顺序处理请求 公平对待所有进程 在有很多进程的情况下,接近随机调度的性能 虽然上述的FIFO是一种简洁的方式...所以需要另一种方法 : (二) 最短服务优先: 选择从磁臂当前位置需要移动最少的IO请求 总是选择最短寻道时间 (三) skan方法(电梯的IO请求调度算法) : 磁臂在一个方向上移动,满足所有为完成的请求...,直到磁臂到达该方向上最后的磁道 调换方向 (四) c-skan方法 : 限制了仅在一个方向上扫描 当最后一个磁道也被访问过了后,磁臂返回到磁盘的另外一端再次进行扫描 (五) c-loop(c-skan

    45810

    操作系统之文件管理

    优点 简单 支持顺序存取和随机存取 所需的磁盘寻道次数和寻道时间最少 可以同时读入多个块,检索一个块也很容易 缺点 * 文件不能动态增长,因为可能后面的磁盘空间已经被占据了。...优点 * 提高了磁盘空间的利用率,不存在外部碎片问题 有利于文件插入和删除 有利于文件动态扩充 缺点 * 存取速度慢,不适于随机存取 可靠性问题,如指针出错 更多的寻道次数和寻道时间...优点 保持了链接结构的优点,又解决了其缺点 * 既能顺序存取,又能随机存取 满足了文件动态增长、插入删除的要求 能充分利用磁盘空间 缺点 * 较多的寻道次数和寻道时间 索引表本身带来了系统开销...公平 一个IO请求在有限时间内满足 高效 减少设备机械运动带来的时间开销 一次访盘时间 = 寻道时间 + 旋转延迟时间 + 传输时间 减少寻道时间 减少延迟时间 5.7 磁盘调度算法(重点...2、最短寻道时间优先(Shortest Seek Time First)(重点) 用于磁盘 优先选择距当前磁头最近的访问请求进行服务,主要考虑寻道优先。

    2.8K82

    计算机组织结构(七) 外存

    文档目录 合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式 特点 大容量,非常用 非易失性...磁盘上相对位置相同的所有磁道的集合称为柱面. 读写机制 image.png 读-写是通过一个叫做磁头的导电线圈进行的....磁盘性能参数 image.png 寻道时间 磁头定位到该磁道所花的时间. 初始启动的时间 穿越磁道的时间 旋转延迟 等待相应扇区的起始处到达磁头的时间. 平均为磁盘周期的一半....存取时间 寻道时间和旋转延迟总和 传送时间 数据传送到磁盘所需时间 b 待传送字节数 N 各磁道的字节数 r 转速 总平均存取时间 可以证明磁盘整理加快存取速度....最短寻道时间(SSTF) 优先处理距离当前磁头位置的最短寻道时间的请求. SCAN 在 0 和 N 之间移动磁头,优先处理当前移动方向上的请求,到达一端后反向.

    96720

    如何让linux服务器磁盘io性能翻倍

    如果为服务器订制一个专用文件系统,可以完全解决文件碎片的问题,将磁盘io的性能发挥至极限。对于我们的代理服务器,相当于把io性能提升到3-5倍。...延迟分配的副作用有几个:1 如果应用程序每次写数据后都通过fsync等接口进行强制刷新,延迟分配将不起作用2 延迟分配有可能间歇性引入一个较大的磁盘IO延时(因为要一次性向磁盘写入较多数据) 如何针对性优化...如果能让这10张图片存储在连续的磁盘空间中,就能把io性能提升10倍(一次寻道就可以读10个文件了)传统的做法是通过拼接图片来将这10张图片合并到一张大图中,再由前端将大图切成10张小图。...不允许在文件未终结的情况下分配非16MB的空间。读写文件时,每次读写16MB或者直到文件末尾。 在我们的文件系统中,小文件完全无碎片,一次寻道就能搞定一个文件,达到了理论上最佳的性能。...有一个公式可以衡量磁盘io的效率:磁盘利用率 = 传输时间/(平均寻道时间+传输时间)对我们当时采用的磁盘来说(1T 7200转sata),16MB连续读写已经可以达到98%以上的磁盘利用率。

    5.1K40
    领券