为什么在两个CPU寄存器之间移动数据的速度如此之慢，以至于需要花费总时间的30%？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

苹果M1芯片为何如此快？

一个基本的 RISC CPU（不是 M1）。指令沿着蓝色箭头从内存移动到指令寄存器。解码器用来解读指令的内容，同时通过红色的控制线来连通 CPU 的各个部分。ALU 对寄存器中的数字进行加减运算。...如果想把两个数字加起来，你必须把这两个数字从内存中取出，放到 CPU 的两个寄存器中。...要了解其工作原理，首先我们需要了解一些内存知识。在一个特定的内存位置上请求数据的速度很慢。但是与获得 128 个字节相比，延迟获得 1 个字节的影响不大。...数据通过数据总线发送，你可以将其视为内存与数据经过的 CPU 不同部分之间的一条通道或管道。实际上它只是一些可以导电的铜线。如果数据总线足够宽，你就可以同时获取多个字节。...不仅如此，ROB 还大了约 2 倍，基本上可以容纳 3 倍的指令。没有其他主流芯片制造商的 CPU 拥有如此多的解码器。 为什么英特尔和 AMD 不能添加更多的指令解码器？这就牵扯到 RISC 了。

1.5K2 0

知道硬盘很慢，但没想到比 CPU Cache 慢 10000000 倍

对于存储器，它的速度越快、能耗会越高、而且材料的成本也是越贵的，以至于速度快的存储器的容量都比较小。...DRAM 的数据访问电路和刷新电路都比 SRAM 更复杂，所以访问的速度会更慢，内存速度大概在 200~300 个时钟周期之间。...而 CPU 中的 L1-L3 Cache 好比我们大脑中的短期记忆和长期记忆，需要小小花费点时间来调取数据并处理。...我们面前的桌子就相当于内存，能放下更多的书（数据），但是找起来和看起来就要花费一些时间，相比 CPU Cache 慢不少。...如果 CPU 访问 L1 Cache 的缓存时间是 1 秒，那访问内存则需要大约 2 分钟，随机访问 SSD 里的数据则需要 1.7 天，访问机械硬盘那更久，长达近 4 个月。

7745 1

您找到你想要的搜索结果了吗？

是的

没有找到

汇编程序，编译器和解释器的简短介绍【Programming】

计算机知道如何对数字进行数学运算以及如何在计算机的内存层次结构中移动数据。除了内存通常有两种不同的说法外，我将不做过多介绍：快/小和慢/大。 CPU寄存器非常快，非常小并且充当暂存器。...主存储器通常很大，并且不及寄存器存储器快。 CPU将它们正在使用的数据从主存储器中重排到寄存器中，然后在程序执行时再次返回。汇编程序电脑很贵，人很便宜。...拥有昂贵机器的人不想浪费时间在人们已经在做的任务上；尽管缓慢且存在错误。随着时间的流逝，人们开始意识到汇编程序相对于手工汇编程序的速度和准确性，并且计算机完成的“实际工作”数量也增加了。...除了需要插入电源之外，这些计算机都没有任何共同点。内存和CPU体系结构差异很大，将程序从一台计算机转换到另一台计算机通常需要花费多年的时间。使用高级语言，只需将编译器工具链移植到新平台。...附带说明一下，当人们说“解释的程序很慢”时，这是人们认为缺乏性能的主要原因。现代计算机的功能是如此强大，以至于大多数人无法分辨编译程序和解释程序之间的区别。

1.2K0 0

汇编语言知识总结

，提高子程序执行速度，这样一来程序运行时间缩短并且减少了寻址，提高了编译效率，最终达到高性能目的不同cpu架构所对应的汇编语法大致相同, 只是指令集不同 寄存器 顾名思义, 寄存器可以理解为是寄生在...寄存器靠近cpu,读写数据速度远大于内存进行数据的临时存储当然 cpu内部除了有寄存器之外,还有运算器和控制器, 对于我们程序员来讲,只需要学习寄存器即可缓存 寄存器和缓存是两个概念, 由于cpu...执行速度太快, 而内存读写数据远远跟不上, 这时需要借助缓存进行数据缓冲,相当于是寄存器和内存之间的中间桥梁, 这样cpu在执行指令的时候能够有源源不断的数据供给了解:寄存器–>一级缓存–>二级缓存–...,硬盘同理 为什么要了解寄存器 因为程序员如果想要操控cpu或者修改内存, 不能直接操控, 需要借助寄存器, 更改寄存器当中的数据间接地操控cpu和内存 寄存器的数量在高级语言中如果要对两个变量进行数据交换...从x0到x30 在MIPS架构中,, 一共有32个通用寄存器 ,从0到31 在x86架构中,不同精度cpu 通用寄存器名称有所区分: ;在x86架构中,不同精度cpu 通用寄存器名称有所区分: 0x1122334455667788

2.7K2 0

面试官：CPU 是如何工作的？我一脸懵逼。。

半加法器电路图 2、存储 - 寄存器和存储器 CPU的主要任务是执行提供给它的指令。在大多数情况下，为了处理这些指令，它需要数据。有些数据是中间数据，有些是输入，另一些是输出。...然后该指令被读取到控制单元的指令寄存器（IR）中。指令被译码为load_A，这意味着它需要加载地址1000中的数据，地址1000是存储在寄存器A中的指令的后4位。...计算机系统总线缓存 CPU还具有将指令预取到其缓存中的机制。我们知道，一个处理器可以在一秒钟内完成数百万条指令。这意味着从存储器（RAM）中获取指令所花费的时间比执行指令所花费的时间要多。...性能=1/执行时间假设一个程序执行需要20毫秒。CPU性能为1/20=0.05ms。相对性能=执行时间1/执行时间2 影响CPU性能的因素是指令执行时间和CPU的时钟速度（时钟频率）。...为了尽可能地提高CPU的速度，很多优化工作已经在CPU中进行。而我们在编写任何程序时，都需要考虑如何尽可能地减少我们提供给CPU的指令数量，以提高计算机程序的性能。 ?

9424 0

多线程－概述及底层实现机制浅析

现代分时多任务操作系统对 CPU 都是分时间片使用的：比如A进程占用10ms，然后B进程占用30ms，然后空闲60ms，再又是A进程占10ms，B进程占30ms，空闲60ms;如果在一段时间内都是如此，...相当于在一枚处理器上集成多个完整的计算引擎(内核)，他们共享缓存，内存，寄存器等。核，是物理的，几核就是真的有几个物理核心。线程就是英特尔的超线程技术。是在一个实体处理器中，提供两个逻辑线程。...多处理器(多CPU) 多处理器系统是指包含两台或多台功能相近的处理器(多CPU)，处理器之间彼此可以交换数据，所有处理器共享内存，I/O设备，控制器，及外部设备，整个硬件系统由统一的操作系统控制，在处理器和程序之间实现作业...为什么要实现多线程多线程技术的出现，主要是因为多任务的需要，比如我想同时写文章和听歌，如果我们的CPU一直被写文章的任务占着，等写文章的任务结束后，再播放歌曲，很显然达不到需要的“同时”做两件事的效果...实际上，只有在多处理器系统上才是真正的在可得到的处理器上同时运行多个线程。从一个进程切换到另一个进程是需要一定时间的--保存和装入寄存器值及内存映像，更新各种表格和队列等。

1K1 0

同样是晶体管，为什么寄存器比内存快？

内存离CPU比较远，所以要耗费更长的时间读取。以3GHz的CPU为例，电流每秒钟可以振荡30亿次，每次耗时大约为0.33纳秒。光在1纳秒的时间内，可以前进30厘米。...也就是说，在CPU的一个时钟周期内（0.33纳秒），光可以前进10厘米。因此，如果内存距离CPU超过5厘米，就不可能在一个时钟周期内完成数据的读取，这还没有考虑硬件的限制和电流实际上达不到光速。...相比之下，寄存器在CPU内部，当然读起来会快一点。距离对于桌面电脑影响很大，对于手机影响就要小得多。手机CPU的时钟频率比较慢（iPhone 5s为1.3GHz），而且手机的内存紧挨着CPU。...确定数据在哪一个内存块（chunk）上，从该块读取数据。 5. 数据先送回内存控制器，再送回CPU，然后开始使用。内存的工作流程比寄存器多出许多步。...为了缓解寄存器与内存之间的巨大速度差异，硬件设计师做出了许多努力，包括在CPU内部设置缓存、优化CPU工作方式，尽量一次性从内存读取指令所要用到的全部数据等等。

1.1K1 0

为什么寄存器比内存快？

计算机的存储层次（memory hierarchy）之中，寄存器（register）最快，内存其次，最慢的是硬盘。同样都是晶体管存储设备，为什么寄存器比内存快呢？...内存离CPU比较远，所以要耗费更长的时间读取。以3GHz的CPU为例，电流每秒钟可以振荡30亿次，每次耗时大约为0.33纳秒。光在1纳秒的时间内，可以前进30厘米。...也就是说，在CPU的一个时钟周期内，光可以前进10厘米。因此，如果内存距离CPU超过5厘米，就不可能在一个时钟周期内完成数据的读取，这还没有考虑硬件的限制和电流实际上达不到光速。...相比之下，寄存器在CPU内部，当然读起来会快一点。距离对于桌面电脑影响很大，对于手机影响就要小得多。手机CPU的时钟频率比较慢（iPhone 5s为1.3GHz），而且手机的内存紧挨着CPU。...为了缓解寄存器与内存之间的巨大速度差异，硬件设计师做出了许多努力，包括在CPU内部设置缓存、优化CPU工作方式，尽量一次性从内存读取指令所要用到的全部数据等等。（完）

1.2K7 0

为什么寄存器比内存快？

同样都是晶体管存储设备，为什么寄存器比内存快呢？ ? Mike Ash写了一篇很好的解释，非常通俗地回答了这个问题，有助于加深对硬件的理解。下面就是我的简单翻译。...内存离CPU比较远，所以要耗费更长的时间读取。以3GHz的CPU为例，电流每秒钟可以振荡30亿次，每次耗时大约为0.33纳秒。光在1纳秒的时间内，可以前进30厘米。...因此，如果内存距离CPU超过5厘米，就不可能在一个时钟周期内完成数据的读取，这还没有考虑硬件的限制和电流实际上达不到光速。相比之下，寄存器在CPU内部，当然读起来会快一点。...确定数据在哪一个内存块（chunk）上，从该块读取数据。 5. 数据先送回内存控制器，再送回CPU，然后开始使用。内存的工作流程比寄存器多出许多步。...为了缓解寄存器与内存之间的巨大速度差异，硬件设计师做出了许多努力，包括在CPU内部设置缓存、优化CPU工作方式，尽量一次性从内存读取指令所要用到的全部数据等等。

8342 0

为什么寄存器比内存快？

同样都是晶体管存储设备，为什么寄存器比内存快呢？ ? Mike Ash写了一篇很好的解释，非常通俗地回答了这个问题，有助于加深对硬件的理解。下面就是我的简单翻译。...内存离CPU比较远，所以要耗费更长的时间读取。以3GHz的CPU为例，电流每秒钟可以振荡30亿次，每次耗时大约为0.33纳秒。光在1纳秒的时间内，可以前进30厘米。...也就是说，在CPU的一个时钟周期内，光可以前进10厘米。因此，如果内存距离CPU超过5厘米，就不可能在一个时钟周期内完成数据的读取，这还没有考虑硬件的限制和电流实际上达不到光速。...（4）确定数据在哪一个内存块（chunk）上，从该块读取数据。（5）数据先送回内存控制器，再送回CPU，然后开始使用。内存的工作流程比寄存器多出许多步。...为了缓解寄存器与内存之间的巨大速度差异，硬件设计师做出了许多努力，包括在CPU内部设置缓存、优化CPU工作方式，尽量一次性从内存读取指令所要用到的全部数据等等。 - End -

5012 0

计算机硬件知识

因访问内存以得到指令或数据的时间比cpu执行指令花费的时间要长得多，所以，所有CPU内部都有一些用来保存关键变量和临时数据的寄存器，这样通常在cpu的指令集中专门提供一些指令，用来将一个字（可以理解为数据...多线程运行cpu保持两个不同的线程状态，可以在纳秒级的时间内来回切换，速度快到你看到的结果是并发的，伪并行的，然而多线程不提供真正的并行处理，一个cpu同一时刻只能处理一个进程（一个进程中至少一个线程）...从左向右速度越来越慢，容量越来越大，对应的价格比越来越低。 L1缓存：寄存器。与CPU材质相同，放置在CPU内部。故时间上无延迟。...平均寻道时间：数据都存储在一片片扇形中，磁头读取相应的信息需要移动到其所在的扇形区域对应的轨道中，所花的时间即为寻道时间。...平均延迟时间：磁头移动到相应的轨道后，不一定恰好处于所需数据的扇形区域内，移动到所需数据的扇形区域所花的时间为延迟时间。

5392 0

操作系统第七篇【设备管理】

缓和CPU和I/O设备速度不匹配的矛盾；减少对CPU的中断频率，放宽对中断响应时间的限制；提高CPU和I/O设备之间的并行性。单缓冲 ? 双缓冲双缓冲，也成缓冲对换。...在IO设备和CPU之间设置了两个缓冲区，使得它们能够交替访问不同的缓冲区，从而提高数据处理的效率。...在输入与输出的速度基本匹配时可得到较好的效果，否则，由于缓冲区太少，不能缓解IO设备和CPU之间的速度压力。双缓冲退化为单缓冲。存在问题：当速度不匹配时效果退化到单缓冲机制的程度。...因此，需要控制数据提取进程和数据输入进程的同步，防止出现与时间相关的错误。与时间相关的错误见第2章2.3.1节P28。 1) Nexti指针追上Nextg指针输入速度>计算速度，系统受计算限制。...IBM3340拥有两个30MB的存储单元，而当时一种很有名的“温彻斯特来复枪”的口径和装药也恰好包含了两个数字“30”；于是这种硬盘的内部代号就被定为“温彻斯特”。

5803 0

深入iOS系统底层之CPU寄存器介绍

缓存一个完整的CPU系统里面有控制部件、运算部件还有寄存器部件。其中寄存器部件的作用就是进行数据的临时存储。既然有内存作为数据存储的场所，那么为什么还要有寄存器呢？答案就是速度和成本。...因为CPU速度很快，相应的寄存器也需要存取很快，二者速度上要匹配，所以这些寄存器的制作难度大，选材精，而且是集成到芯片内部，所价格高。...可以看出高速缓存的作用解决了不同速度设备之间的数据传递问题。...存储的层次结构--图片来源于网络我们知道在软件设计上有一个所谓的空间换时间的概念，就是当两个对象之间进行交互时因为二者处理速度并不一致时，我们就需要引入缓存来解决读写不一致的问题。...可以看出无论是在硬件层面上还是在软件层面上，当两个组件之间因为速度问题不能进行同步交互时，就可以借助缓存技术来弥补这种不平衡的状况指令中的寄存器 CPU执行的每条指令都由操作码和操作数组成，简单理解就是要对谁

1.2K3 0

CPU 是怎样工作的？

存储 — 寄存器和内存 CPU 的主要工作是执行提供给它的指令。通常要处理这些指令，它需要数据。一些数据是中间数据，其中一些是输入，另一些是输出。...在 CPU 的内部还有其他寄存器，用于保存存储在指令最后 4 位地址中的值。接下来我们举一个添加两个数字的指令的例子。...我们已经成功的对两个数字进行了加法运算！总线 CPU、寄存器、存储器和 IO 设备之间的所有数据都通过总线进行传输。...缓存 CPU 还有将指令预取到其缓存的机制。据我们所知，处理器可以在一秒钟内完成数百万条指令。这意味着从 RAM 中获取指令所花费的时间比执行它们要多。...CPU 的性能是 1/20 = 0.05ms 相对性能 = 执行时间1 / 执行时间2 CPU 性能考虑的因素是指令执行时间和 CPU 的时钟速度。

9245 0

计算机组成原理期末总结「建议收藏」

所以给出一个负数的补码将其看为无符号数减去2n(n为总位数)即代表真值 为什么会这样呢？...Erasable：可擦） 3.为了解决存储器大容量、低价格、高速度三者之间的矛盾关系，常采用多级存储器结构缓存-主存层次主要解决CPU和主存速度不匹配的问题，数据交换由硬件完成。...） DRAM需要刷新会影响速度，所以SRAM速度更快但是价格昂贵 6.DRAM采用电容存储，由于电荷量会减少所以必须定期(若不说明则是2ms)刷新,可分为集中刷新（集中到一段时间，集中歼灭）死时间是刷新总时间...在设备A工作期间，为保证数据不丢失，每秒需对其查询至少200次，则CPU用于设备A的I/O时间占整个CPU时间的百分比至少是（ 0.2% ）答：每次查询需要500个周期，每秒要查询200次即需要200...仅当输完一个数据时，才需CPU花费极短的时间去做些中断处理。因此中断申请使用的是CPU处理时间，发生的时间是在一条指令执行结束之后，数据是在软件的控制下完成传送。而DMA方式与之不同。

1.5K1 0

【编程基础】聊聊C语言-存储世界的奥秘

永久性存储区域：由ROM、可移动存储器（移动硬盘）、网络存储（云存储）、硬盘存储器（硬盘），存储在这些地方的数据则会保留相当长的时间。也就是那些可以流芳百世或者遗臭万年的人可以享受的待遇。哈哈。。...引入Cache后，在Cache内保存着主存储器内容的部分副本，CPU在读写数据时首先访问Cache。由于Cache的速度与CPU相同，因此CPU就能在零等待状态下迅速地完成数据的读写。...对于CPU总的Cache来说，它们的也是和CPU同频率的，所以理论上执行速度和寄存器应该是相同的，但是Cache往往用来存储一些指令和数据，这样就存在一个命中的问题。...当没有命中的时候，需要向下一集的存储器获取新的数据，这时Cache会被lock，所以导致实际的执行速度要比寄存器慢。 6.什么是内存？ ? 它就出了CPU的紫禁城了，作为CPU的外亲为CPU服务。...转速也在7200转左右。相对于8G的内存，一个500G的硬盘可以说是相当的便宜。但是问题在于他的速度非常的慢，从磁盘读取数据需要几个毫秒，而CPU时钟周期是以纳秒计算。磁盘存储是一种机械结构。

1.2K7 0

CPU简介

早期因为CISC指令过于复杂，只能让CPU更聪明，后来，出于和AMD的竞争的需要，则专注于计算速度。同时，在IA-64上进行了大量编译器优化策略。...Thepower wall 目前，运算速度提升30%，则需要两倍的电压和发热，并且这种设计思路无法满足移动设备，也不可能长久 TheIPL wall 目前多数应用并没有很好的并行化设计（指令级别） Thememory...有时候，仿佛是两个高效的Core，有时候，就好比两个慵懒的Core，有时候，还不如一个Core实在。SMT在P4的速度的提升在-10%到30%之间，差强人意。...索尼PS3主机在设计上大胆创新，一个聪明的Core配N个简单的Cores，但产生很多兼容问题；再比如针对移动环境低能耗，便携和低性能，实现了CPU，GPU，网卡，IO等一体化的芯片设计。...Memory Cache 上面基本上涵盖了CPU的主要知识点，还留下一个小尾巴，就是缓存。从处理器的角度而言，Cache就是处理器和内存之间一块空间小，但速度快的内存。

1.3K9 0

RISC-V 软件移植及优化锦标赛 S2311 个人总结

30%），但生成 token 的速度极慢，无法达到流畅生成故事的需求，本题需要采取各种手段优化其运行速度思路提高CPU利用率得知 Milk-v duo 实际上具有双核，但官方镜像仅在大核上运行linux...查阅资料可知，C906 有 32 个 128 位向量寄存器，每个向量寄存器可储存四位浮点数，且提供了 intrinsic 来避免手工编写大量汇编指令，可以通过 vector 指令集使用向量乘和向量加来提高程序运行效率提高内存使用率最开始不理解为什么程序内存使用率这么低...（模型文件大小甚至超过总内存大小），在阅读其他人提交的 PR 后，发现是由于程序使用mmap进行内存映射，而不是将文件一次性加载到内存中，导致运行时需要进行频繁的文件IO,极大地拖慢了整体运行速度，可以通过设置...猜想：可以启用 kernel 的 zram 特性，将文件一次性全部加载到内存中（甚至不需要设置 swap）优化模型浮点数的运算显著慢于整数，只要将模型量化为 int8 即可大幅提高程序运行速度，同时因为程序无法一次性加载导致的文件...（C/C++ 23 已经支持半精度浮点数，但编译器的适配显然不可能如此迅速，因此，即使 CPU 支持半精度浮点，也无法通过程序使用该特性来优化）总结由于开始优化时，离提交截止时间已经较近，因此没有将所有的设想全部实现一遍

640 0

有一天，如果你和计算机一样思考问题，真是太太太太有趣了

没错，CPU 就是很笨，但是 CPU 的优点也是人脑所无法比拟的：虽然 CPU 只会干简单的事情（几百种指令），但是它可以在固定的时间（指令执行时间）内保证正确的运算出正确的结果。...而人脑不可能保证在固定的时间内一定产生“同样”的思维结果。现代化的 CPU 工艺可以在一秒钟内执行百万次以上的指令，而人脑的思维速度则比不上，我们一个“念头”最短也需要零点零几秒的反应时间。...寄存器就相当于人脑中立刻可以想起来的东西，CPU 所做的一切运算都是针对于在寄存器中的数据进行的。...内存存取的速度远小于寄存器，但是访问分布在内存各个区间的数据的速度基本是相等的。...高速缓存的速度介于寄存器和内存之间，但远高于内存。高速缓存的大小一般在几兆到十几兆之间。

4874 0

记一次 spinor flash 读速度优化

针对当前的 soc 和 flash 的组合，从规格书可得到最高的 spi 时钟频率为 100M = 100 * 10^6，且读数据可使用 4 线读取，即 soc 和 flash 之间有 4 根数据线在并行传输数据...问题很明显，spi 控制器是在间歇性读数据，所以虽然读 nor 的时候是 80M 的时钟频率进行读取，但把 spi 的空闲时间计算进去，均摊下来的总的速度就只有 4M/s 了。...那么这段空闲时间，应该就是在等 cpu/dma 取数据了。验证 CPU 有了怀疑方向，那就得看下代码了。...目前驱动中使用的是 cpu 来搬运数据，正常读取过程中，cpu 在执行以下代码 while 待读取数据计数值大于0 if (查询spi寄存器，判断到fifo中存在数据) 读取spi...读取时主要是 io 操作，解压则主要是 cpu 操作。那么是否有可能实现边读取边解压，使得总的启动时间进一步缩短呢？

1.2K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭