linux共享内存吞吐量_linux共享内存_linux内存共享 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

后台性能测试不可不知的二三事

某月黑风高之夜，某打车平台上线了一大波（G+）优惠活动，众人纷纷下单。于是乎，该打车平台使用的智能提示服务扛不住直接趴窝了（如下图）。事后，负责智能提示服务开发和运维的有关部门开会后决定：必须对智能提示服务进行一次全面深入的性能摸底，立刻！现在！马上！那么一大坨问题就迎面而来：对于智能提示这样的后台服务，性能测试过程中应该关心那些指标？这些指标代表什么含义？这些指标的通过标准是什么？下面将为您一一解答。概述不同人群关注的性能指标各有侧重。后台服务接口的调用者一般只关心吞吐量、响应时间等外部指标。

07

对atbus的小数据包的优化

atbus是我按之前的思路写得服务器消息通信中间件，目标是简化服务器通信的流程，能够自动选择最优路线，自动的断线重连和通信通道维护。能够跨平台并且高效。

02

您找到你想要的搜索结果了吗？

是的

没有找到

垃圾回收算法优缺点对比

mutator 是 Edsger Dijkstra 、琢磨出来的词，有“改变某物”的意思。说到要改变什么，那就是 GC 对象间的引用关系。不过光这么说可能大家还是不能理解，其实用一句话概括的话，它的实体就是“应用程序”。这样说就容易理解了吧。GC 就是在这个 mutator 内部精神饱满地工作着。

02

JAVA JVM 优化「建议收藏」

现在多核 CPU 是主流。利用多核技术，可以有效发挥硬件的能力，提升吞吐量，对于 Java 程序，可以实现并发垃圾收集。但是 Java 利用多核技术也带来了一些问题，主要是多线程共享内存引起了。目前内存和 CPU 之间的带宽是一个主要瓶颈，每个核可以独享一部分高速缓存，可以提高性能。JVM 是利用操作系统的”轻量级进程”实现线程，所以线程每操作一次共享内存，都无法在高速缓存中命中，是一次开销较大的系统调用。所以区别于普通的优化，针对多核平台，需要进行一些特殊的优化。

01

技术干货 | FreeFlow: 基于软件的虚拟RDMA容器云网络

https://blog.csdn.net/weixin_33725722/article/details/89131555

01

影响mysql的场外因素

Mysql在使用时不仅会受到自己的配置参数影响, 服务器硬件设施, 内核参数也会对性能有影响.

01

Garnet: 力压Redis的C#高性能分布式存储数据库

今天看到微软研究院开源了一个新的C#项目，叫Garnet，它实现了Redis协议，可以直接将Redis替换为Garnet，客户端不需要任何修改。根据其官网的信息，简单的介绍一下它。

01

FlashAttention2详解（性能比FlashAttention提升200%）

来源丨https://zhuanlan.zhihu.com/p/645376942

01

深度分析NVIDIA A100显卡架构（附论文&源码下载）

基于安培体系结构的NVIDIA A100 GPU是为了从其许多新的体系结构特征和优化中提供尽可能多的AI和HPC计算能力而设计的。在台积电7nm N7 FinFET制造工艺上，A100提供了比Tesla V100中使用的12nm FFN工艺更高的晶体管密度、更好的性能和更好的功率效率。一种新的Multi-Instance GPU(MIG)能为多租户和虚拟化GPU环境提供了增强的客户端/应用程序故障隔离和QoS，这对云服务提供商特别有利。一个更快和更强的错误抗力的第三代NVIDIA的NVLink互连提供了改进的多GPU性能缩放的超尺度数据中心。

05

什么是并发、高并发以及实现高并发需要考虑的因素

说到并发，期英文单词为Conurrent,如果要彻底理解并发，那么还需知道一个词就是并行，英文单词Parallel。那么二者有什么关系呢？Erlang 之父 Joe Armstrong用如下图来解释了并发与并行的区别：

01

并发与并行

并发（concurrency）是指在一段时间内，有多个程序都处于启动运行到运行完毕之间，但任一时刻点上只有一个程序在处理机上运行。它是一种逻辑上的同时性，不一定要在物理上同时发生。

01

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

近来，几种长上下文语言模型陆续问世，包括 GPT-4（上下文长度为 32k）、MosaicML 的 MPT（上下文长度为 65k）Anthropic 的 Claude（上下文长度为 100k）。长文档查询和故事写作等新兴用例已经表明扩展语言模型上下文窗口是非常必要的。

05

微软开抢年收入上亿美元的 Redis 饭碗？开源性能遥遥领先的 Garnet：无需修改，Redis 客户端可直接接入

近日，微软正式开源缓存存储系统 Garnet。据微软研究院数据库小组高级首席研究员 Badrish Chandramouli 介绍，Garnet 项目是从零开始构建而成，且以性能为核心考量（特别是吞吐量中的线程可扩展性与更高比例的低延迟水平）。

01

斯坦福博士一己之力让Attention提速9倍！FlashAttention燃爆显存，Transformer上下文长度史诗级提升

FlashAttention-2是一种从头编写的算法，可以加快注意力并减少其内存占用，且没有任何近似值。

02

安娜Anna：世界最快的超级伸缩的KVS, 秒杀Redis

这个大学在计算机学术界、工业界的地位举足轻重，其中的AMP实验室曾开发出了一大批大获成功、对计算机行业产生深远影响的分布式计算技术，包括 Spark、Mesos、Tachyon 等。作为AMP的继任者，于2017年2月新成立的RISE实验室致力于开发实时、智能、可安全执行的新一代大数据处理系统，已经开源了新型分布式执行框架Ray等项目

02

我所理解的性能测试是什么？

扯淡首先说明这篇博客是文不对题的。起这个名字想法来源自韩寒的《我所理解的生活》，之前看过一个关于这本书的视频，感觉巨牛X，于是就想写一篇《我所理解的性能测试》。虽然是文不对题的，但我就是想用这个名字，在这个残忍的社会，给自己博客文章起个名字这点权利还是有的。下面我要贴出来的是zee大神的《性能测试面试问题列表》中列出来的性能测试与操作系统方面问题与我自己整理的回答。回答的不一定对，也懒得去改了。就用这些问题与回答来记录我这段时间的努力，来记录我所理解的性能测试吧。性能测试 1.如何理解TPS 性能指

09

操作系统之进程管理(上)，研究再多高并发，都不如啃一下操作系统进程！！！

由图可知程序会先由编译器编译成机器指令，运行之前先把程序放入内存，在内存中创建一个进程实体。一个进程实体(进程映像)由PCB、程序段、数据段组成。然后CPU从内存中取出指令，来运行程序。

02

OS部分关键参数整理

默认0，表示不实用swap，改成1-100的情况表示使用swap，1表示尽量不使用，100尽量使用。不建议打开这个参数，大部分情况内存超了oom即可，swap属于温水煮青蛙。

02

【Android RenderScript】RenderScript 简介 ① ( GPU 简介 | GPU 系统架构 )

使用 RenderScript 编写 Android 平台运行的高性能计算应用程序 ;

01

英伟达A100 Tensor Core GPU架构深度讲解

HPC已经超越了运行计算密集型应用的超级计算机，如天气预报、油气勘探和金融建模。今天，数以百万计的NVIDIA GPU正在加速运行在云数据中心、服务器、边缘系统甚至桌面工作站中的许多类型的HPC应用程序，为数百个行业和科学领域服务。

03

斯坦福博士独作！大模型训练速度再翻倍，还官宣加入明星创业公司当首席科学家

各种大模型都在用的FlashAttention今天正式发布第2代并开源，所有Transformer架构的模型都可使用它来加速。

03

linux环境常用的性能监控和协助开发调试工具

本文介绍了在 Linux 系统中，通过 perf 工具对应用程序进行性能监控的方法和工具。作者从监控方式、监控工具、性能调优、瓶颈诊断等方面进行了详细的阐述。同时，作者还提供了在性能调优过程中的实用技巧和案例，以帮助读者更好地掌握性能调优技巧。本文适合对 Linux 系统性能调优和应用程序性能监控感兴趣的读者阅读。

01

go利用缓冲通道限制处理数

Go 原生支持应用之间的通信和程序的并发。程序可以在不同的处理器和计算机上同时执行不同的代码段。Go 语言为构建并发程序的基本代码块是协程 (goroutine) 与通道 (channel) 。他们需要语言，编译器，和 runtime 的支持。Go 语言提供的垃圾回收器对并发编程至关重要。

05

十个问题弄清JVM&GC（二）

每个java开发同学不管是日常工作中还是面试里，都会遇到JDK、JVM和GC的问题。本文会从以下10个问题为切入点，带着大家一起全面了解一下JVM的方方面面。

01

计算机基础知识整理汇总（一）

（一）C++语言基础知识：（1）static关键字的作用： 1.全局静态变量在全局变量前加上关键字static，全局变量就定义成一个全局静态变量。静态存储区，在整个程序运行期间一直存在。初始化：未经初始化的全局静态变量会被自动初始化为0（自动对象的值是任意的，除非他被显式初始化）。作用域：全局静态变量在声明他的文件之外是不可见的，准确地说是从定义之处开始，到文件结尾。 2. 局部静态变量在局部变量之前加上关键字static，局部变量就成为一个局部静态变量。内存中的位置：静态存储区。初始化：未经初始化的全局静态变量会被自动初始化为0（自动对象的值是任意的，除非他被显式初始化）。作用域：作用域仍为局部作用域，当定义它的函数或者语句块结束的时候，作用域结束。但是当局部静态变量离开作用域后，并没有销毁，而是仍然驻留在内存当中，只不过我们不能再对它进行访问，直到该函数再次被调用，并且值不变。 3. 静态函数在函数返回类型前加static，函数就定义为静态函数。函数的定义和声明在默认情况下都是extern的，但静态函数只是在声明他的文件当中可见，不能被其他文件所用。函数的实现使用static修饰，那么这个函数只可在本cpp内使用，不会同其他cpp中的同名函数引起冲突。 warning：不要再头文件中声明static的全局函数，不要在cpp内声明非static的全局函数，如果你要在多个cpp中复用该函数，就把它的声明提到头文件里去，否则cpp内部声明需加上static修饰。 4. 类的静态成员在类中，静态成员可以实现多个对象之间的数据共享，并且使用静态数据成员还不会破坏隐藏的原则，即保证了安全性。因此，静态成员是类的所有对象中共享的成员，而不是某个对象的成员。对多个对象来说，静态数据成员只存储一处，供所有对象共用。 5. 类的静态函数静态成员函数和静态数据成员一样，它们都属于类的静态成员，它们都不是对象成员。因此，对静态成员的引用不需要用对象名。（2） C++与C语言的区别：设计思想上： C++是面向对象的语言，而C是面向过程的结构化编程语言语法上： C++具有封装、继承和多态三种特性 C++相比C，增加多许多类型安全的功能，比如强制类型转换、 C++支持范式编程，比如模板类、函数模板等（二）计算机操作系统：（1）进程与线程的概念，以及为什么要有进程线程，其中有什么区别，他们各自又是怎么同步的？进程是对运行时程序的封装，是系统进行资源调度和分配的的基本单位，实现了操作系统的并发。线程是进程的子任务，是CPU调度和分派的基本单位，用于保证程序的实时性，实现进程内部的并发；线程是操作系统可识别的最小执行和调度单位。每个线程都独自占用一个虚拟处理器：独自的寄存器组，指令计数器和处理器状态。每个线程完成不同的任务，但是共享同一地址空间（也就是同样的动态内存，映射文件，目标代码等等），打开的文件队列和其他内核资源。进程与线程的区别： 1.一个线程只能属于一个进程，而一个进程可以有多个线程，但至少有一个线程。线程依赖于进程而存在。 2.进程在执行过程中拥有独立的内存单元，而多个线程共享进程的内存。（资源分配给进程，同一进程的所有线程共享该进程的所有资源。同一进程中的多个线程共享代码段（代码和常量），数据段（全局变量和静态变量），扩展段（堆存储）。但是每个线程拥有自己的栈段，栈段又叫运行时段，用来存放所有局部变量和临时变量。） 3.进程是资源分配的最小单位，线程是CPU调度的最小单位； 4.系统开销：由于在创建或撤消进程时，系统都要为之分配或回收资源，如内存空间、I／o设备等。因此，操作系统所付出的开销将显著地大于在创建或撤消线程时的开销。类似地，在进行进程切换时，涉及到整个当前进程CPU环境的保存以及新被调度运行的进程的CPU环境的设置。而线程切换只须保存和设置少量寄存器的内容，并不涉及存储器管理方面的操作。可见，进程切换的开销也远大于线程切换的开销。 5.通信：由于同一进程中的多个线程具有相同的地址空间，致使它们之间的同步和通信的实现，也变得比较容易。进程间通信IPC，线程间可以直接读写进程数据段（如全局变量）来进行通信——需要进程同步和互斥手段的辅助，以保证数据的一致性。在有的系统中，线程的切换、同步和通信都无须操作系统内核的干预 6.进程编程调试简单可靠性高，但是创建销毁开销大；线程正相反，开销小，切换速度快，但是编程调试相对复杂。 7.进程间不会相互影响；线程一个线程挂掉将导致整个进程挂掉 8.进程适应于多核、多机分布；线程适用于多核。进程间通信的方式：进程间通信主要包括管道、系统IPC（包括消息队列、信号量、信号、共享内存等）、以及套接字so

02

代码开源！用Versal FPGA加速矩阵乘法

该论文主要围绕着深度学习应用对密集矩阵乘法（Matrix Multiply, MM）的大量需求展开。随着深度学习模型的复杂度不断增加，对计算资源的需求也日益增长，这促使了异构架构的兴起，这类架构结合了FPGA（现场可编程门阵列）和专用ASIC（专用集成电路）加速器，旨在应对高计算需求。

01

深度 | 如何评价微软在数据中心使用 FPGA ？

问题「用 FPGA 代替 CPU」中，这个「代替」的说法不准确。我们并不是不用 CPU 了，而是用 FPGA 加速适合它的计算任务，其他任务仍然在 CPU 上完成，让 FPGA 和 CPU 协同工作。本回答将涵盖三个问题：为什么使用 FPGA，相比 CPU、GPU、ASIC（专用芯片）有什么特点？微软的 FPGA 部署在哪里？FPGA 之间、FPGA 与 CPU 之间是如何通信的？未来 FPGA 在云计算平台中应充当怎样的角色？仅仅是像 GPU 一样的计算加速卡吗？一、为什么使用 FPGA？众所

04

深度 | 如何评价微软在数据中心使用 FPGA ？

AI 科技评论按：本文作者李博杰，本文整理自知乎问题《如何评价微软在数据中心使用 FPGA 代替传统 CPU 的做法？》下的回答，AI 科技评论授权转载。

01

FPGA，你为什么这么牛？

众所周知，通用处理器（CPU）的摩尔定律已入暮年，而机器学习和 Web 服务的规模却在指数级增长。

04

Nginx 构建 Tomcat 集群（十）

● Nginx：192.168.56.105 ● Tomcat1：192.168.56.106 ● Tomcat2：192.168.56.107 ● Tomcat3：192.168.56.108 这里，我们在原来的 my.conf 中来编写配置文件：

01

教你如何让自己的商城扛得住高并发而不崩溃

高并发（High Concurrency）是系统运行过程中遇到的一种“短时间内大量操作请求”的情况，主要发生在web系统中通过大量访问收到大量请求时(例如12306的抢票情况；双十一活动)。这种情况的发生会导致系统在此期间执行大量的操作，比如请求资源、数据库操作等。

03

什么影响了MySQL性能

相比机械磁盘固态磁盘有更好的随机读写性能，相比机械磁盘固态磁盘有更好的并发支持，相比机械磁盘固态磁盘更容易损坏

02

浅学操作系统：进程

在线程间实现同步是为了确保多个线程按照特定的顺序执⾏，以避免竞态条件（race condition）和其他并发问题。以下是常⻅的线程间同步⽅式：

01

AtomicInteger 在高并发下性能不好，为什么？

我们知道在 JDK1.5 中新增了并发情况下使用的 Integer/Long 所对应的原子类 AtomicInteger 和 AtomicLong。

01

如何评价微软在数据中心使用FPGA代替传统CPU的做法？

编者按：本文系微软亚洲研究院实习生李博杰在知乎上针对“如何评价微软在数据中心使用FPGA代替传统CPU的做法？”问题的回答。AI科技评论已获得转载授权。首先，原问题「用 FPGA 代替 CPU」中，这个「代替」的说法不准确。我们并不是不用 CPU 了，而是用 FPGA 加速适合它的计算任务，其他任务仍然在 CPU 上完成，让 FPGA 和 CPU 协同工作。本文将涵盖三个问题：为什么使用 FPGA，相比 CPU、GPU、ASIC（专用芯片）有什么特点？微软的 FPGA 部署在哪里？FPGA 之间、

使用 DPDK 和 GPUdev 在 GPUs上增强内联数据包处理

使用 GPU 进行网络数据包内联处理是一种数据包分析技术，可用于许多不同的应用领域：信号处理、网络安全、信息收集、输入重建等。

01

什么是线程？ [通俗易懂]

线程有时称为轻量级进程。与进程一样，它们拥有通过程序运行的独立的并发路径，并且每个线程都有自己的程序计数器，称为堆栈和本地变量。然而，线程存在于进程中，它们与同一进程内的其他线程共享内存、文件句柄以及每进程状态。

02

围绕着内存数据库的4个流言

【编者按】作者Yiftach Shoolman是Redis Labs的联合创始人兼CTO，拥有着丰富的实践经验。Yiftach 之前曾是Crescendo Networks（后被F5收购）的总裁、创建者兼CTO，更早还是Native Networks的技术副总裁。在本文中，Yiftach直述了当下开发者对内存数据库所存在的偏见，并提出了一些技术选型参考意见。以下为译文时下，我们正处于一个日新月异的时代，而优秀应用的响应时间往往需要被控制在0.1秒内。这也意味着，如果可接受网络通信时间为50毫秒，那么

07

AMD最大芯片发布：集成13个小芯片，1460亿个晶体管，AI性能提升8倍！

1月6日消息，AMD 在 CES 2023展会上推出了下一代面向数据中心的APU产品Instinct MI300，其采用chiplet设计，拥有13个小芯片，晶体管数量高达1460亿个。

02

鸿蒙开发者的必修课：进程、线程、协程的深度剖析 ‍

在这篇博客里，我们将深入探讨鸿蒙开发中的三个关键概念：进程、线程、和协程，这些是每位鸿蒙开发者都必须掌握的核心知识。我们将详细解析它们各自的功能、优势，以及它们是如何解决特定编程问题的。本文内容涵盖鸿蒙操作系统、并发编程、性能优化等多个关键词，旨在为各级开发者提供有价值的参考。🚀

01

交换机参数计算

考察交换机上所有端口能提供的总带宽。计算公式为端口数*相应端口速率*2(全双工模式)如果总带宽≤标称背板带宽，那么在背板带宽上是线速的。

01

深度学习性能分析（下）

我们分析了TX1设备的系统内存消耗，它使用CPU和GPU的共享内存。图5显示最大系统内存使用量初始为常数，然后随批量大小增加。这是由于网络模型的初始存储器分配（其是大的静态分量）以及处理批处理时所需的存储器的贡献，其与图像的数量成比例地增加。在图6中，我们还可以注意到，对于尺寸小于100MB的网络，初始分配永远不会下降到200MB以下，并且其后是线性的，斜率为1.30。

01

node服务的监控预警系统架构

需求背景目前node端的服务逐渐成熟，在不少公司内部也开始承担业务处理或者视图渲染工作。不同于个人开发的简单服务器，企业级的node服务要求更为苛刻：高稳定性、高可靠性、鲁棒性以及直观的监控和报警想象下一个存在安全隐患且没有监控预警系统的node服务在生产环境下运行的场景，当某个node实例挂掉的情况下，运维人员或者对应开发维护人员无法立即知晓，直到客户或者测试人员报告bugs才开始解决问题。在这段无人处理的时间内，损失的订单数和用户的忠诚度和信任度将是以后无法弥补的，因此对于node程序的业务开发者

07

后端服务性能压测实践

[Node]监控预警系统架构的方案实践

目前node端的服务逐渐成熟，在不少公司内部也开始承担业务处理或者视图渲染工作。不同于个人开发的简单服务器，企业级的node服务要求更为苛刻：

02

线程安全

在 Java 程序中，存储数据的内存空间分为共享内存和本地内存。线程在读写主存的共享变量时，会先将该变量拷贝一份副本到自己的本地内存，然后在自己的本地内存中对该变量进行操作，完成操作之后再将结果同步至主内存。

02

官方博客：英伟达的新卡如何从硬件上支持了深度学习

编者按：5 月 11 日，在加州圣何塞举办的 2017 年度 GPU 技术大会上，英伟达发布了 Tesla V100，号称史上最强的 GPU 加速器。发布之后，英伟达第一时间在官方开发者博客放出一篇博

05

开发 | 一文详解英伟达刚发布的 Tesla V100 究竟牛在哪？

AI科技评论按：很多读者在思考，“我和AI科技评论的距离在哪里？”答案就是：一封求职信。 5 月 11 日，在加州圣何塞举办的的 2017 年度 GPU 技术大会上，英伟达发布了 Tesla V100

最先进单插槽专业绘图解决方案

Quadro RTX 4000将NVIDIA Turing GPU架构与最新的内存和显示技术相结合，以单插槽PCI-e结构提供最佳性能和功能。享受更大的流畅性与如照片真实感渲染，体验启用AI-应用更快的性能和创建详细的，栩栩如生的虚拟现实体验。更具成本效益和更加广泛与弹性的工作站机箱配置。

00

线程框架模型总结

1. Disruptor：Apache Storm底层应用了Disruptor来实现worker内部的线程通信；

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭