前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >记一次 Netty PR 的提交

记一次 Netty PR 的提交

作者头像
挖坑的张师傅
发布于 2022-05-13 08:43:11
发布于 2022-05-13 08:43:11
29200
代码可运行
举报
文章被收录于专栏:张师傅的博客张师傅的博客
运行总次数:0
代码可运行

有一个热心网友丁师傅提了一个问题,问为什么 netty 源码中,有这样一段代码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public final class InternalThreadLocalMap 
    extends UnpaddedInternalThreadLocalMap {
    // ArrayList-related thread-locals
    private ArrayList<Object> arrayList;

    // ...
    private BitSet cleanerFlags;

    /** @deprecated These padding fields will be removed in the future. */
    public long rp1, rp2, rp3, rp4, rp5, rp6, rp7, rp8, rp9;
}

为什么这里需要 9 个 long 型的 padding 来做 cache-line 的填充,为什么不是 8 个或者更少的用 7 个,比如大名鼎鼎的 Disruptor,它的缓存行填充方式如下

用了 7 个 long 去保护 value 这个值独占缓存行,这个稍后会讲到。

于是做了一下简单的研究,发现是 netty 在迭代的过程中一个小瑕疵,于是做了一次 PR 的提交,过了几天就被合并了,PR 地址如下:https://github.com/netty/netty/pull/12309

改动的地方就删了一个变量,混到一个 netty PR。

InternalThreadLocalMap 用 9 个 long 型在早期的版本里的目的是填充整个对象的大小达到 128 字节,以便充分利用缓存行。4.0.36 版本之前的 InternalThreadLocalMap 类占用的大小如下。

但是在迭代的过程中在 4.0.36 版本中,引入了一个新的变量 arrayList

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class UnpaddedInternalThreadLocalMap {

    // ...
    // 4.0.36 版本新增
    // ArrayList-related thread-locals
    ArrayList<Object> arrayList;

}

public final class InternalThreadLocalMap 
    extends UnpaddedInternalThreadLocalMap {
}

之前的 InternalThreadLocalMap 的类对象对象已经到了 128 字节,但是在 4.0.36 版本又新增了这个 arrayList 变量,但是没有相应的调整填充 rp* long 型字段的个数,导致新的 InternalThreadLocalMap 类变量大小达到了 136 字节。

其实达到 136 字节也没什么问题,只是有点浪费。

到这里,Netty 这个问题的介绍就到这里了。

接下来我们先来看看什么是缓存行,什么是伪共享。

CPU 多级缓存

CPU 缓存通常分为三级缓存:

  • L1 缓存:分成两种,一种是指令缓存,一种是数据缓存
  • L1 和 L2 缓存在每一个 CPU 核中
  • L3 则是所有 CPU 核心共享的内存

不同的缓存在访问速度上有非常大的区别:

时钟周期

需要时间

寄存器

1 cycle

<1ns

L1

3~4 cycles

~1ns

L2

12 cycles

~3ns

L3

38 cycles

~12ns

RAM

100+ cycles

~65ns

可以通过 lscpu 来查看 CPU cache 的大小

如下所示:

在支持多平台的编程语言里,也有类似的逻辑,以 Go 为例,src/internal/cpu

什么是 CPU 缓存⾏(CPU Cache Line)

缓存⾏英文的解释就是“The minimum amount of cache which can be loaded or stored to memory”,缓存⼀次载⼊及写⼊数据的⼤⼩,通常为 64 字节,可以通过命令来查看。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ cat /sys/devices/system/cpu/cpu0/cache/index1/coherency_line_size ↵ 
64

接下来做一个实验,有一个 2048 * 2048 的二维数组,我们 for 循环遍历所有的数据,通过对比先遍历行和先遍历列的方式,看看两者的耗时。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

#define N 2048

int main(int argc, char **argv) {
    int slowMode = atoi(argv[1]);

    char arr[N][N];
    clock_t start, end;
    if (slowMode) {
        start = clock();
        for (int i = 0; i < N; i++) {
            for (int j = 0; j < N; j++) {
                arr[j][i] = 0;
            }
        }
        end = clock();
        printf("arr[j][i] mode, time: %ld\n", timediff(start, end));
    } else {
        start = clock();
        for (int i = 0; i < N; i++) {
            for (int j = 0; j < N; j++) {
                arr[i][j] = 0;
            }
        }
        end = clock();
        printf("arr[i][j] mode, time: %ld\n", timediff(start, end));
    }
}

结果如下

可以看到先遍历列的方式时间多了很多。

行遍历的方式如下:

列遍历的方式如下:

CPU Cache 加载内存里面的数据,不是一个一个字段加载的,而是加载一整个缓存行大小的数据,在本例中,用行遍历时,读取二维数组某一行的第一个数据时,会加载接下来的 64 字节的数据,在访问第二个数据时,就可以直接用 cache 中获取,速度自然快了很多。

ps:其实压根没什么二维数组,都是一维数组,都是下标和指针的 trick 而已。

cache line 在 Nginx 上的应用

CPU 缓存⾏的使用在很多高性能中间件都有应用,比如 Nginx 就有这样的配置项

伪共享(false sharing)

当多线程修改看似互相独⽴的变量时,如果这些变量共享同⼀个缓存⾏,就会在⽆意中影响彼此的性能,这就是伪共享,被称为并发编程⽆声的性能杀⼿。

比如我们有这样一个结构体 Point 变量,当然用 java 等其它语言的 class 也是可以的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
struct Point {
    long x;
    long y;
} point;

有两个线程,一个在不停修改 x,一个在不停读取 y,会造成什么情况呢?

前面我们介绍过,CPU 加载内存中的数据,是按缓存行来加载,在修改 x 时,加载 x 的同时也会把 y 也加载到当前核心中的缓存行中,更新完 x 以后,包含 x 的缓存行就失效了,在第二个线程读取 y 时,发现这个缓存行已经失效,就要从内存中重新加载。

一个优化的方式,就是空间换时间,增大元素的间隔使得由不同线程存取的元素位于不同的缓存行上,以空间换时间,增加 7 个 long 型变量。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
struct Point {
    long x;
#ifdef ENABLE
    long p_1;
    long p_2;
    long p_3;
    long p_4;
    long p_5;
    long p_6;
    long p_7;
#endif
    long y;
} point;

目的就是让 x 和 y 独占缓存行,不互相影响。

CPU 缓存在 Disruptor 中的应用

Java SDK 的 ArrayBlockingQueue,其内部维护了 4 个成员变量,分别是队列数组 items、出队索引 takeIndex、入队索引 putIndex 以及队列中的元素总数 count。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
public class ArrayBlockingQueue<E> extends AbstractQueue<E>
        implements BlockingQueue<E>, java.io.Serializable {

    /** The queued items */
    final Object[] items;

    /** items index for next take, poll, peek or remove */
    int takeIndex;

    /** items index for next put, offer, or add */
    int putIndex;

    /** Number of elements in the queue */
    int count;
}

当 CPU 从内存中加载 takeIndex 时,会把 putIndex、count 等都加载到缓存行。假设一个线程执行入队操作,修改 putIndex,导致缓存行失效,另外一个线程执行出队操作,读取 takeIndex,由于前面的线程修改了 putIndex 导致缓存行失效,读取 takeIndex 只能重新从内存中读取。

从这里可以看到,入队压根就不会修改 takeIndex,但是由于修改了 putIndex,而 takeIndex 和 putIndex 共享的是一个缓存行,导致无法利用 CPU cache,导致伪共享的发生。

Disruptor 则使用字段填充的方式来避免伪共享

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
class LhsPadding
{
    protected long p1, p2, p3, p4, p5, p6, p7;
}

class Value extends LhsPadding
{
    protected volatile long value;
}

class RhsPadding extends Value
{
    protected long p9, p10, p11, p12, p13, p14, p15;
}


public class Sequence extends RhsPadding
{
}

通过继承的方式,在 value 前后都填充了 7 个 long 型的变量,让 value 独占缓存行,这样其它的变量修改不会影响到频繁读写的 value 值。

后记

高性能编程的水还是挺深的,不懂一点底层原理都看不懂很多代码为什么要那么写。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 张师傅的博客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
C#转换汉字为汉语拼音全拼
这个C#类用于将汉字转换成拼音全拼,内置拼音库,无需外部引用 using System.Text.RegularExpressions; namespace DotNet.Utilities { /// <summary> /// 汉字转拼音类 /// </summary> public class EcanConvertToCh { //定义拼音区编码数组 private static int[] getValue = new in
用户7108768
2021/11/03
1.9K0
C#----汉字转拼音
上一篇博客中介绍的是动态加载EasyUI控件显示到前台,里面包括按钮控件,而且每一个设备有可能有不同的命令和参数,不过总共可以显示的有八种不同的按钮,公用的,那如何实现不同的参数按钮点击的时候能够去加载相同的JS,而不用每次都去获取一个新的ID,于是就想到了一个办法,根据从数据库中获取的命令的数据,将汉字转化成拼音,这样就可以实现上面的结果。
令仔很忙
2018/09/14
4.6K0
一个汉字转拼音的C#类
using System; using System.Text.RegularExpressions; using System.Text; namespace Ming { public class PinYinHelper { private static int[] pyValue = new int[] { -20319,-20317,-20304,-20295,-20292,-20283,-20265,-20257,-20
用户7705674
2021/11/03
6080
在MySQL里将中文转换成拼音
准备数据表和函数 CREATE TABLE IF NOT EXISTS `t_base_pinyin` ( `pin_yin_` varchar(255) CHARACTER SET gbk NOT NULL, `code_` int(11) NOT NULL, PRIMARY KEY (`code_`) ) ENGINE=InnoDB DEFAULT CHARSET=latin1; INSERT INTO t_base_pinyin (pin_yin_,code_) VALUES ("
兜兜毛毛
2019/12/16
5K0
汉字转化为拼音类
Pinyin.class.php ~ 15KB          <?php /* 汉字转化为拼音类 */ class Pinyin{ /** * 汉字ASCII码库
大师级码师
2021/09/22
1K0
VB.NET 汉字转拼音
Function get_py(ByVal str As String) As String
办公魔盒
2019/07/22
2.7K0
VB.NET 汉字转拼音
C# 汉字转拼音
记录 直接上代码 #region 汉字转拼音 #region 数组信息 private static int[] pyValue = new int[] { -20319, -20317, -20304, -20295, -20292, -20283, -20265, -20257, -20242, -20230, -20051, -20036, -20032, -20026, -200
Shunnet
2021/06/11
5.1K0
汉字转化成拼音的源代码
 18        /// <param name="str_Spell">汉字</param>
Java架构师必看
2021/03/22
6130
MySQL 中文转拼音函数
        需求是将字符串中的汉字转为拼音。创建一个汉字转拼音的函数,在其中判断每个字符是否为中文,如果是则查询拼音表取得对应的拼音,否则原样返回。网上的大部分 MySQL 转拼音函数都是通过创建一个拼音对照表,然后在自定义函数中查询该表实现的。以下对这种实现做了修改,具有以下特点:
用户1148526
2023/11/25
6490
PHP基于自定义函数实现的汉字转拼音功能实例
本文实例讲述了PHP基于自定义函数实现的汉字转拼音功能。分享给大家供大家参考,具体如下: 整个过程用到了pinyin.table文件。 pinyin.php
用户2323866
2021/07/09
7140
c#字符串中文汉字转拼音
立羽
2023/08/24
3580
c#字符串中文汉字转拼音
正则表达式 - 匹配 Unicode 和其他字符
      有时我们需要匹配 ASCII 范围之外的字符。现在已经有了可以表示超过10万个字符的Unicode 标准(http://www.unicode.org)。然而,Unicode 也没有完全舍
用户1148526
2023/05/11
3K0
正则表达式 - 匹配 Unicode 和其他字符
JPinYin,一个汉字拼音转换的利器,你值得拥有
在某些场景中,可能为了方便用户快速搜索,使用拼音首字母的方式进行检索。举个例子,一个系统支持拼音首字母检索,那么输入hzlj就可以搜索出杭州龙井等商品结果,系统中提供一个字段用于存储拼音字母组合即可。(呃~~,在这里我们不讨论为什么不用索引进行检索等,只是给出一个case说明)。
孟君
2019/08/26
4.4K0
JPinYin,一个汉字拼音转换的利器,你值得拥有
超简单 Python 汉字拼音转换工具,你一定要试试
现在互联网上有许多拼音转换工具,基于Python的开源模块也不少,今天给大家介绍一个功能特性最多的模块:  pypinyin ,它支持以下特性:
陈晨135
2021/12/20
1.2K0
超简单 Python 汉字拼音转换工具,你一定要试试
Java实用工具类四:StringUtils工具类
此文仅对自己工作中用到的类进行总结,方便以后的使用。 package com.cn.hnust.util; import java.io.UnsupportedEncodingException; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import javax.servlet.http.HttpServletRe
芈亓
2022/06/17
7250
EMLOG标签汇总[按首字母索引]
在写EMLOG版本的Begin主题是做了一个单独的标签页面,按照首字母排列,目前好像没有看见,我也是从独狼那里弄过来的,以下是代码,有需要的朋友可以拿去玩玩。
用户8099761
2023/05/10
6400
暴力遍历还没注册的双拼域名
最近突然发现双拼域名越来越少,价格也在不断上涨。想注册一个有趣的双拼域名玩玩,于是动手写了一个暴力查询双拼域名的工具。 思路比较简单,首先找到域名查询的接口,这些接口一般都会做策略防止暴力查询,这边我
陈仁松
2018/03/20
3.5K0
C#操作json的通用帮助类
using System; using System.Data; using System.Text; using System.Collections.Generic; using System.Reflection; using System.Data.Common; using System.Collections; using System.IO; using System.Text.RegularExpressions; using System.Runtime.Serialization.Jso
用户7108768
2021/11/02
1.4K0
c#测试字符串是否为GUID的几种方法
以前为了赶项目遇到这种需求时,也没过多考虑性能因素,随便写了一个(现在看起来很原始的)方法来实现: static bool IsGuidByError(string strSrc) { if (String.IsNullOrEmpty(strSrc)) { return false; } bool _result = false; try { Guid _t = n
菩提树下的杨过
2018/01/19
2.1K0
iOS一点点 - TableView 拼音序排序(汉字转拼音、简繁体转换、日文转罗马音等)
Introduction to ICU General Transforms Transform Rule Tutorial 使用ICU进行拼音转汉字暂时似乎也许可能是不太行的
Alan Zhang
2018/10/19
2.2K0
iOS一点点 - TableView 拼音序排序(汉字转拼音、简繁体转换、日文转罗马音等)
相关推荐
C#转换汉字为汉语拼音全拼
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验