开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用AVX2将32位值(m256i)中的8位解压到m256的最快方法

使用AVX2将32位值(__m256i)中的8位解压到__m256的最快方法是使用_mm256_cvtepi8_epi32函数。该函数可以将__m256i类型的向量中的8位整数值转换为32位整数值，并存储在__m256类型的向量中。

具体步骤如下：

首先，将__m256i类型的向量中的8位整数值转换为16位整数值，可以使用_mm256_cvtepi8_epi16函数。
然后，将16位整数值转换为32位整数值，可以使用_mm256_cvtepi16_epi32函数。

以下是示例代码：

#include <immintrin.h>

__m256i unpack_8bit_to_32bit(__m256i input) {
    __m256i temp1 = _mm256_cvtepi8_epi16(input);
    __m256i output = _mm256_cvtepi16_epi32(temp1);
    return output;
}

这种方法可以快速将32位值(__m256i)中的8位解压到__m256，并且利用了AVX2指令集的优势，提高了处理速度。

推荐的腾讯云相关产品：腾讯云计算服务（https://cloud.tencent.com/product/cvm）

相关搜索:使用ManagedDataAccess将MS Access表中的记录导入Oracle表的最快方法使用Python将数组中的负值替换为0，将大于1的值替换为1，最快的方法是什么？使用FFMPEG在前20秒内将图像添加到视频中的最快方法将矩阵(或data.frame)中每行的前两个值保留在R中的最快方法使用bash shell命令从另一个文件的列替换文件中的值列的最快方法？自动填充servlet中的值，方法是将值传递给jsp，而不使用javascript。Python:将类中的字典-使用类方法作为值-移动到另一个文件如何将ionic 4HTML文件中的i=index值传递到.ts文件中，以便在方法中使用？有没有更好的方法将类项目添加到Xamarin中的条目单元格中，并在空值时使用占位符？有没有一种方法可以将csv文件导入到pandas中，使用字典中的值作为数据帧的名称？将createItem方法与Location一起使用时，即使在所有列中获得相同的值，Location也会创建在Oracle/Generate insert语句中使用不同的值(SQL)将测试数据插入到表中的快速方法是什么？当使用INNER JOIN时，有什么方法可以将表2中的多行数据连接成一行数据(逗号分隔值)

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

用AVX2指令集优化浮点数组求和

AVX2是SIMD(单指令多数据流)指令集，支持在一个指令周期内同时对256位内存进行操作。包含乘法，加法，位运算等功能。下附Intel官网使用文档。 Intel® Intrinsics Guide

02

用AVX2指令集优化整形数组求和

AVX2是SIMD(单指令多数据流)指令集，支持在一个指令周期内同时对256位内存进行操作。包含乘法，加法，位运算等功能。下附Intel官网使用文档。 Intel® Intrinsics Guide

02

AVX2指令集浮点乘法性能分析

AVX2是SIMD(单指令多数据流)指令集，支持在一个指令周期内同时对256位内存进行操作。包含乘法，加法，位运算等功能。下附Intel官网使用文档。 Intel® Intrinsics Guide

01

Intel 内部指令 — AVX和AVX2学习笔记[通俗易懂]

将饱和度考虑在内的函数将结果钳制到可以存储的最小/最大值。没有饱和的函数在饱和发生时忽略内存问题。

04

AVX图像算法优化系列一: 初步接触AVX。

弄了SSE指令集，必然会在不同的场合不同的人群中了解到还有更为高级的AVX指令集的存在，早些年也确实有偶尔写点AVX的函数，但是一直没有深入的去了解，今年十一期间也没到那里去玩，一个人在家里抽空就折腾下这个东西，也慢慢的开始了解了这个东西，下面是基于目前的认知对这个东西进行下一个简单的小结，有些东西也许是不正确或者不全面的，但应该无伤大雅。

01

AVX图像算法优化系列二: 使用AVX2指令集加速查表算法。

查表算法，无疑也是一种非常常用、有效而且快捷的算法，我们在很多算法的加速过程中都能看到他的影子，在图像处理中，尤其常用，比如我们常见的各种基于直方图的增强，可以说，在photoshop中的调整菜单里80%的算法都是用的查表，因为他最终就是用的曲线调整。

01

【向量检索研究系列】本地向量检索（上）

当广告推荐业务峰值QPS已经达到10万以上，向量检索QPS峰值就会就会达到30万以上，召回服务的向量检索P99时延和平均时延已经超出了能接受的正常范围，导致召回服务整体时延达到上限，很多请求超时以至于没有广告返回给上游服务。同时粗排服务对召回服务返回的广告列表进行自定义向量相似度计算过滤，传统的数学公式计算非常耗时和耗资源，导致粗排服务压力很大，上游召回服务又想召回更多广告给到粗排服务进行再次过滤以提高召回精度。因此关于向量相关的检索和计算需要进行优化以缓解线上服务压力，助力业务发展。

03

大模型部署框架 FastLLM 实现细节解析

以chatglm-6b的支持为例，函数入口在 https://github.com/ztxz16/fastllm/blob/master/src/models/chatglm.cpp#L626 ，这里的 input 就是输入的 context（string类型）。然后 https://github.com/ztxz16/fastllm/blob/master/src/models/chatglm.cpp#L633 这行代码对 input 进行 tokenizer encode并构造好inputIds，再构造好attentionMask之后就可以给Forward函数推理，拿到推理结果之后再使用tokenizer进行decode得到输出。

07

c++ SIMD AVX2比较例子

生成随机文件代码详见：https://blog.csdn.net/weixin_41644391/article/details/113526563

01

聊聊ClickHouse向量化执行引擎-过滤操作

俄罗斯Yandex开发的ClickHouse是一款性能黑马的OLAP数据库，其对SIMD的灵活运用给其带来了难以置信的性能。本文我们聊聊它如何对过滤操作进行SIMD优化。

05

【AI PC端算法优化】四，一步步将Sobel边缘检测加速22倍

继续优化技术的探索，今天以一个的Sobel算子进行边缘检测的算法为例来看看如何使用SSE指令集对其进行优化。

01

[强基固本-视频压缩]第十二章：向量指令第一部分

向量计算是在执行单个处理器指令时，对多个数据块同时执行相同类型的多个操作。这一原理也被称为 SIMD（单指令多数据）。这个名字源于与向量代数的明显相似性：向量之间的操作具有单一符号表示，但涉及对向量各分量执行多个算术操作。

01

SIMD and Avx2

SIMD 一条指令可以执行多个数据group的计算和输出。对于SIMD相对应的SISD. intel SSE2 , AVX2, AVX-512

01

Spark向量化计算在美团生产环境的实践

Apache Spark是一个优秀的计算引擎，广泛应用于数据工程、机器学习等领域。向量化执行技术在不升级硬件的情况下，既可获得资源节省，又能加速作业执行。Gluten+Velox解决方案为Spark换上了向量化执行引擎，本文将阐述美团在这一方向的实践和思考。

01

【AI PC端算法优化】三，深入优化RGB转灰度图算法

前几天发了一篇一步步优化RGB转灰度图算法，但实验做的并不完善，在上次的基础上我又补充了一些优化技巧，相对于传统实现将RGB转灰度图算法可以加速到近5倍左右。所以，这篇文章再次将所有涉及到的优化方法进行汇总，SSE优化相关的原理上一节已经讲得很清楚了，这里就不会再展开了，感兴趣可以查看上篇文章。【AI PC端算法优化】一，一步步优化RGB转灰度图算法这一节的速度测试环境为：

02

聊聊Doris向量化执行引擎-过滤操作

Doris是开源的新一代极速MPP数据库，和StarRocks同源，采用全面向量化技术，充分利用CPU单核资源，将单核执行性能做到极致。本文，我们聊聊过滤操作是如何利用SIMD指令进行向量化操作。

04

【AI PC端算法优化】一，一步步优化RGB转灰度图算法

公众号输入「高性能计算」关键词获取刘文志大佬的《并行编程方法与优化实践》电子书以及我整理的SSE指令集PDF。

02

【算法随记七】巧用SIMD指令实现急速的字节流按位反转算法。

字节按位反转算法，在有些算法加密或者一些特殊的场合有着较为重要的应用，其速度也是一个非常关键的应用，比如一个byte变量a = 3，其二进制表示为00000011，进行按位反转后的结果即为11000000，即十进制的192。还有一种常用的应用是int型变量按位反转，其基本的原理和字节反转类似，本文仅以字节反转为例来比较这个算法的实现。

02

AVX2 初探

Intel最近发布了AVX-512，据说对浮点运算有很大提升，我的机器目前不支持AVX-512，但是支持AVX2，按照之前Intel给出的数据，据说能提速将近8倍: Introduction to Intel® Advanced Vector Extensions

03

[AV1] AV1中帧内编码预测器与原始数据相减的运算过程

static INLINE void aom_subtract_block_32xn_avx2(int rows, int16_t *diff_ptr, ptrdiff_t diff_stride, const uint8_t *src_ptr, ptrdiff_t src_stride, const uint8_t *pred_ptr, ptrdiff_t pred_stride) { for (int32_t j = 0; j < rows; ++j) { subtract32_

01

[AV1] AV1帧内编码 DC模式数据拷贝过程

AV1的DC预测模式，是将整个预测块的所有像素值全部赋值为128，即十六进制0x80，赋值根据块的大小不同共分为以下六个函数进行：

01

Intel 的AVX2指令集解读

在Intel Sandy Bridge微架构中，Intel引入了256位SIMD扩展AVX，这套指令集在兼容原MMX、SSE、SSE2对128位整点SIMD支持的基础上，把支持的总向量数据宽度扩展成了256位。新增了若干条256位浮点SIMD指令。

03

【短道速滑一】OpenCV中cvResize函数使用双线性插值缩小图像到长宽大小一半时速度飞快（比最近邻还快）之异象解析和自我实现。

今天，一个朋友想使用我的SSE优化Demo里的双线性插值算法，他已经在项目里使用了OpenCV，因此，我就建议他直接使用OpenCV，朋友的程序非常注意效率和实时性（因为是处理视频），因此希望我能测试下我的速度和OpenCV相比到底那一个更有速度优势，恰好前一段时间也有朋友有这方面的需求，因此我就随意编写了一个测试程序，如下所示：

02

【短道速滑】OpenCV中cvResize函数使用双线性插值缩小图像长宽大小一半时速度飞快（比最近邻还快）之异象解析和自我实现。

作者网名：laviewpbt 是图像处理，算法实现与加速优化方面的大神！其开发的imageshop软件大小只有1MB，却实现了非常丰富与复杂的各种图像处理功能，邮箱地址为：Email: laviewpbt@sina.com 博客地址：https://www.cnblogs.com/Imageshop/

02

C++ 中文周刊第101期

之前聊过很多次的perf book，有中文版本了，中文名现代CPU性能分析与优化

01

【AI PC端算法优化】八，小半径中值滤波的极速优化

这种相对比较小的窗口进行中值滤波，而如果在图像的分辨率比较大的情况下这种操作也是比较耗时的。所以在这种固定场景下定制一个优化算法是有意义的。（这里针对PC端，而非Arm端）。

04

论文研读-SIMD系列-基于分区的SIMD处理及在列存数据库系统中的应用

单指令多数据（SIMD）范式称为列存数据库系统中优化查询处理的核心原则。到目前为止，只有LOAD/STORE指令被认为足够高效，可以实现预期的加速，并且认为需要尽可能避免GATHER/SCATTER操作。但是GATHER指令提供了一种非常灵活的方式用来将非连续内存位置的数据填充到SIMD寄存器中。正如本文讨论的那样，如果使用方法合适，GATHER会达到和LOAD指令一样的性能。我们概述了一种新的访问模式，该模式允许细粒度、基于分区的SIMD实现。然后，我们将这种基于分区的处理应用到列存数据库系统中，通过2个代表性示例，证明我们新的访问模式的效率及适用性。

04

CPU指令集——AVX2

由此可知，Intel i7-7700CPU支持AVX2指令集，但是不支持AVX-512指令集。 AVX512-IFMA为Intel AVX512指令集的一个extension扩展集，主要用于加速整数运算。根据https://medium.com/@hdevalence/even-faster-edwards-curves-with-ifma-8b1e576a00e9 可知，其基于AVX512-IFMA的实现是AVX2速度的1.5倍。

01

速度与压缩比如何兼得？压缩算法在构建部署中的优化

压缩在数据传输和存储过程中经常扮演着十分重要的角色，因此提高压缩的效率可以帮助我们节省时间和降低存储成本。本文介绍了压缩算法的优化在构建部署平台的应用，能够帮助研发团队提高研发和交付效率。

01

C++ 中文周刊第80期

从reddit/hackernews/lobsters/meetingcpp知乎等等摘抄一些c++动态

04

1155功耗最低的cpu_英特尔超低功耗CPU

【IT168 评测】Ivy Bridge于北京时间4月24日0:00解禁了，这次Intel首次将3D晶体管工艺和22nm制程用于IVB，工艺提升晶体管变小的同时，还改进了处理器的微架构，尤其核芯显卡大幅提升。究竟工艺和制程对功耗有多大帮助，IVB的性能表现如何呢？请看IT168给您带来的Ivy Bridge处理器最高端型号i7 3770K评测。

02

AVX512与AVX2比较「建议收藏」

1、寄存器变化（与AVX2相比，不仅寄存器的宽度从256位增加到512位，而且寄存器的数量也增加了一倍，达到32）

02

AVX2整数向量运算「建议收藏」

gcc编译支持AVX2指令的编程。程序中需要使用头文件<immintrin.h>和<avx2intrin.h>，这样通过调用其中定义的一些函数，达到使用AVX2指令的目的，即用C/C++调用SIMD指令（单指令多数据）。

02

使用OpenCV中的universal intrinsics为算法提速 (2)

前言：因为新型冠状病毒导致疫情，最近几日各种新闻和消息满天飞。疫情之下不易出行、不宜聚会；宜宅在家、宜阅读、宜学习、宜写代码。鉴于此，本系列第2篇提前发布。希望大家过一个充实的春节。

01

SSE图像算法优化系列三十一：Base64编码和解码算法的指令集优化（C#自带函数的3到4倍速度）。

Base64是一种用64个Ascii字符来表示任意二进制数据的方法。主要用于将不可打印的字符转换成可打印字符，或者简单的说是将二进制数据编码成Ascii字符。Base64也是网络上最常用的传输8bit字节数据的编码方式之一。

01

浮点峰值那些事儿

本文作者高洋，目前在商汤科技高性能计算组担任总监，对于并行计算颇有心得。本篇为高洋写给高性能并行计算的初学者，核心内容是教初学者用科学手段测量硬件的理论指标。有了这个指标，就能对硬件的能力上限有更深入了解，知道优化工作做到了什么程度，是否还有上升的空间。此篇干货满满，如果你对高性能计算感兴趣，本篇绝对不可错过。这个系列的第一篇文章，先谈点轻松的，常用CPU架构浮点峰值的理论计算和实测。做性能优化，先要知己知彼，了解自己优化的CPU的能力上限。这样优化做到什么程度，心里会有数。本文只介绍Inte

05

avx2指令集对php有用吗,AVX2指令集的作用[通俗易懂]

介绍AVX指令集之前，先要引入一个向量的概念。所谓向量，就是多个标量的组合，通常意味着SIMD(单指令多数据)，就是一个指令同时对多个数据进行处理，达到很大的吞吐量。早在1996年，Intel就在X86架构上应用了MMX(多媒体扩展)指令集，那时候还仅仅是64位向量。到了1999年，SSE(流式SIMD扩展)指令集出现了，这时候的向量提升到了128位。

03

Milvus 在 AVX-512 与 AVX2 的性能对比

指令是计算机程序给计算机处理器的命令。在最低级别上，每条指令是一个 0 和 1 的序列，描述了计算机要执行的物理操作。在计算机的汇编器语言中，每条语言语句一般对应一条处理器指令。CPU 依靠指令来计算和控制系统，指令执行能力是衡量 CPU 性能的重要指标。指令集也与 CPU 效率有密切关系。

01

聊聊StarRocks向量化执行引擎-过滤操作

StarRocks是开源的新一代极速MPP数据库，采用全面向量化技术，充分利用CPU单核资源，将单核执行性能做到极致。本文，我们聊聊过滤操作是如何利用SIMD指令进行向量化操作。

04

解决Your CPU supports instructions that this TensorFlow binary was not compiled to

这个错误表示你的CPU支持AVX和AVX2指令集，但是你所使用的TensorFlow二进制文件没有被编译以支持这些指令集。在这篇博客文章中，我们将介绍如何解决这个问题。

02

古语云：工欲善其事必先利其器 --> Eclipse开发环境配置

淘淘商城系统使用java7开发，使用jdk1.7.0 _80版本开发，安装jdk1.7步骤如下图所示：第一步：在oracle官网下载跟系统相匹配的jdk，如下所示：

02

至强秘笈 | AVX-512，加速密集型计算任务的“专用车道”

计算需求的增速，正快得让人有些出乎意料。毕竟，年增长率高达50%的数据总量[1]，渴求有更强的数据处理能力与之相匹配；不断发展和演变的应用场景，如仿真模拟、金融分析、深度学习等，也形成了更多、更大的密集型计算负载，所有这些，都对处理器的算力提出了严峻的挑战。

01

[快速阅读六] 统计内存数据中二进制1的个数（SSE指令集优化版）.

关于这个问题，网络上讨论的很多，可以找到大量的资料，我觉得就就是下面这一篇讲的最好,也非常的全面：

01

.NET8 硬件加速指令的支持

.NET 有着悠久的历史，在通过 JIT 编译器本质理解的 API 提供对额外硬件功能的访问。这始于 2014 年的 .NET Framework，并在 2019 年引入 .NET Core 3.0 时得到扩展。从那时起，运行时在每个版本中都迭代地提供了更多的 API 并更好地利用了这些 API。

01

Go汇编语法和MatrixOne使用介绍

MatrixOne是一个新一代超融合异构数据库，致力于打造单一架构处理TP、AP、流计算等多种负载的极简大数据引擎。MatrixOne由Go语言所开发，并已于2021年10月开源，目前已经release到0.3版本。在MatrixOne已发布的性能报告中，与业界领先的OLAP数据库Clickhouse相比也不落下风。作为一款Go语言实现的数据库，可以达到C++实现的数据库一样的性能，其中一个很重要的优化就是利用Go语言自带的汇编能力，来通过调用SIMD指令进行硬件加速。本文就将对Go汇编及在MatrixOne的应用做详细介绍。

03

JPEG编码原理与快速编解码

NVIDIA在2018年6月发布了基于GPU加速的用于解码JPEG的nvJPEG。实际上早在1998年，libjpeg/SIMD就开始使用SIMD指令集对JPEG编解码进行加速。我们可能会问：为什么JPEG编解码过程可以被SIMD或GPU加速？为什么我们又尚未看见类似的对PNG进行加速的项目？本文将从JPEG编解码原理出发，简单讲解SIMD加速的原理，并简要说明PNG不能被加速的原因。

02

离散与提炼——一些关于向量召回算法优化方法的思考

最近做的很多向量召回的相关工作，主要集中在优化 Faiss 里面常用的几个算法，包括 IVFFlat 和 IVFPQ，并且针对这两个算法都做出了专门的优化。

01

您的CPU支持该TensorFlow二进制文件未编译为使用的指令：AVX AVX2[通俗易懂]

本文翻译自：Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX AVX2

02

CPU SIMD简介

之前的两篇文章，分别介绍了CPU和CPU Cache两个话题，性能是永恒的核心。我们也谈到了优化CPU性能面临的三堵墙：

03

英特尔SVT-AV1 0.8 AV1视频编码基准发布

来自Phoronix的MichaelLarabel在12月20日撰写了一篇题为SVT-AV10.8带来更多的AVX2AVX-512优化，多线程解码支持的文章。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭