首页
学习
活动
专区
工具
TVP
发布

网络交换FPGA

专栏作者
113
文章
288887
阅读量
100
订阅数
Multiport RAM,多读多写寄存器-——基于FPGA BRAM的多端口地址查找表与FPGA BRAM的资源分析
https://blog.csdn.net/qq_45634652/article/details/138034081?spm=1001.2014.3001.5502
网络交换FPGA
2024-04-23
110
【实测】基于Corundum架构的100G RDMA网卡
传统TCP/IP技术处理数据包需通过操作系统和其他软件层,导致数据在系统内存、处理器缓存和网络控制器缓存间频繁复制,增加了服务器CPU和内存的负担,特别是在网络带宽、处理器速度与内存带宽不匹配时,网络延迟会进一步加剧。RDMA技术通过将数据处理从CPU旁路并卸载到硬件上来实现低时延和高带宽特性。
网络交换FPGA
2023-10-25
1.5K0
【软件分享】脱离Vivado建立单独仿真环境软件
FPGA项目开发的过程中,需要完成设计代码开发、验证环境搭建、仿真分析、板级验证等操作,在这个过程中,许多操作虽然必不可少但是步骤是重复的。辅助软件通过预先定义的处理模式,对一些重复性复杂操作通过Python辅助软件使操作简化以提高项目开发效率。独立仿真可以不依赖Vivado,简化仿真步骤,但建立独立仿真往往需要复杂繁琐的步骤,所以简化建立独立仿真的步骤很有必要。
网络交换FPGA
2023-09-20
2850
【经验分享】一文了解解决大位宽效率问题的分段总线的前世今生
随着不断提升的以太网带宽对总线吞吐率要求的提升,需要在芯片内部采用更高的主频、更大的总线位宽,但受制程及功耗影响,总线频率不能持续提升,这就需要在总线数据位宽方面加大提升力度。下图为Achronix公司在介绍400G以太网FPGA实现时给出的结论,对于400G以太网的数据处理,意味着数据总线位宽超过1024bit,时钟频率超过724MHz,传统的FPGA在实现时很难做到时序收敛。
网络交换FPGA
2022-11-23
9120
【经验分享】Xilinx AXI VIP使用说明
1.1、从IP Catalog中选择并添加一个VIP,在这一步可以自定义该VIP的Component Name(新建完成后就很难再改名字了)。
网络交换FPGA
2022-11-23
1.1K0
【开源】手把手教你写支持RMT架构的P4语言后端编译器!
摘要:P4语言已成为编程基于可重构匹配动作表的可编程交换机的主要选择。V1Model架构是匹配动作架构最广泛可用的实现。P4联盟开发的开源编译器前端可以执行语法分析,并导出使用最新版本的P4(也称为P416)编写的程序的硬件独立表示。但是还需要后端编译器将此硬件表示映射到V1Model交换机的硬件资源。然而,没有开源后端编译器可用于检查P416程序在V1Model交换机上的可实现性。不同硬件供应商提供的专有工具完成上述映射过程。但是,它们是封闭源代码,我们看不到内部的映射机制。这抑制了针对可重构匹配动作表架构的新映射算法和创新指令集的实验。此外,专用后端编译器成本高昂,并附带各种保密协议。这些因素对可编程交换机相关研究提出了严峻挑战。在这项工作中,我们为基于V1Model架构的可编程交换机提供了一个开源P416后端编译器。它使用基于启发式的映射算法将P416程序映射到V1Model交换机的硬件资源上。它允许开发人员快速原型化不同的映射算法。它还提供了P416程序的各种资源使用统计信息,从而能够在多个P416方案之间进行比较。
网络交换FPGA
2022-11-23
1.6K0
SIGCOMM2022:一种采用非流水线架构的P4网络可编程芯片-Trio
摘要:本文介绍了Trio,一种用于瞻博(Juniper)网络MX系列路由器和交换机的可编程芯片组。Trio的架构基于一个多线程的可编程数据包处理引擎和一个分层的大容量内存系统,这使得它与基于流水线的架构有着根本的不同。Trio可以优雅地处理各种网络用例和协议的非同质包处理率,使其成为新兴网络内应用的理想平台。我们首先描述了Trio芯片组的基本构件,包括其多线程的包转发和包处理引擎。然后,我们讨论Trio的编程语言,称为微代码。为了展示Trio灵活的基于Microcode的编程环境,我们描述了两个使用案例。首先,我们展示了Trio为分布式机器学习执行网络内聚合的能力。其次,我们提出并设计了一种使用Trio的定时器线程的网络内滞留者缓解技术。我们在测试平台上使用三个真实的DNN模型(ResNet50、DenseNet161和VGG11)对这两个用例进行了原型测试,以证明Trio在执行网络内聚合的同时缓解串扰的能力。我们的评估表明,当集群中出现散工问题时,Trio的性能比目前基于流水线的解决方案高1.8倍。
网络交换FPGA
2022-11-23
1.3K0
DirectCXL:一种可能替换RDMA的内存分解架构
超大规模和云构建者并不是唯一对 CXL 协议及其为系统创建分层、分解和可组合的主内存的能力感兴趣的人。HPC中心也在采取行动,本文谈论的是韩国科学技术高级研究所KAIST所做的一项有意思的工作。
网络交换FPGA
2022-11-23
1.4K0
使用 CCIX进行高速缓存一致性主机到FPGA接口的评估
摘要:长期以来,大多数分立加速器都使用各代 PCI-Express 接口连接到主机系统。然而,由于缺乏对加速器和主机缓存之间一致性的支持,细粒度的交互需要频繁的缓存刷新,甚至需要使用低效的非缓存内存区域。加速器缓存一致性互连 (CCIX) 是第一个支持缓存一致性主机加速器附件的多供应商标准,并且已经表明了即将推出的标准的能力,例如 Compute Express Link (CXL)。在我们的工作中,当基于 ARM 的主机与两代支持 CCIX 的 FPGA 连接时,我们比较了 CCIX 与 PCIe 的使用情况。我们为访问和地址转换提供低级吞吐量和延迟测量,并检查使用 CCIX 在 FPGA 加速数据库系统中进行细粒度同步的应用级用例。我们可以证明,从 FPGA 到主机的特别小的读取可以从 CCIX 中受益,因为其延迟比 PCIe 短约 33%。不过,对主机的小写入延迟大约比 PCIe 高 32%,因为它们携带更高的一致性开销。对于数据库用例,即使在主机-FPGA 并行度很高的情况下,使用 CCIX 也可以保持恒定的同步延迟。
网络交换FPGA
2022-08-30
1.4K0
一种不带CPU的DPU架构:Hyperion
人类自诞生之日起,就常常因为一些事情经常这样或那样做而形成一种惯例,我们称这种惯例为习惯。CPU就是这么一种产物,什么都可以做,灵活,好用。但随着定制化芯片的不断发展,是否真的需要CPU逐渐成为一种值得考虑的问题。尤其在定制计算领域,CPU的计算能耗比过高已经成为事实,甚至有几个数量级的差别。如本公众号之前曾发布的唤醒芯片的介绍"小爱同学"之类语音唤醒芯片相关技术介绍,都是不带CPU的超低功耗芯片。那么,在常常以功耗过大被诟病的数据中心应用日益频繁的DPU芯片,是否也可以不带CPU呢?本文介绍一篇2022年5月19日发布在https://arxiv.org/pdf/2205.08882.pdf网站上的一篇文章。
网络交换FPGA
2022-08-30
1K0
谷歌发布数据中心网络架构Aquila:自定义二层和RDMA,交换和网卡同一芯片!
今年的NSDI2022会议上,谷歌发布了其实验性的数据中心网络架构--Aquila,该架构支持谷歌提出的1RMA协议(SIGCOMM'20,解决RDMA用于多租户场景存在的隔离和安全问题),并在网络架构和芯片设计方面有诸多可学习之处,在此将文章翻译为中文,以飨读者。
网络交换FPGA
2022-04-19
2.1K0
【实测】基于开源硬加速平台RIFFA架构的PCIe DMA性能测试及分析
RIFFA 是一种开源通信架构,它允许通过 PCIe 在用户的 FPGA IP 内核和 CPU 的主存储器之间实时交换数据。为了建立其逻辑通道,RIFFA 在 CPU 端拥有一系列软件库,在 FPGA 端拥有 IP 核。本文主要针对其中的DMA性能(Scatter-Gather DMA)进行测试。
网络交换FPGA
2022-03-30
2.9K0
开源100 Gbps NIC Corundum环境搭建介绍(二)仿真及工程恢复
pytest方式调用python库cocotb-test的cocotb-test.simulator.run方法,该方法定义了使用何种仿真器的方法;makefile方式是调用python库cocotb中的makefile.sim,该Makefile会根据运行cocotb的命令行中仿真器的类别来调用不同仿真器的makefile,从而执行相关仿真器的编译和仿真操作。
网络交换FPGA
2021-10-21
2.5K1
开源100 Gbps NIC Corundum环境搭建介绍(一)
目标:在Linux环境下,基于VCU118板卡恢复出100G corundum NIC。
网络交换FPGA
2021-10-21
2K0
在高速网卡中实现可编程传输协议
摘要:数据中心网络协议栈正在转向硬件,以在低延迟和低CPU利用率的情况下实现100 Gbps甚至更高的数据速率。但是,NIC中络协议栈的硬连线方式扼杀了传输协议的创新。本文通过设计Tonic(一种用于传输逻辑的灵活硬件架构)来实现高速网卡中的可编程传输协议。在100Gbps的速率下,传输协议必须每隔几纳秒在NIC上仅使用每个流状态的几千比特生成一个数据段。通过识别跨不同传输协议的传输逻辑的通用模式,我们为传输逻辑设计了一个高效的硬件“模板”,该模板在使用简单的API编程的同时可以满足这些约束。基于FPGA的原型系统实验表明,Tonic能够支持多种协议的传输逻辑,并能满足100Gbps背靠背128字节数据包的时序要求。也就是说,每隔10 ns,我们的原型就会为下游DMA流水线的一千多个活动流中的一个生成一个数据段的地址,以便获取和传输数据包。
网络交换FPGA
2021-10-11
2.6K1
Nano Transport:一种硬件实现的用于SmartNIC的低延迟、可编程传输层
摘要:传输协议可以在NIC(网卡)硬件中实现,以增加吞吐量、减少延迟并释放CPU周期。如果已知理想的传输协议,那么最佳的实现方法很简单:直接将它烧入到固定功能的硬件中。但是传输协议仍在发展,每年都有提出新的创新算法。最近的一项研究提出了Tonic,这是一种Verilog可编程硬件传输层。我们在这项工作的基础上提出了一种称为纳米传输层的新型可编程硬件传输层架构,该架构针对主导大型现代分布式数据中心应用中极低延迟的基于消息的 RPC(远程过程调用)进行了优化。Nano Transport使用P4语言进行编程,可以轻松修改硬件中的现有(或创建全新的)传输协议。我们识别常见事件和基本操作,允许流水化、模块化、可编程的流水线,包括分组、重组、超时和数据包生成,所有这些都由程序设计员来表达。
网络交换FPGA
2021-10-11
1.9K1
一种面向确定性低延迟网络数据应用的处理器-nanoPU
nanoPU是经过网络优化的新型CPU,旨在最大程度地减少RPC的尾部延迟。通过绕过高速缓存和内存层次结构,nanoPU直接将到达的消息放入CPU寄存器文件中。通过应用程序的线对线延迟仅为65ns,比当前的最新技术快13倍。nanoPU将关键功能从软件转移到硬件:可靠的网络传输,拥塞控制,核心选择和线程调度。它还支持独特的功能来限制高优先级应用程序遇到的尾部延迟。
网络交换FPGA
2021-10-11
1.3K0
[干货]用ModelSim搭建可看代码覆盖率的千兆以太网控制器的仿真环境!
在hdl文件夹下是对应所有的设计代码,本文中选用opencores网站中十百千自适应的MAC控制器作为设计代码。
网络交换FPGA
2021-10-11
1.1K0
【Verilog开源】一种用于智能网卡或可编程交换机的,支持P4语言的高性能开源解析器的设计
摘要:提出了一种支持P4语言的高性能开源解析器HyperParser的设计,论文发表在APNet 2021会议上。这是一种用于下一代可编程交换机和基于FPGA的SmartNIC的高性能解析器体系结构。HyperParser的关键创新在于采用了广泛应用于密码电路中的蝶形网络。HyperParser支持ASIC和FPGA实现,延迟低且具有确定性。ASIC实现的PPAL为3.2-6.8 Tbps、0.55 W、2M门和11.7纳秒,FPGA实现的PPAL为1.3-2.8 Tbps、16.2 W、43K LUT和40纳秒。HyperParser的源代码已经在Github上发布https://github.com/FPGA-Networking/HyperParser。
网络交换FPGA
2021-09-16
1.2K0
AI for Chip Design,NVIDIA做了这些精彩的工作
NVIDIA于2020年在IEEE Micro上刊出了一篇题为 “Accelerating Chip Design with Machine Learning”的文章。该文章总结了NV在AI for EDA领域做的研究工作,包括设计空间探索、功耗分析、可布线性预测、模拟芯片设计等,并提出了AI 辅助芯片设计的一些愿景。
网络交换FPGA
2021-08-24
7460
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档