首页
学习
活动
专区
工具
TVP
发布

腾讯云网络专家服务

专栏作者
31
文章
160229
阅读量
102
订阅数
nccl-test 使用指引
nccl-test 工具是 nvidia 开源的一项用于测试 NCCL 集合通信的工具。可以用于检测集合通信是否正常、压测集合通信速率。官方开源地址:https://github.com/NVIDIA/nccl-tests
quincyhu
2023-11-21
5.8K2
浅谈大模型训练排障平台的建设
OpenAI的Chat-GPT为我们揭示了通用人工智能的潜力,而GPT4-Turbo的发布进一步拓宽了我们对通用人工智能的想象边界,国内各种大型模型如同雨后春笋般涌现。同时,大模型训练所带来的各种工程化问题也接踵而至。 大模型训练通常涉及大量的参数、巨大的计算需求和复杂的网络结构,这使得整个训练过程变得极其复杂。在这种情况下,训练过程中可能出现的故障可以来自硬件、软件、网络、应用等多个方面,这使得故障定位和排除工作变得异常困难。 训练过程中的任何故障都可能导致训练中断,从而损失从上一个检查点到中断时的所有计算。重新启动训练任务也需要一定的时间,而昂贵的计算资源使得每一秒都显得尤为重要,毕竟“时间就是金钱”。 本文将专注于大模型训练的故障的定位,尝试提供一些解决思路和方法,希望能为读者带来一些帮助和启示。
quincyhu
2023-11-17
1.4K3
云联网自定义路由表使用场景 --未完待续
自定义路由表(多路由表)功能是对当前云联网默认路由表功能的补充,弥补云联网默认打通全部绑定实例的需求;
pinkcchen
2023-09-26
2160
策略型VPN对接strongswan
参考https://cloud.tencent.com/document/product/554/52861
pinkcchen
2023-06-07
1.2K0
腾讯混合云网络设计白皮书
从1999年,公认的云计算先驱-Saleforce.com公司成立,到2006年,Amazon发布了名声大噪的EC2(Elastic Compute Cloud),首次面向公众提供基础架构的云服务产品-IaaS,中间经历了七年的时间。
abelbai
2023-04-26
3.6K0
关注专栏作者,随时接收最新技术干货
张兴龙-leoxzhang
腾讯云网络技术服务专家
rupertzhang
腾讯云运维工程师
pinkcchen
腾讯云网络技术
公有云产品NAT&EIP最佳实践指南
NAT 网关(NAT Gateway 简称NAT)是一种支持 IP 地址转换服务,提供 SNAT 和 DNAT 能力,为私有网络(VPC)内的资源提供安全、高性能的 Internet 访问服务。适用于云上主动访问公网及对外提供公务服务能力等场景。
张兴龙-leoxzhang
2021-05-27
4.8K0
ipv6 Windows服务器无法通信
【问题】ipv6 windwos服务器不能访问ipv6网站,也不能被ipv6客户端访问,ipv4地址网络正常。
张晗
2021-04-15
7.2K0
通过云联网、对等连接或者专线等产品打通后网络不通
2、如上图发现系统内有docker网段路由172.17.0.0/16,刚好对端子机内网网段也是这个
张晗
2021-04-15
1.6K0
【玩转腾讯云】解决使用腾讯云CVM跨境访问国外网站不通的办法
【问题描述】相信很多同学都遇到腾讯云CVM访问国外网站如亚马逊(www.amaon.com)、github(www.github.com)访问不了或者访问卡顿或者ping延时大/有丢包的问题。
张晗
2021-04-09
26.4K3
CLB后端的CVM端口健康检查偶尔异常
【排查步骤】 1、健康检查探测机制是clb的vip向后端cvm业务进行探测,所以先在cvm上抓包看是否有收到探测包
张晗
2021-03-09
1.4K0
访问网站提示重定向的次数过多
【客户架构】域名解析到clb的vip上,并且在clb控制台上配置了http重定向https
张晗
2021-02-27
8.5K0
如何获取腾讯云控制台的RequestId(seqId)
4、在右侧框里面找到"Response"标签,然后一直拉到最右边,即可看到seqId,如下图
张晗
2021-02-08
22.9K1
访问CLB报404,直接访问后端的RS正常
【原因分析】 核实到RS上的nginx设置了主机头(server name),如下图,如果访问10.20.0.2会匹配到下面数据,如果访问的不是10.20.0.2会匹配到上面默认的404
张晗
2021-02-07
1.3K0
iperf3压测CVM带宽达不到预期
1、看客户机型机型代号:IT5.16XLARGE256实例配置是CPU&MEM:64核+256G的网卡队列数16
张晗
2021-02-07
3.6K0
Centos6.5系统无法获取IPV6地址
【问题描述】按照官方文档https://cloud.tencent.com/document/product/1142/47666配置ipv6环境,但是无法获取ipv6地址
张晗
2021-02-07
1.9K0
clb健康检查
负载均衡可以定期向后端服务器发送 Ping 命令、尝试连接或发送请求来探测后端服务器运行的状况,这些探测称为健康检查。负载均衡通过健康检查来判断后端服务的可用性,避免后端服务异常影响前端业务,从而提高业务整体可用性。
王帅-smaitwang
2020-11-28
1.5K0
专线相关操作指导—静态、BGP单通道对接
专线相关介绍可参考https://cloud.tencent.com/document/product/216
pinkcchen
2020-11-19
3.5K0
clb连接数不均
负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台云服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
王帅-smaitwang
2020-11-16
1.4K0
腾讯云自建DNS---高可用篇
大家好,上一篇写到如何在腾讯云CVM上用bind9 自建内网解析DNS服务。本篇承继上篇继续分享内容,分享一个如何实现腾讯云自建DNS高可用的方法。
22
2020-11-13
6.7K0
VPN对接阿里云
接上回 腾讯云VPN网关对接IDC侧打通,如果有多云互通的场景,就会涉及到多云厂商之间的VPN打通,本次以腾讯云与阿里之间对接为例,介绍多云互通场景云厂商之间VPN互通之间的操作。
pinkcchen
2020-11-08
6.1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档