有奖捉虫:行业应用 & 管理与支持文档专题 HOT

集群类

注册节点特性是否支持独立部署集群?

支持,您可以在托管形态和独立部署形态的集群中使用注册节点的特性。

使用注册节点特性,为什么要求集群内必须要存在云上节点?

由于注册节点所在网络与 VPC 网络的差异性,目前集群内部分系统组件必须运行在云上节点,所以当前要求集群内必须存在云上节点。

节点类

注册节点和云上节点在能力上有哪些差异?

注册节点和云上节点的功能差异,请参见 注册节点与云上节点能力对比

注册节点支持哪些操作系统?

为了保障注册节点的稳定性,当前注册节点的操作系统仅支持 TencentOS Server 3.1TencentOS Server 2.4(TK4)

节点上由于 docker、containerd 相关软件导致添加节点失败,如何处理?

可以使用下载的脚本,执行以下清理的指令,再进行添加。
./add2tkectl-cls-m57oxxxp-np-xxxx clear

注册节点脚本安装过程中报错中断如何处理?

1. 报错提示 "nvidia nv_driver not installed"
说明:NVIDIA-SMI 驱动未安装。 解决方法:
执行 clear 命令清理环境:
./add2tkectl-cls-m57oxxxp-np-xxxx clear
参见 安装 NVIDIA Tesla 驱动 安装 NVIDIA 驱动,并执行 nvidia-smi 命令验证安装结果。
重新执行注册节点安装命令。
./add2tkectl-cls-m57oxxxp-np-xxxx install
2. 报错提示 "Install gpu toolkit failed!" 说明:nvidia toolkit 工具包安装失败。 解决方法:
执行 clear 命令清理环境:
./add2tkectl-cls-m57oxxxp-np-xxxx clear
重新执行注册节点安装命令。
./add2tkectl-cls-m57oxxxp-np-xxxx install
3. 报错提示 "can not get nodes node-xxx gpu capacity after 60s"
说明:节点 gpu 容器能力初始化失败。 解决方法:
执行clear命令清理环境。
./add2tkectl-cls-m57oxxxp-np-xxxx clear
重新执行注册节点安装命令。
./add2tkectl-cls-m57oxxxp-np-xxxx install

网络、流量接入类

注册节点的容器如何对外暴露服务?

基于腾讯负载均衡 CLB,我们提供了注册节点的四层以及七层的流量接入方案,请参见 流量接入

运维类

注册节点的日志如何接入日志服务 CLS ?

TKE 集群日志接入 CLS 后,默认支持集群中的注册节点,无需特殊配置。TKE 集群日志接入 CLS,请参见 日志采集,集群中的注册节点默认使用内网的方式(会占用专线带宽)进行日志投递。
如需要注册节点使用公网的方式投递日志,请按照如下步骤操作:
1. 修改kube-system命名空间下的 externalnode-config 配置文件(ConfigMap),通过更新 clsPushMethod 的值来配置注册节点日志投递的方式,有效值:
intranet:内网方式投递日志,默认值。
public:公网方式投递日志,按需修改,请确保注册节点有访问公网的能力。
2. 重建kube-system命名空间下 tke-log-agent(DaemonSet)所管理的 Pod,使上述配置生效。

注册节点如何接入 Prometheus 监控服务?

TKE 集群 Prometheus 监控服务,默认支持集群中的注册节点,无需特殊配置。TKE 接入 Prometheus 监控服务请参见 Prometheus 监控概述

Cilium-Overlay 模式下如何创建 admission webhook?

集群创建时使用 Cilium-Overlay,如果在注册节点上部署了 admission webhook 组件,apiserver 访问 webhook 的 svc 会提示错误,例如:



这里的原因是 apiserver 托管在 tke meta 集群,并不在用户 vpc 的 overlay 网络中,无法通过 webhook 的 svc 访问到 webhook 的 pod ip,导致访问失败。
处理方式:将 webhook 的网络模式设置为 Hostnetwork,如下图所示: