K8s GPU 指南宝典 Kubernetes

适合已经会 Kubernetes、但第一次运维 GPU 集群的人。 目标不是让你马上变成 CUDA 开发者,而是让你能把 GPU 节点稳定接入 K8s、让业务 Pod 正确使用 GPU,并且知道怎么排障、扩展、监控和规划后续能力。 0. 你应该先建立的整体模型 K8s GPU 集群可以拆成 6 层: 硬件 GPU ↓ 宿主机 NVIDIA Driv...
myluzh 发布于 

K8S 部署Longhorn(云原生分布式块存储解决方案) Kubernetes

0x00 前言 Longhorn 是 Kubernetes 里的分布式块存储,主要用来给 PVC 提供持久化存储。它不需要单独部署 Ceph 这种重型存储集群,直接使用各个 worker 节点上的本地磁盘,然后通过副本机制把数据分散到不同节点上。 我这里选择 Longhorn,主要是因为这几个点: 部署简单,直接用官方 YAML 就能跑起来。 原生支持 C...
myluzh 发布于 

裸机部署 Ceph 集群(cephadm方式)并配置 NFS 存储 Kubernetes

0x00 环境说明 这篇记录一下使用 cephadm 部署 Ceph 集群的过程,后面顺手把 CephFS 和 NFS 也配置好,方便给其他业务挂载使用。 我这里的环境是 5 台节点,每台节点 4 块 500G 数据盘: 主机名 IP 角色 ceph1 192.168.2.101 bootstrap / mon / mgr / osd ce...
myluzh 发布于 

Elasticsearch 问题大全 Kubernetes

0x00 前言 本文整理几个 Elasticsearch 日常运维里比较常见的问题。 主要包含: License 过期导致安全功能不可用 分片数量达到上限 给现有索引添加生命周期规则 删除 N 天前的历史索引 统计索引占用空间 我这里示例以 Elasticsearch 7.x 为主,8.x 大部分 API 也能参考,但认证和安全默认配置可能会有差异。 0...
myluzh 发布于 

K8S kubeadm 集群证书更新 续签10年 Kubernetes

0x00 说明 这篇记录 kubeadm 集群控制面证书续签。 我这里放两种方式: 官方方式:kubeadm certs renew all 10 年方式:update-kube-cert 如果只是正常维护,优先用官方方式。如果明确想把证书一次续到 10 年,再用 update-kube-cert。 这篇只适合 kubeadm 初始化的集群。二进制部署、...
myluzh 发布于 

K8S 使用 Yandex CSI-S3 驱动挂载 S3 兼容对象存储 Kubernetes

0x01 介绍 项目地址:https://github.com/yandex-cloud/k8s-csi-s3 这是用于 S3(或兼容 S3)存储的容器存储接口 ( CSI )。它可以动态分配存储桶并通过安装将它们安装到任何容器中。 0x02 安装 yandex-s3/csi-s3 # 安装helm curl -fsSL -o get_helm.sh htt...
myluzh 发布于 

使用 kubeadm 部署高可用 k8s 集群(containerd) Kubernetes

本文记录一次 Ubuntu 上使用 kubeadm 部署多 Master 高可用 Kubernetes 的过程。环境使用 containerd、HAProxy、Keepalived 和 Calico,节点按 3 个 Master、2 个 Worker 规划。
myluzh 发布于 

深度解析移动云容器服务KCS创建流程 Kubernetes

0x00 前言 我这里在移动云上订购了一套 KCS 集群,规格是 3 个 Master + 2 个 Worker。节点创建后,系统会通过 ConfigDrive 和 cloud-init 把证书、网络、kubeadm 配置和安装脚本注入到虚机里。这里记录一下实际看到的文件、脚本流程,以及后面手动把一台普通 ECS 加入 KCS 集群时踩到的点。 0x01 用...
myluzh 发布于 

关于K8s调度策略(NodeSelector, Affinity, Anti-Affinity) Kubernetes

0x00 前言 在 Kubernetes 生产集群中,合理的调度策略是保障业务 高可用 (HA) 和 低延迟 (Low Latency) 的核心。调度逻辑主要分为“节点选择”与“邻里关系”两大类。 本文将涵盖 nodeSelector、Node Affinity(硬限制/软限制/NotIn)、以及 Pod Affinity/Anti-Affinity 的实现...
myluzh 发布于 

K8s 部署 Loki(Helm方式) Kubernetes

安装 loki 下载loki helm chart # add repo root@iZbp12bkuvg20e1j3y9gtxZ:~/k8s-yaml# helm repo add grafana https://grafana.github.io/helm-charts "grafana" has been added to your reposit...
myluzh 发布于