本帖最后由 朔朔 于 2021-11-28 21:29 编辑
DMIT Inc – NOC工作日志: 经检查,本次香港故障为一系列因素所导致(由于事情发生后在线工作人员无法登录后台,导致无法查明具体情况,因此没有提前发布故障公告)。 首先,宿主机 HKG-0380L5W 上的部分 VM 由于遭到针对性的大量小封包攻击,导致内核阻塞。 PVE Quorum 异常退出引发 Ceph 离线。 部分用户认为 VM 异常所以进行重装操作,导致 PVE 任务队列阻塞,Ceph 的重分配也因此受到影响,进一步加剧了故障。 我们将为宿主机 HKG-0380L5W 上的用户延长 7 天使用时间作为补偿,也将订购防火墙为香港提供额外的保护。
由于是多个客户IP同时遭到超过0.xMpps的攻击,并未触发RTBH; 但累计传送进节点的封包已经超过1Mpps(Linux Vanilla Kernel 的测试极限) 对此我们临时调低ppk阈值,等待防火墙设备 因为香港总体流量较低,且抗攻击能力弱, DMIT之前暂无计划采购防火墙设备
注:此为单机故障,对其他节点并未造成业务级影响: 1. 集群API Down 导致的集群管理下线 2. Reinstall任务受阻,IO 降级 HKG 仍有12个未受影响节点。 由于PVE的设计缺陷以及Ceph超融合并不适合DMIT的公有云设计。 为保持用户关系,DMIT 暂先公布 2022年构架调整大致计划,如下: 1. LAX所有 7402P 下线成为美西地区的独立Ceph 集群;剩余将发至亚太地区作为Ceph集群或者计算集群。 2. LAX采购Milan-X 作为新的计算集群。 3. DMIT.com 系统上线,脱离PVE构架设计限制。 4. 新Location。 5. 新增HKG, TYO 防火墙 |