情况是这样的,有一台母鸡 老是自动关机.(一天出现那么一次两次的样子) 刚开始以为是内核bug 更新了内核之后 发现还是这样. 觉得不大对劲. 于是看系统日志 发现 有了 硬件错误 mcelog: Hardware event. This is not a software error. 于是乎 装了mcelog 去看到底出了啥问题. 结果抓取到了 这样的错误信息
- Jun 5 22:38:41 mcelog: Hardware event. This is not a software error.
- Jun 5 22:38:41 mcelog: MCE 0
- Jun 5 22:38:41 mcelog: CPU 3 BANK 0 TSC 2e1e030dc25
- Jun 5 22:38:41 mcelog: ADDR 1ffffa10e622b
- Jun 5 22:38:41 mcelog: TIME 1654438657 Sun Jun 5 22:17:37 2022
- Jun 5 22:38:41 mcelog: MCG status:
- Jun 5 22:38:41 mcelog: MCi status:
- Jun 5 22:38:41 mcelog: Corrected error
- Jun 5 22:38:41 mcelog: Error enabled
- Jun 5 22:38:41 mcelog: MCi_ADDR register valid
- Jun 5 22:38:41 mcelog: MCA: Instruction CACHE Level-0 Instruction-Fetch Error
- Jun 5 22:38:41 mcelog: STATUS 9400004000040150 MCGSTATUS 0
- Jun 5 22:38:41 mcelog: MCGCAP c0a APICID 6 SOCKETID 0
- Jun 5 22:38:41 mcelog: MICROCODE 7c
- Jun 5 22:38:41 mcelog: CPUID Vendor Intel Family 6 Model 158
- Jun 5 22:38:41 mcelog: Hardware event. This is not a software error.
- Jun 5 22:38:41 mcelog: MCE 1
- Jun 5 22:38:41 mcelog: CPU 1 BANK 0 TSC 57cb95e28cf
- Jun 5 22:38:41 mcelog: ADDR 1ffffa1a98a1d
- Jun 5 22:38:41 mcelog: TIME 1654439339 Sun Jun 5 22:28:59 2022
- Jun 5 22:38:41 mcelog: MCG status:
- Jun 5 22:38:41 mcelog: MCi status:
- Jun 5 22:38:41 mcelog: Corrected error
- Jun 5 22:38:41 mcelog: Error enabled
- Jun 5 22:38:41 mcelog: MCi_ADDR register valid
- Jun 5 22:38:41 mcelog: MCA: Instruction CACHE Level-0 Instruction-Fetch Error
- Jun 5 22:38:41 mcelog: STATUS 9400004000040150 MCGSTATUS 0
- Jun 5 22:38:41 mcelog: MCGCAP c0a APICID 2 SOCKETID 0
- Jun 5 22:38:41 mcelog: MICROCODE 7c
- Jun 5 22:38:41 mcelog: CPUID Vendor Intel Family 6 Model 158
- Jun 5 22:38:41 mcelog: Hardware event. This is not a software error.
- Jun 5 22:38:41 mcelog: MCE 2
- Jun 5 22:38:41 mcelog: CPU 3 BANK 0 TSC 6b1889177ae
- Jun 5 22:38:41 mcelog: ADDR 1ffffa1242aaa
- Jun 5 22:38:41 mcelog: TIME 1654439655 Sun Jun 5 22:34:15 2022
- Jun 5 22:38:41 mcelog: MCG status:
- Jun 5 22:38:41 mcelog: MCi status:
- Jun 5 22:38:41 mcelog: Corrected error
- Jun 5 22:38:41 mcelog: Error enabled
- Jun 5 22:38:41 mcelog: MCi_ADDR register valid
- Jun 5 22:38:41 mcelog: MCA: Instruction CACHE Level-0 Instruction-Fetch Error
- Jun 5 22:38:41 mcelog: STATUS 9400004000040150 MCGSTATUS 0
- Jun 5 22:38:41 mcelog: MCGCAP c0a APICID 6 SOCKETID 0
- Jun 5 22:38:41 mcelog: MICROCODE 7c
- Jun 5 22:38:41 mcelog: CPUID Vendor Intel Family 6 Model 158
- Jun 5 22:38:41 mcelog: warning: 8 bytes ignored in each record
- Jun 5 22:38:41 mcelog: consider an update
复制代码
随后找OVH 客服 跟他们说 系统老挂啊 给解决一下吧. 客服说行 我给你看一下吧. 然后 一顿操作猛如虎 先跑了个 压测 没死 (这小子忽悠我呢?) 把CPU 重新插拔了 内存也插拔了 跟我说 我试过了 你说的问题 没遇到啊. 机器没问题 你发的错误啊 系统都自动修复了.(可能是真修复了,但是没修复的时候 我估计就挂了.) 你接着用吧. LZ心想 既然你都压测了 没啥毛病 可能是我系统的姿势不到位? 于是把小鸡全部备份打包 重装系统 (升级内核)历时一天 然后很平静的过去了 跑去跟客服说 你真牛逼 我机器不死了. TMD 当天晚上就打脸了有木有.(又TM自动炸了) LZ很苦逼的 半夜三更被监控叫起来 重启母鸡. 说来也奇怪 每次TMD炸机 都是 凌晨.. LZ 也不大好意思找客服了 怕被脸打肿..坚持了几天 后 今天凌晨4点 它又 崩溃了 然后LZ也崩溃了 尼玛 我不重启了..给客服看去. 疯狂的找资料 发现了有个老外和LZ一样的经历
https://www.reddit.com/r/linuxquestions/comments/ilaowg/cpu_hardware_error/
然后把这个贴子给OVH的客服看 你看啊 这货和我一样也炸了啊 人家都说 是CPU或者主板出的毛病. 说把bios重置了 让机器休息会 就好了.
结果 早上8点 发的TK
下午三点 客服终于通知 说 CPU给你换了 主板也给你重置了 机器我们还得再试试.. 试到晚上 6点 我收了个邮件 机器进入到 恢复模式了 还给发了root密码 想着 那我进去看看吧 .. 看了下 /var/log 里面木有硬件错误了 改了硬盘启动 把母鸡重启了.. 一个小时后 被客服来问了.. 机器咋重启了…这下尴尬了.. 跟他说 我TM以为你弄好了.. 你要没弄完那你继续弄吧 我等你回复..
这一天就这么 过去了..尼玛 到现在还没折腾好..
Our DC Team has been actively working on the server. |