工作总结

发布时间：2026-04-12

【荐阅】2026年个人年度工作总结。

全年412个工单，237个故障，115个变更，60个咨询。系统可用性99.97%，比去年高了0.02个百分点。为这0.02%，我熬了17个通宵，有三次凌晨两点被告警吵醒时，老婆在边上骂我手机能不能静音。客户满意度4.82，离目标还差0.18，差在那单投诉上——后面细说。

先说环路那晚

三月某天凌晨两点十四分，监控弹出端口CRC错误，支付接口超时率冲到8%。我第一反应是光模块挂了，换了两个备用的，没用。拔日志看，错误包每隔17秒规律出现——这他妈典型的环路特征。但STP状态全正常，拓扑图上没有阻塞端口。

我蹲在机柜后面扒线槽，手电筒照着，一根根捋。四十分钟后，在配线架最底层发现一根被压扁的跳线，两端连着同一个汇聚交换机的两个口。三年前上架时遗留的，一直埋在线槽底部，最近设备震动让线芯时断时连，触发了二层环路。拔掉那根线，业务立马恢复。

但复盘让我后背发凉：为什么STP没阻塞？因为那个端口配了portfast，没开bpduguard。当天我改了全网接入端口的标准化模板，强制加上bpduguard和rootguard。还写了份《环路隐患检查清单》，32个机柜的线槽和配线架，我一个周末全查了一遍。类似P1故障全年共3起，平均修复时间从47分钟压到32分钟。压下来的不是手速，是预案——每次处理完，我把操作命令、回显、决策逻辑全塞进知识库，现在那个速查表有86条记录。但说实话，这86条对应237个故障，覆盖率不到四成，好多故障是重复踩坑，明年得把复盘质量提上去。

一单让我记住的投诉

七月客户投诉，说我们的巡检报告“系统健康度86分”他看不懂。他原话是：“你告诉我哪里扣了14分？”。我翻出报告，扣分依据写的是“响应延迟偏高、日志异常条目较多”。确实含糊。那客户做实时数据采集，对延迟极其敏感，我给了个主观判断，不是废话吗。

后来我把每个扣分项绑定到具体监控指标：平均响应时间超过业务阈值2ms扣3分，5分钟内出现3次以上TCP重传扣2分。而且每项扣分后面附上Grafana截图的时间戳。改完第一份报告，客户专门打电话说“这才像话”。那通电话让我觉得，这行不能光跟自己人讲技术黑话。

一根地线坑了三小时

六月机房扩容，新到一批国产存储。施工规范写着机柜接地电阻≤1Ω，施工队拍胸脯说测过了。上电后存储控制器频繁报电压不稳，读写延迟忽高忽低。我拿钳形表自己测，地线回路电流0.7A。拆开地板一看，施工队把地线拧在机柜立柱的喷漆面上，根本没接触金属。我把监理拉到现场，用万用表给他看：接触电阻23Ω。他脸黑了，说“这是施工队的事”。我不管谁的事，你得给我重做。压接线耳、砂纸打磨接触面、涂导电膏，前后三小时。原本的割接推到凌晨四点。

这事之后我做了张《设备上电前自检卡》，12项必查点：地线接触电阻、电源冗余模式、风扇转向、网口协商速率……所有新设备必须运维逐项签字才能上电，不让施工队代劳。全年验收87台设备，退回3次，全是接地或标签问题。质量验收不能靠信任，得靠清单。

一次“静默故障”的教训

八月，监控全绿，用户反馈“操作后没反应”。抓包发现HTTP返回200，但响应体里的业务状态码是500。典型的假成功——网关健康检查只测TCP端口，不测业务逻辑。那个出问题的服务是订单状态更新，数据库连接池泄露，线程全阻塞了，但端口还在监听。

我跟开发说，你们得改代码加连接池监控。开发说“这个版本排期满了，你们先重启扛一下”。我不同意，重启只能顶两天。最后闹到技术总监那里，总监拍板让开发插队修。等他们修完，我花了三天给所有核心服务加了/health接口，返回连接池、消息队列、缓存的实时状态，并且配置告警：连续两次/health非200就摘流量。这之后类似问题再没出现过。

但说实话，这事让我意识到，运维不能只修自己的锅，得推着开发改。全年我牵头更新了13份应急预案，每份都加了“常见误判场景”附录。比如CPU高不一定是计算密集，也可能是锁竞争——这是我从一个死锁故障里学到的。

变更翻车那次

十一月有个内核参数优化，改了net.ipv4.tcp_tw_reuse=1，没重启，当时生效了。我以为没事。两周后双十一流量高峰，系统突然大量报cannot assign requested address。查了半天，原来tcp_tw_reuse需要配合tcp_timestamps，而我们的内核版本有bug，改了参数不重启会导致端口分配异常。那晚回滚参数、重启所有节点，折腾到凌晨三点。

✹一起合同网干货浓度超标:

个人年度工作总结 | 公司个人年度工作总结 | 钳工个人年度工作总结 | 保洁个人年度工作总结 | 个人年度总结2026 | 个人年度总结2026

这件事让我定了个死规矩：所有内核参数变更，必须灰度验证72小时，并且写进变更单的“回滚方案”一栏，空着就不批。

备份那档子事

全年我做了两次容灾切换演练。第一次演练时发现，数据库的增量备份一直报错，但监控没告警——因为备份脚本只检查进程是否在跑，不检查日志里的错误。那次演练失败了，RTO超了4倍。后来我把备份检查改成解析日志里的“completed successfully”关键字，并且每月做一次恢复测试。第二次演练就过了，RTO 28分钟，比目标还快2分钟。

说点数字之外的东西

412个工单里，有60个是重复咨询“VPN连不上”，原因是客户端证书过期。我写了个20行的Python脚本，每天凌晨检查所有证书有效期，提前7天发邮件提醒。这60个工单直接少了八成。

全年没有因为同一个原因出两次故障。这个我敢拍胸脯。每次复盘后的改进项，我都把它变成代码或脚本，不是文档。比如怕误关防火墙规则，我写了自动备份脚本，变更前自动备份配置，变更后如果连接断开，五分钟后自动回滚。

但有两个潜在的P0故障差点爆——一次是磁盘慢盘没被检测出来，一次是NTP服务偏移超限。被我提前摁住了。不然可用性直接掉到99.9%以下。说实话，这里面有运气成分。

明年就一件事：把故障预测往前推一步，从“出了问题快速恢复”到“出问题前就摁住”。目标不大，可用性到99.98%。但我知道那0.01%的增长，得靠每天多看几条日志、多想几种可能。还有，少熬夜。

推荐阅读:

想了解更多【工作总结】网的资讯，请访问：工作总结

热门标签: