一起合同网

导航栏 ×

工作总结

发布时间:2026-04-14

2026年外卖转正工作总结。

试用期最后一天,我坐在工位上把过去三个月的工单、故障记录和复盘文档重新翻了一遍。三十二个线上故障,两个P1,七份复盘报告,三十个站点的设备改造。数字摆在这儿,但真正让我觉得自己能转正的,是那些凌晨两点盯着监控大屏、手里攥着回滚脚本不敢眨眼的时候。

一、那场午高峰的故障,我是这么扛过来的

入职第二周,周三,11:40。调度系统订单积压曲线突然往上蹿。我第一反应不是慌,是按标准流程来——先确认影响面:骑手端App取餐列表刷不出来,商家端正常。那就不是全链路崩了,是派单模块出问题。

登上去看了下GC日志,好家伙,Full GC每十秒一次,堆内存占用98%。dump出来一看,订单对象占了七成,明显是某个循环没释放引用。这时候没时间查代码,我做了两件事:第一,把有问题的节点从负载均衡里踢出去,流量切到备用集群,花了40秒。第二,关掉“骑手路径优化”算法——那个算法刚上线两天,我怀疑它。果然,关了之后内存增速降下来了。11:46分,队列开始消化,积压的两千多单慢慢推下去。

事后复盘,根因是路径优化模块有个内存泄露,压力测试只跑到日常峰值的80%,没扛住那天暴雨带来的订单激增(比平时高35%)。开发说“测过没问题”,我问他“测了几个小时?”他愣了下,“两小时。”我说:“你跑个八小时的稳定性测试再跟我说话。”

这之后我干了一件可能得罪人的事:在发布checklist里加了一条硬性规则——午高峰前两小时禁止发布非紧急变更,而且回滚脚本必须做到点一下按钮就能执行完整流程。我把这个提案写了个邮件发给技术总监,抄送了所有开发组长。有人觉得我小题大做,但后来有三次变更因为这条规则被拦下来,没人再说什么。

二、POS机丢单问题,我是怎么蹲站点蹲出来的

调度系统稳定之后,我被分配去处理一个烂了半年的问题:配送站点的POS机打印小票经常丢单,骑手和商家对不上账,站长天天被骂。

我一开始也以为是网络问题。跑了三个站点,换了路由器、换了网线、甚至换了打印机驱动版本,没用。后来我蹲在一个站点盯了一整个早高峰,发现一个规律:丢单总是发生在连续快速出单的时候。我让站长把打印机日志导出来,一看,打印队列的FIFO设计有缺陷——当一台打印机同时接收超过5个订单时,会随机丢弃后进来的任务。

知道了根因就好办了。我在站点工控机上写了一个本地代理程序,把打印请求先写到磁盘队列,再按顺序喂给打印机。同时加了心跳检测,打印机离线就自动切“静默收单”模式,恢复后补打。这玩意儿花了两个周末调试,最头疼的是磁盘队列写满的情况——我加了个循环覆盖机制,保留最近一万条。还有一个坑:补打的时候会不会重复?我在每条打印任务里加了个唯一ID,打完就标记,重连后只补未标记的。

部署到三十个高频站点后,丢单率从7.2%掉到0.3%以下。那天下着小雨,一个姓张的站长打来电话说:“兄弟,今天早高峰一张票都没丢,我给你点了奶茶。”说实话,我嘴上说“应该的”,心里确实觉得值了。不是为了那杯奶茶,是为了不用再半夜被电话吵醒去对账。

三、验收的时候,我和开发吵了一架

有一回验收骑手轨迹上报模块,开发说“单元测试全绿,可以上了”。我拉出压测报告一看,并发到800的时候数据库连接池直接爆了。我说:“不行,加上动态线程池和快速失败机制再测。”开发组长有点不耐烦:“你一个运维管这么多?代码我写的我能不知道?”

我没跟他吵,直接在他电脑上跑了个压测脚本。跑到第45秒,连接池满,线程阻塞,系统开始丢数据。他脸色变了,没再说话。第二天他改完给我,我又压了一次,这次熔断器跳了一次但系统没挂。他后来私下跟我说:“那会儿确实没考虑到。”

这事儿让我明白一个道理:质量验收不能只看功能测试通过率,得看三样东西——日志是不是结构化的(方便后面查),关键接口有没有熔断配置,依赖的外部服务有没有超时控制。我现在验收任何模块,这三条缺一不可。

四、那些数据背后的东西

转正述职的时候我报了几个数字:系统可用性从99.91%提到99.97%,订单平均派发耗时从620ms降到410ms,P1故障零起。

但我想说清楚这些数字是怎么来的。可用性提升主要靠两件事:一是把回滚从手动改成半自动,故障恢复时间从平均8分钟压到3分钟以内;二是给调度核心服务加了本地缓存预热,每天凌晨四点把常用商家和骑手数据提前加载到内存里。派发耗时下降,是因为我把那个内存泄露的算法重构了,同时砍掉了一批没用的日志打印——别小看日志,一个循环里打info日志能把响应时间拉高30%。

有人问我,试用期就敢动核心代码,不怕背锅?怕。但我更怕系统挂了没人能修。 [教师范文大全 wWw.jk251.coM]

五、最后说点实在的

这三个月我最深的体会是:复盘报告写得再漂亮,不如改一个配置、加一个监控、补一个操作手册。我见过太多事故分析最后写成“加强责任心”这种废话。我的规矩是——每一起故障,必须产出一个具体的东西:要么是一段监控脚本,要么是一个自动化工具,要么是操作手册里多写一页。如果什么都没改,那这个故障等于白出了。

转正之后,我想把现在手动的“容量评估”做成自动预测。结合天气、节假日、历史订单数据,提前半小时预警午高峰压力。这个活儿不轻松,要调模型、要接数据、要跟算法团队吵架。但值得干。

    更多精彩的工作总结,欢迎继续浏览:工作总结

文章来源://www.hc179.com/gongzuozongjie/191046.html