謝海林·AI企業(yè)級應用實戰(zhàn)專家
謝海林老師深耕互聯(lián)網大廠開發(fā)和運維22年,擁有10萬+服務器大型互聯(lián)網系統(tǒng)運維以及運維平臺體系化建設的落地實戰(zhàn)經驗,聚焦AI與DevOps、智能運維(AIOps)、云原生架構的深度融合,擅長從技術研發(fā)到團隊管理的全鏈條落地,為企業(yè)構建智能化、自動化、高可靠的技術運營體系,助力傳統(tǒng)運維向“人機協(xié)同”模式轉型,實現效率躍升與成本優(yōu)化。
——任職【騰訊】期間——
【01】打造騰訊首個具備一鍵跨城容災切換能力的金融級平臺
——牽頭建設“磐石高可用運維平臺”,整合監(jiān)控、日志、故障定位等12大核心平臺,管理30000+服務器,日均處理百億級數據,實現10分鐘故障處理、無損灰度發(fā)布、常態(tài)化跨城容災演習,系統(tǒng)可用性達99.99%。
【02】搭建騰訊金融新一代提升開發(fā)效率的開發(fā)者平臺
——擔任總架構師,統(tǒng)籌建設devops云原生一體化開發(fā)者平臺,打通30+技術系統(tǒng),推動1000+開發(fā)者團隊向云原生轉型,實現研發(fā)自助發(fā)布率>90%,版本交付周期從30天壓縮至9天,組織效率提升40%。
【03】構建金融級統(tǒng)一配置管理中樞
——主導“騰訊金融統(tǒng)一配置中心”項目,解決業(yè)務路由與變量配置的復雜性難題,首次實現金融業(yè)務配置的集中化管控,設計“極致容災+全網agent管控+灰度兼容”三大核心能力,消除本地配置依賴,大幅提升配置變更的安全和效率,成為騰訊金融業(yè)務系統(tǒng)最終依賴的平臺和標準。
【04】打造騰訊首個TEG數平—秒級智能監(jiān)控中樞
——主導“TEG數平秒級監(jiān)控平臺”建設,構建每日處理100億+海量日志與監(jiān)控數據的實時分析體系,提出“面積算法”“斜率杠桿”等創(chuàng)新型監(jiān)控算法,保障主要業(yè)務系統(tǒng)、推薦系統(tǒng)、數據系統(tǒng)的穩(wěn)定運行,實現業(yè)務系統(tǒng)穩(wěn)定性的“秒級感知-分鐘級響應”。
——任職【蝦皮】期間——
【01】構建電商行業(yè)領先的智能化SRE運維體系
——主導業(yè)務SRE相關工具和系統(tǒng)建設,服務深圳100+SRE團隊的資源管理、故障定位、大促保障等核心場景,提出“三顆樹”“管理模型”及“握手點?最小資源模型”協(xié)作方法論,落地資源管理、需求交付、標準發(fā)布、故障定位處理四大核心系統(tǒng),實現工單需求標準工具自動率>40%,故障定位準確性>90%,運維責任故障下降70%。
【02】建設支撐電商大促的AI數據可視化分析系統(tǒng)平臺
——為雙11、雙12等大促場景定制AI數據可視化分析系統(tǒng),借助Spark等工具對海量交易數據進行實時處理,搭建5秒粒度的實時數據統(tǒng)計,成為公司實時觀測大屏。實現對交易流量、訂單轉化率等關鍵指標的實時監(jiān)測,提前預警服務器負載風險,減少并降低了大促系統(tǒng)穩(wěn)定性90%的風險,同時為大促期間的業(yè)務決策提供精準依據。
【03】搭建公司內部統(tǒng)一工單系統(tǒng)
——通過“工作臺”和“工單SLA環(huán)節(jié)交互可視化”的方法,成功上線需求提交、工單分發(fā)、交付進度實時追蹤以及反饋評價四大關鍵模塊,同時對接后端工具自動化交付系統(tǒng),實現工單需求提交的合規(guī)率超80%,工單平均處理時長縮短60%,部門間因溝通不暢導致的工單退回率降低50%,工單自動化率>40%,大幅提升工作協(xié)作效率和內部客戶滿意度。