謝海林·AI企業(yè)級(jí)應(yīng)用實(shí)戰(zhàn)專家
謝海林老師深耕互聯(lián)網(wǎng)大廠開發(fā)和運(yùn)維22年,擁有10萬(wàn)+服務(wù)器大型互聯(lián)網(wǎng)系統(tǒng)運(yùn)維以及運(yùn)維平臺(tái)體系化建設(shè)的落地實(shí)戰(zhàn)經(jīng)驗(yàn),聚焦AI與DevOps、智能運(yùn)維(AIOps)、云原生架構(gòu)的深度融合,擅長(zhǎng)從技術(shù)研發(fā)到團(tuán)隊(duì)管理的全鏈條落地,為企業(yè)構(gòu)建智能化、自動(dòng)化、高可靠的技術(shù)運(yùn)營(yíng)體系,助力傳統(tǒng)運(yùn)維向“人機(jī)協(xié)同”模式轉(zhuǎn)型,實(shí)現(xiàn)效率躍升與成本優(yōu)化。
——任職【騰訊】期間——
【01】打造騰訊首個(gè)具備一鍵跨城容災(zāi)切換能力的金融級(jí)平臺(tái)
——牽頭建設(shè)“磐石高可用運(yùn)維平臺(tái)”,整合監(jiān)控、日志、故障定位等12大核心平臺(tái),管理30000+服務(wù)器,日均處理百億級(jí)數(shù)據(jù),實(shí)現(xiàn)10分鐘故障處理、無(wú)損灰度發(fā)布、常態(tài)化跨城容災(zāi)演習(xí),系統(tǒng)可用性達(dá)99.99%。
【02】搭建騰訊金融新一代提升開發(fā)效率的開發(fā)者平臺(tái)
——擔(dān)任總架構(gòu)師,統(tǒng)籌建設(shè)devops云原生一體化開發(fā)者平臺(tái),打通30+技術(shù)系統(tǒng),推動(dòng)1000+開發(fā)者團(tuán)隊(duì)向云原生轉(zhuǎn)型,實(shí)現(xiàn)研發(fā)自助發(fā)布率>90%,版本交付周期從30天壓縮至9天,組織效率提升40%。
【03】構(gòu)建金融級(jí)統(tǒng)一配置管理中樞
——主導(dǎo)“騰訊金融統(tǒng)一配置中心”項(xiàng)目,解決業(yè)務(wù)路由與變量配置的復(fù)雜性難題,首次實(shí)現(xiàn)金融業(yè)務(wù)配置的集中化管控,設(shè)計(jì)“極致容災(zāi)+全網(wǎng)agent管控+灰度兼容”三大核心能力,消除本地配置依賴,大幅提升配置變更的安全和效率,成為騰訊金融業(yè)務(wù)系統(tǒng)最終依賴的平臺(tái)和標(biāo)準(zhǔn)。
【04】打造騰訊首個(gè)TEG數(shù)平—秒級(jí)智能監(jiān)控中樞
——主導(dǎo)“TEG數(shù)平秒級(jí)監(jiān)控平臺(tái)”建設(shè),構(gòu)建每日處理100億+海量日志與監(jiān)控?cái)?shù)據(jù)的實(shí)時(shí)分析體系,提出“面積算法”“斜率杠桿”等創(chuàng)新型監(jiān)控算法,保障主要業(yè)務(wù)系統(tǒng)、推薦系統(tǒng)、數(shù)據(jù)系統(tǒng)的穩(wěn)定運(yùn)行,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)穩(wěn)定性的“秒級(jí)感知-分鐘級(jí)響應(yīng)”。
——任職【蝦皮】期間——
【01】構(gòu)建電商行業(yè)領(lǐng)先的智能化SRE運(yùn)維體系
——主導(dǎo)業(yè)務(wù)SRE相關(guān)工具和系統(tǒng)建設(shè),服務(wù)深圳100+SRE團(tuán)隊(duì)的資源管理、故障定位、大促保障等核心場(chǎng)景,提出“三顆樹”“管理模型”及“握手點(diǎn)?最小資源模型”協(xié)作方法論,落地資源管理、需求交付、標(biāo)準(zhǔn)發(fā)布、故障定位處理四大核心系統(tǒng),實(shí)現(xiàn)工單需求標(biāo)準(zhǔn)工具自動(dòng)率>40%,故障定位準(zhǔn)確性>90%,運(yùn)維責(zé)任故障下降70%。
【02】建設(shè)支撐電商大促的AI數(shù)據(jù)可視化分析系統(tǒng)平臺(tái)
——為雙11、雙12等大促場(chǎng)景定制AI數(shù)據(jù)可視化分析系統(tǒng),借助Spark等工具對(duì)海量交易數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,搭建5秒粒度的實(shí)時(shí)數(shù)據(jù)統(tǒng)計(jì),成為公司實(shí)時(shí)觀測(cè)大屏。實(shí)現(xiàn)對(duì)交易流量、訂單轉(zhuǎn)化率等關(guān)鍵指標(biāo)的實(shí)時(shí)監(jiān)測(cè),提前預(yù)警服務(wù)器負(fù)載風(fēng)險(xiǎn),減少并降低了大促系統(tǒng)穩(wěn)定性90%的風(fēng)險(xiǎn),同時(shí)為大促期間的業(yè)務(wù)決策提供精準(zhǔn)依據(jù)。
【03】搭建公司內(nèi)部統(tǒng)一工單系統(tǒng)
——通過(guò)“工作臺(tái)”和“工單SLA環(huán)節(jié)交互可視化”的方法,成功上線需求提交、工單分發(fā)、交付進(jìn)度實(shí)時(shí)追蹤以及反饋評(píng)價(jià)四大關(guān)鍵模塊,同時(shí)對(duì)接后端工具自動(dòng)化交付系統(tǒng),實(shí)現(xiàn)工單需求提交的合規(guī)率超80%,工單平均處理時(shí)長(zhǎng)縮短60%,部門間因溝通不暢導(dǎo)致的工單退回率降低50%,工單自動(dòng)化率>40%,大幅提升工作協(xié)作效率和內(nèi)部客戶滿意度。