久99久女女精品免费观看69堂, 国产满18av精品免费观看视频, 91久久精品国产91久久性色tv, 67194欧美成l人在线观看免费,国产乱子伦片免费,丝袜在线,免费人妻无码不卡中文字幕在线,素人 在线91,亚洲阿v天堂无码

中國質(zhì)量新聞網(wǎng)
您當前位置: 新聞中心>>品牌>>品牌培育>>

共創(chuàng)共識 相互支撐——小米公司軟件服務(wù)端質(zhì)量提升背后的故事

2024-03-28 14:29:22 中國質(zhì)量報

共創(chuàng)共識 相互支撐

——小米公司軟件服務(wù)端質(zhì)量提升背后的故事

□ 本報記者 彭 燮

大面積宕機、大規(guī)模斷網(wǎng)、大量用戶無法訪問……近年來,多家互聯(lián)網(wǎng)企業(yè)接連發(fā)生服務(wù)端質(zhì)量事故。因此,軟件服務(wù)端質(zhì)量保障成為各企業(yè)關(guān)注的重點項目,小米公司也不例外。

服務(wù)端被稱為軟件系統(tǒng)的“基礎(chǔ)設(shè)施”,一旦出現(xiàn)故障,會給業(yè)務(wù)端帶來很大負面影響。但由于其自身的復雜性以及軟件開發(fā)的隨機復雜性,服務(wù)端“零故障”在現(xiàn)有條件下是不可能實現(xiàn)的。因此,作為一家服務(wù)全球數(shù)億用戶的移動互聯(lián)網(wǎng)公司,小米公司能做的就是,盡可能降低服務(wù)端質(zhì)量事故發(fā)生的概率,以及在事故發(fā)生后,盡可能減少對用戶的負面影響。

這也是小米公司軟件服務(wù)端質(zhì)量提升專項(以下簡稱“專項”)的目標。2023年1月,小米公司由負責基礎(chǔ)服務(wù)的集團信息技術(shù)部牽頭,聯(lián)合4個重點業(yè)務(wù)部門以及集團質(zhì)量辦共同成立專項工作組,圍繞10個重點業(yè)務(wù)和25個核心基礎(chǔ)服務(wù),全力治理軟件服務(wù)端的質(zhì)量風險,目的是夯實基礎(chǔ)服務(wù)容災(zāi)能力,并提升重點業(yè)務(wù)的逃生能力。

容災(zāi)和逃生,聽起來像是應(yīng)對各類災(zāi)害的專業(yè)用語,在專項工作組看來,服務(wù)端質(zhì)量故障,就屬于“技術(shù)災(zāi)害”,提高防災(zāi)減災(zāi)救災(zāi)能力,是小米公司必須要修煉的“內(nèi)功”。

相互支撐的5毫秒

服務(wù)端和業(yè)務(wù)端共同完成各項互聯(lián)網(wǎng)應(yīng)用技術(shù)保障,分工不同,但目標一致。而專項工作組的工作之一就是要加強服務(wù)端和業(yè)務(wù)端的雙向配合。

配合的基礎(chǔ)是共識,在技術(shù)上被稱為“SLA握手”,即雙方就基礎(chǔ)服務(wù)的具體技術(shù)指標達成一致。其難度在于,業(yè)務(wù)端主要關(guān)注業(yè)務(wù)指標對于提升用戶體驗和質(zhì)量水平的重要性,而軟件服務(wù)端主要從現(xiàn)有能力出發(fā),更多考慮業(yè)務(wù)指標的提升路徑和相應(yīng)成本。

專項工作組給記者講述了一個關(guān)于“5毫秒”的故事。

5毫秒,對于日常生活來說,是完全可忽略不計的時間。可對于Redis(一個存儲數(shù)據(jù)庫)日志組件來說,5毫秒?yún)s是目前業(yè)界公認的,能實現(xiàn)良好用戶體驗的最短延遲時長。

在軟件服務(wù)端質(zhì)量提升專項實施之前,米家工程師小張并不了解,在小米,其實有兩個5毫秒:一個5毫秒是他所熟悉的,米家相關(guān)應(yīng)用Redis日志延遲時長的標準,盡管延遲超過100毫秒用戶才會明顯感覺到“有點慢”,但米家依然把延遲時長標準定為5毫秒,這也是目前業(yè)界公認的最高標準;另一個5毫秒是軟件服務(wù)端監(jiān)測的服務(wù)器Redis日志延遲時長,目的也是想給米粉們提供最好的體驗。

可問題是,這兩個5毫秒,并不能劃等號。

小張說,在實際應(yīng)用中,他們時常發(fā)現(xiàn)Redis日志延遲時長達到6-7毫秒,雖然用戶對于多出的1-2毫秒并無感知,但小米的工程師們不會視而不見。他猜想,是不是軟件服務(wù)端出了問題?

通過專項,小張發(fā)現(xiàn)自己想錯了——軟件服務(wù)端的工程師們一直堅守著“5毫秒”的標準,而且從目前技術(shù)數(shù)據(jù)看,基本上不會出現(xiàn)延遲時長達到6-7毫秒的情況。

那問題到底出在哪里呢?

經(jīng)過雙方工程師的共同排查和數(shù)據(jù)“拉齊”,他們找到了延時時長增加的原因,小張管它們叫“中間地帶”,包括網(wǎng)絡(luò)、云平臺容器等。一般來說,它們會增加1~2毫秒的延遲時長。甚至有一次云平臺容器基礎(chǔ)設(shè)施升級,業(yè)務(wù)端的延遲時長最高超過20毫秒。

問題找到了,那實現(xiàn)“SLA握手”的有兩種方案:一是以業(yè)務(wù)端的5毫秒為基準,讓軟件服務(wù)端把“中間地帶”造成的延遲算進去,進一步縮短延遲;另一種是以軟件服務(wù)端的5毫秒為基準,綜合考慮“中間地帶”的因素,業(yè)務(wù)端適當提高延遲時長標準。

對于小張和同事們來說,第一種方案顯然是最簡便也是最好操作的,因為只需要看好自己業(yè)務(wù)的數(shù)據(jù),就可以保證不出現(xiàn)延遲問題。但最終,他們卻自愿選擇了第二種方案。

“我們覺得,考慮問題不能只想著自己怎么方便怎么來,而是要從集團整體角度來判斷,什么是最優(yōu)解的?!毙埖目紤]有兩方面,一是在現(xiàn)有技術(shù)條件下,如果要保證業(yè)務(wù)端的5毫秒,就意味著軟件服務(wù)端要把延時控制在3~4毫秒,這需要公司投入巨大成本,投入產(chǎn)出嚴重不成比例;二是對于軟件服務(wù)端的同事來說,他們平時主要是著眼于基礎(chǔ)服務(wù),對“中間地帶”的運行原理和相關(guān)情況的了解不如業(yè)務(wù)線多,讓他們?nèi)ヘ撠熍挪椤爸虚g地帶”的問題,要多花費很多的時間和人力?!斑@樣做,他們的壓力太大了,不光要管自己,還要管自身以外的一些業(yè)務(wù)?!毙堈f。

就這樣,原本是“自說自話”的兩個5毫秒,通過“SLA握手”,雙向奔赴、合二為一。而工程師們也從在一個園區(qū)里上班卻少有聯(lián)絡(luò)的“網(wǎng)友”,變成了互相支持、互相信賴的真朋友。

讓人“上癮”的“噩夢”演練

如果盤點小米工程師的“噩夢”,交換機斷網(wǎng)肯定可以算一件。 一臺交換機斷網(wǎng)已是大事故,更不用說兩臺交換機同時斷網(wǎng)了。然而,就在2023年5月20日凌晨,小米公司近百位工程師共同“圍觀”兩臺交換機同時斷網(wǎng)。那個場面讓軟件服務(wù)端運維工程師劉工至今難忘。

為了驗證專項通過推進“SLA握手”提升災(zāi)備能力的成效,提升各業(yè)務(wù)端和軟件服務(wù)端的協(xié)調(diào)作戰(zhàn)能力,工作組先后組織了4場集團級別的應(yīng)急有損演練——幾乎輻射小米所有業(yè)務(wù)線。作為應(yīng)急演練的具體負責人,劉工用“糾結(jié)”兩個字來形容自己當時的心情。

讓人糾結(jié)的點在于,因為是有損演練,萬一演練過程中引發(fā)了更大的問題,波及的用戶數(shù)量可能是數(shù)以億計的?!半m然公司不追責,但怎么和米粉們交代呢?”劉工記得,有位業(yè)務(wù)工程師曾質(zhì)問他:“干嘛非要搞個事出來!”

“沒事找事”的背后,是因為工作組深知,問題不會因為不演練就不發(fā)生,與其因為意外情況失控,還不如通過有損演練把預(yù)案做好。這就和消防演練對防火工作的重要性一樣。再難也得干!而且他們直接挑戰(zhàn)兩臺交換機同時斷網(wǎng),這在小米歷史上是從未發(fā)生過的。

2023年7月25日凌晨,近百名小米工程師在工作群里集合,之所以選擇這個時間,也是為了盡量減少對用戶可能造成的影響。

“倒計時10分鐘?!?/p>

劉工發(fā)出第一條指令。各業(yè)務(wù)線工程師開始按照之前預(yù)演過的流程進行準備,監(jiān)控相關(guān)數(shù)據(jù)。

“倒計時5分鐘。”

劉工發(fā)出第二條指令。各業(yè)務(wù)線工程師再次確認應(yīng)急預(yù)案。相關(guān)操作人員進行準備。

“倒計時1分鐘?!?/p>

劉工發(fā)出第三條指令。這一刻好像空氣都凝固了,群里看似靜悄悄,又仿佛能聽到大家的心跳。

“光纖接口已斷開?!?/p>

負責“制造”交換器斷網(wǎng)的工程師在群里發(fā)布了最新情況,隨后群里逐漸熱鬧了起來。有的工程師表示,確實如預(yù)判的一樣,后臺數(shù)據(jù)明顯波動,但好在有預(yù)案,用戶基本感受不到;有的工程師表示,居然沒有出現(xiàn)預(yù)想的問題;有幾位本來是“觀戰(zhàn)”的工程師說,自己的業(yè)務(wù)后臺數(shù)據(jù)竟然出現(xiàn)了抖動。

讓人糾結(jié)的演練終于結(jié)束了,結(jié)果令人欣慰——事實證明,軟件服務(wù)端質(zhì)量提升專項確實提升了業(yè)務(wù)端和服務(wù)端的“合力”和災(zāi)備能力,通過雙方“握手”和數(shù)據(jù)“拉齊”實現(xiàn)的預(yù)防方案,能夠應(yīng)對突發(fā)情況的挑戰(zhàn)。

更讓人欣慰的變化是,這場演練居然讓小米工程師“上癮”了,一些之前觀望的業(yè)務(wù)線,主動找到工作組要求參與演練;工程師在評估業(yè)務(wù)量的時候會考慮演練所涉及的容災(zāi)內(nèi)容;甚至有些工程師在得知演練沒有發(fā)現(xiàn)問題的時候,會感嘆“白演練了”。

實踐證明,故障演練很好地驗收了對前期項目推進的成效,也全面檢驗了各團隊應(yīng)急響應(yīng)能力、預(yù)案執(zhí)行效率、系統(tǒng)協(xié)同能力。

從“治病”到“治未病”,從“救火”到“防火”,這是專項給小米質(zhì)量工作帶來的積極變化。雖然推進過程非常艱難且糾結(jié),但正如劉工所說:“我們多糾結(jié)一點,用戶選擇小米的心就會更加堅定一些。”

《中國質(zhì)量報》

(責任編輯:水川)
最新評論
聲明:

本網(wǎng)注明“來源:中國質(zhì)量新聞網(wǎng)”的所有作品,版權(quán)均屬于中國質(zhì)量新聞網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其他方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明“來源:中國質(zhì)量新聞網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責任。若需轉(zhuǎn)載本網(wǎng)稿件,請致電:010-84648459。

本網(wǎng)注明“來源:XXX(非中國質(zhì)量新聞網(wǎng))”的作品,均轉(zhuǎn)載自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,不代表本網(wǎng)觀點。文章內(nèi)容僅供參考。如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請直接點擊《新聞稿件修改申請表》表格填寫修改內(nèi)容(所有選項均為必填),然后發(fā)郵件至 lxwm@cqn.com.cn,以便本網(wǎng)盡快處理。

圖片新聞
  • 2024中國國際清潔能源博覽會在北 ...

  • 重慶市沙坪壩區(qū)市場監(jiān)管局啟動出租車 ...

  • 2024秋冬中國國際時裝周開幕大秀 ...

  • 河南省三門峽市澠池縣市場監(jiān)管局常態(tài) ...

  • 甘肅省酒泉市肅州區(qū)市場監(jiān)管局組織開 ...

最新新聞