運維工程師(Operations),負責維護並確保整個服務的高可用性,同時不斷最佳化系統架構提升部署效率、最佳化資源利用率提高整體的ROI.
運維工程師面對的最大挑戰是大規模集群的管理問題,如何管理好幾十萬台伺服器上的服務,同時保障服務的高可用性,是運維工程師面臨的最大挑戰。
基本介紹
- 中文名:運維工程師
- 外文名:Operations
- 技能:伺服器、作業系統、資料庫
- 套用:網路、伺服器
職責
- 質量:保障並不斷提升服務的可用性,確保用戶數據安全,提升用戶體驗。
- 效率:用自動化的工具/平台提升軟體在研發生命周期中的工程效率。
- 成本:通過技術手段最佳化服務架構、性能調優;通過資源最佳化組合降低成本、提升ROI。
工作內容
- 事件管理:目標是在服務出現異常時儘可能快速的恢復服務,從而保障服務的可用性;同時深入分析故障產生的原因,推動並修復服務存在的問題,同時設計並開發相關的預案以確保服務出現故障時可以高效的止損。在這方面主要工作內容有:
- 問題發現:設計並開發高效的監控平台和告警平台,使用機器學習、大數據分析等方法對系統中的大量監控數據進行匯總分析,以期在系統出現異常的時候可以快速的發現問題和判斷故障的影響。
- 問題處理:設計並開發高效的問題處理平台和工具,在系統出現異常的時候可以快速/自動決策並觸發相關止損預案,快速恢復服務。
- 問題跟蹤:通過分析問題發生時系統的各種表現(日誌、變更、監控)確定問題發生的根本原因,制定並開發預案工具。
- 變更管理:以可控的方式,儘可能高效的完成產品功能的疊代的變更工作。在這方面主要工作內容有:
- 配置管理:通過配置管理平台(自研、開源)管理服務涉及到的多個模組、多個版本的關係以及配置的準確性。
- 發布管理:通過構建自動化的平台確保每一次版本變更可以安全可控地發布到生產環境。
- 容量管理:在服務運行維護階段,為了確保服務架構部署的合理性同時掌握服務整體的冗餘,需要不斷評估系統的承載能力,並不斷最佳化之。在這方面主要工作內容有:
- 容量評估:通過技術手段模擬實際的用戶請求,測試整個系統所能承擔的最大吞吐;通過建立容量評估模型分析壓力測試過程中的數據以評估整個服務的容量。
- 容量最佳化:基於容量評估數據,判斷系統的瓶頸並提供容量最佳化的解決方案。比如通過調整系統參數、最佳化服務部署架構等方法來高效的提升系統容量。
- 架構最佳化:為了支持產品的不斷疊代,需要不斷的進行架構最佳化調整。以確保整個產品能夠在功能不斷豐富和複雜的條件下,同時保持高可用性。
能力要求
基礎技能:
加分技能:
- 熟悉機器學習原理能付諸實踐者更佳
軟素質要求
- 強烈的責任心與主動性,對所負責工作有owner意識,並能自我驅動成長
- 能承擔較大工作壓力,有較強獨立分析、解決問題的能力
- 工作中需要膽大心細,具備探索創新精神