系統故障分析

系統故障分析就是對系統的故障進行分析排查,使系統正常運行。系統故障分析包括日誌檔案分析、系統啟動類故障分析和檔案系統類故障分析。

基本介紹

  • 中文名:系統故障分析
  • 外文名:System Failure Analysis
  • 英文簡寫SFA
  • 分類:日誌檔案、系統啟動類等
  • 意義:發現並改正故障,使系統正常運行
  • 領域:計算機
日誌檔案分析,日誌的功能,日誌檔案的分類,主要日誌檔案介紹,日誌訊息的級別,用戶日誌分析,程式日誌分析,日誌管理策略,系統啟動類故障分析,MBR扇區故障,GRUB引導故障,/etc/inittab檔案丟失,遺忘root用戶的密碼,檔案系統類故障分析,修復檔案系統,磁碟資源耗盡故障,檢測磁碟環境,
系統故障分析包括日誌檔案分析、系統啟動類故障排除和檔案系統類故障排除。

日誌檔案分析

日誌的功能

日誌用於記錄系統、程式運行中發生的各種事件。通過閱讀日誌,有助於診斷和解決系統故障。

日誌檔案的分類

1.核心系統日誌:由系統服務syslog統一進行管理,日誌格式基本相似。
2.用戶日誌:記錄系統用戶登錄及退出系統的相關信息。
3.程式日誌:由各種應用程式獨立管理的日誌檔案,記錄格式不統一。

主要日誌檔案介紹

核心及公共訊息日誌:/var/log/messages;
計畫任務日誌:/var/log/cron;
系統引導日誌:/var/log/dmesg;
郵件系統日誌:/var/log/maillog;
用戶登錄日誌:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/btmp。

日誌訊息的級別

0 EMERG(緊急):會導致主機系統不可用的情況;
1 ALERT(警告):必須馬上採取措施解決的問題;
2 CRIT(嚴重):比較嚴重的情況;
3 ERR(錯誤):運行出現錯誤;
4 WARNING(提醒):可能會影響系統功能的事件;
5 NOTICE(注意):不會影響系統但值得注意;
6 INFO(信息):一般信息;
7 DEBUG(調試):程式或系統調試信息等。

用戶日誌分析

日誌保存了用戶登錄、退出系統等相關信息。
/var/log/lastlog:最近的用戶登錄事件;
/var/log/wtmp:用戶登錄、註銷及系統開、關機事件;
/var/run/utmp:當前登錄的每個用戶的詳細信息;
/var/log/secure:與用戶驗證相關的安全性事件;
分析工具:users 、who、w、last、lastb。

程式日誌分析

由相應的應用程式獨立進行管理,如下:
Web服務:/var/log/httpd/access_log、error_log;
代理服務:/var/log/squid/access.log、cache.log、squid.out、store.log;
FTP服務:/var/log/xferlog。
分析工具:文本查看、grep過濾檢索、Webmin管理套件中查看;awk、sed等文本過濾、格式化編輯工具;Webalizer、Awstats等專用日誌分析工具。

日誌管理策略

1.及時作好備份和歸檔;
2.延長日誌保存期限;
3.控制日誌訪問許可權:日誌中可能會包含各類敏感信息,如賬戶口令等;
4.集中管理日誌:便於日誌信息的統一收集、整理和分析;杜絕日誌信息的意外丟失、惡意篡改或刪除。
套用示例:調整syslogd服務設定,建立集中管理的日誌伺服器;將客戶機B中crond服務產生的日誌訊息,自動傳送到伺服器A的/var/log/cron檔案中。

系統啟動類故障分析

MBR扇區故障

故障原因:病毒木馬等造成的破壞;不正確的分區操作、磁碟讀寫誤操作。
故障現象:找不到引導程式,啟動中斷;無法載入作業系統,開機後黑屏
解決思路:應提前作好備份檔案;以RHEL5安裝光碟引導進入急救模式;從備份檔案中恢復。
套用示例:
1.備份MBR扇區數據:dd if=/dev/sda of=/backup/sda.mbr.bak bs=512 count=1;
2.模擬MBR被破壞的故障:dd if=/dev/zero of=/dev/sda bs=512 count=1;
3.RHEL5光碟引導,進入急救模式:boot: linux rescue;
4.從備份檔案中恢復MBR扇區:dd if=/tempdir/sda.mbr.bak of=/dev/sda bs=512 count=1。

GRUB引導故障

故障原因:MBR中的GRUB引導程式遭到破壞;grub.conf檔案丟失、引導配置有誤。
故障現象:系統引導停滯,顯示“grub>”提示符。
解決思路:嘗試手動輸入引導命令;進入急救模式,從備份中恢復 grub.conf;向MBR扇區中重建grub程式。
套用示例:在“grub>”提示符後,手動輸入引導命令;成功進入系統後,恢復或重建 grub.conf 配置檔案。

/etc/inittab檔案丟失

故障原因:inittab檔案被誤刪除,或者存在配置錯誤。
故障現象:啟動中提示 “INIT: No inittab file found”;系統停滯,無法完成初始化
解決思路:進入急救模式,從備份檔案中恢復;或者,在急救模式中重新安裝 initscripts 軟體包即rpm -ivh --replacepkgs initscripts-8.45.14.EL.i386.rpm。

遺忘root用戶的密碼

故障原因:遺忘root用戶的密碼。
故障現象:無法進行需要root許可權的管理操作;若沒有其他可用賬號,將無法登錄系統。
解決思路:引導進入單用戶模式,然後重設密碼;grub > kernel ... single 或 s 或 1;或進入急救模式,然後重設密碼。

檔案系統類故障分析

修復檔案系統

故障原因:非正常關機、突然斷電、設備讀寫失誤等;檔案系統的超級塊(super-block)信息被破壞。
故障現象:無法向分區中讀取或寫入數據;啟動後提示“Give root password for maintenance” 。
解決思路:根據提示輸入root口令,進入修復狀態;使用fsck命令進行修復。

磁碟資源耗盡故障

故障原因:磁碟空間已被大量的數據占滿,空間耗盡;雖然還有可用空間,但檔案數i節點耗盡 。
故障現象:無法寫入新的檔案,提示“… : 設備上沒有空間”;部分程式無法運行,甚至系統無法啟動。
解決思路:清理磁碟空間,刪除無用、冗餘的檔案;轉移或刪除占用大量i節點的瑣碎檔案;進入單用戶模式、急救模式進行修復;為用戶設定磁碟配額。

檢測磁碟環境

故障原因:磁碟設備中存在壞道(邏輯的或物理的)。
故障現象:讀取磁碟中的數據時,磁碟設備發出異常聲響;訪問磁碟中的某個檔案時,反覆讀取且出錯,提示檔案損壞;對於新建立的分區無法完成格式化;系統使用該磁碟時頻繁當機。
解決思路:檢測硬碟中是否存在壞道;修復硬碟,或更換新的硬碟。

相關詞條

熱門詞條

聯絡我們