- 重現問題需要哪些步驟?
知道這些步驟可以幫助你在相同條件下不同的機器中再現相同的問題。如果可以,你將有機會使用測試機來代替崩潰的生產服務器。
- 是一個間歇性問題嗎?
如果問題間歇性發生,第一件要做的是就是搜集信息并找到可以重現問題的規律,目標就是構建一個情境讓問題可以隨時發生。
- 問題在每天的特定時間或每周的特定某天發生嗎?
這可能幫助你查明問題是由什么引起的。問題可能發生在大家上午上班或下午上班時,想辦法改變現有作息時間(這可能減少問題發生的機會或發生的更加頻繁);以便讓問題可以重現。
- 問題很少見嗎?
如果問題不可以重現,你可能得出結果在特殊情況下問題才會發生并將其歸類為已解決。在現實生活中,此問題還是極有可能再次發生的。
在排除難以重現的問題時,有效的措施就是:重啟或將機器的驅動程序和補丁升級到最新。
▶ 問題是什么時候開始的?是漸漸的還是突然發生的?
如果性能問題是漸漸出現的,這很像是一個容量規劃問題;如果它是突然出現的,很可能是由于服務器或外圍設備的變更引起的。
▶ 服務器是否有做過變更(小的或大的)或客戶端使用服務器的方法有改變嗎?
- 客戶是否改變過服務器或外圍設備而導致了問題的發生?有網絡變更的所有記錄嗎?
▶ 還涉及了其它的服務器或硬件嗎?
▶ 有日志可以用嗎?
▶ 問題的優先級是什么?什么時候問題必須解決?
- 必須在幾分鐘內解決還是允許在幾天內解決?你可能有充分時間來解決問題;或已啟動應急方案。
- 問題有多大?
- 相關的損失有哪些?
3.1.2 分析服務器性能
重要提示:在執行任何故障排除動作前,備份所有的數據和配置信息,防止其部分或全部丟失。
此時,你應開始監控服務器。最簡單的方法就是在需要分析的服務器上運行監控工具。(參看第二章“監控和基準工具”)。
在運行高峰時(例如,上午9點到下午5點)記錄服務器的性能日志;取決于有提供哪些服務和有哪些人在使用這些服務。在記錄日志時如果可以應該包含下列字段:
處理器【Processor】
系統【System】
服務器工作隊列【Server work queues】
內存【Memory】
分頁文件【Page file】
物理硬盤【Physical disk】
重定向器【redirector】
網絡接口【Network interface】
在你開始前,要牢記井然有序的進行性能調優是非常重要的。你可以使用我們推薦的流程為你的服務器進行調優,流程如下:
1.清楚影響服務器性能的因素。
2.測量出當前的性能作為基線,用于與后來的測量數據比較來識別出系統的瓶頸。
3.使用監控工具來識別性能瓶頸。按照下節介紹,你可以縮小瓶頸的范圍到子系統級。
4.針對導致瓶頸的元件執行相應調整,提升服務器性能以滿足需要。
注釋:當服務器其它元件都有足夠的能力來維持性能在一個較高的級別時,通過升級存在瓶頸的元件可以獲得最好的效果。
5.對性能進行新的測量,對比調優前后的性能差異。
當嘗試處理性能問題時,請記住下列事項:
▶ 應用程序應該使用適當的優化級別進行編譯,這樣可以少走彎路。
▶ 在你做任何升級和修改前執行測量,以便于確定變更是否有效果。(換句話說就是執行基線測量)
▶ 檢查項目不應只有新增加的硬件,還要包括配置有更改的現有設備。
原文轉自:http://www.redbooks.ibm.com/abstracts/redp4285.html