IT運維服務整體方案

來源:才華庫 2.27W

一、什麼是IT運維服務

IT運維服務的提供者基於服務級別協議(SLA)向IT運維服務的使用者提供各類IT運維服務。不同服務級別對應的服務質量指標是服務級別協議的重要組成部分。服務質量指標體現服務供應商所提供的IT運維服務的質量。

IT運維服務整體方案

為了確保工作或事情能有條不紊地開展,我們需要事先制定方案,方案一般包括指導思想、主要目標、工作重點、實施步驟、政策措施、具體要求等專案。我們應該怎麼制定方案呢?以下是小編整理的IT運維服務整體方案,歡迎閱讀,希望大家能夠喜歡。

IT運維服務整體方案1

一、IT運維管理概述

IT運維管理是時下IT界最熱門的話題之一。隨著IT建設的不斷深入和完善,計算機硬軟體系統的執行維護已經成為了各行各業各單位領導和資訊服務部門普遍關注和不堪重負的問題。由於這是一個隨著計算機資訊科技的深入應用而產生的新課題,因此如何進行有效的IT運維管理,這方面的知識積累和應用技術還剛剛起步。對這一領域的研究和探索,將具有廣闊的發展前景和巨大的現實意義。

所謂IT運維管理,是指單位IT部門採用相關的方法、手段、技術、制度、流程和文件等,對IT執行環境(如硬軟體環境、網路環境等)、IT業務系統和IT運維人員進行的綜合管理。

二、IT運維管理的主要管理內容

IT運維管理主要包括八個方面的管理內容:

1.裝置管理:對網路裝置、伺服器裝置、作業系統執行狀況進行監控和管理;

2.應用/服務管理:對各種應用支援軟體如資料庫、中介軟體、群件以及各種通用或特定服務的監控管理,如郵件系統、DNS、Web等的監控與管理;

3.資料/儲存/容災管理:對系統和業務資料進行統一儲存、備份和恢復;

4.業務管理:包含對企業自身核心業務系統執行情況的監控與管理,對於業務的管理,主要關注該業務系統的CSF(關鍵成功因素CriticalSuccessFactors)和KPI(關鍵績效指標Key Performance Indicators);

5.目錄/內容管理:該部分主要對於企業需要統一發布或因人定製的內容管理和對公共資訊的管理;

6.資源資產管理:管理企業中各IT系統的資源資產情況,這些資源資產可以是物理存在的,也可以是邏輯存在的,並能夠與企業的財務部門進行資料互動;

7.資訊保安管理:目前資訊保安管理主要依據的國際標準是ISO17799,該標準涵蓋了資訊保安管理的十大控制方面,36個控制目標和127種控制方式,如企業安全組織方式、資產分類與控制、人員安全、物理與環境安全、通訊與運營安全、訪問控制、業務連續性管理等;

8.日常工作管理:該部分主要用於規範和明確運維人員的崗位職責和工作安排、提供績效考核量化依據、提供解決經驗與知識的積累與共享手段。

三、專案流程

四、IT運維服務

IT運維服務是指:企業將資訊化建設工作交給專業化服務公司來做。它可以包括以下內容:資訊化規劃(諮詢)、裝置和軟體選型、網路系統和應用軟體系統建設、整個系統網路的日常維護管理和升級等,是企業迅速發展企業數字化,提高數字化質量、提高企業工作效率,節約資訊化成本的一種途徑與方式。

IT運維服務分為幾個層次:

1.基礎面:IT基礎運維服務

是指在IT裝置過了原廠保修期(Warranty Support Period)之後,為包括Unix主機、PC伺服器、網路裝置、磁碟陣列和相關作業系統等在內的軟硬體裝置能維持一定質量的運轉能力,所需要的技術服務,通常包括預防性的巡檢、更換故障部件、調整軟硬體引數等工作。

2.專業面:IT運營外包服務

是指服務提供商以規範化的服務管理體系(服務人員、服務流程規範、服務網路覆蓋及服務支撐平臺)為主導的IT服務提供形式,為客戶提供全套的IT系統規劃、採購、實施、運維、諮詢、培訓的整體服務,即,通過基於ITIL規範的服務管理體系實現傳統IT服務的更全面、更規範的完美、高效率交付。在IT運營外包服務模式下,客戶只需負責使用,也僅只需為使用付費,是最大程度簡化IT管理難度,節約客戶成本,提升IT專業化的一種先進的服務方式。

3.升級面:IT規劃與諮詢

是指為客戶提供IT基礎設施層面的諮詢服務,包括:規劃、設計、評估等系列服務;以及基礎設施層面的部署服務,包括:安裝、配置、升級、遷移、搬遷、優化、資訊保安評測、風險評估、培訓等系列服務。

IT運維服務提供的方式:

1.線上支援;通過郵件、IM、論壇、客戶知識庫實現與客戶的技術交流與解決;

2.遠端支援;通過各類遠端協助工具;

3.現場支援;依據服務級別協議,現場故障恢復;及預防性巡檢;

4.關鍵時刻值守;依據客戶需求,提供關鍵時刻安全值守保障;

5.駐場服務;常年駐守。

IT運維服務整體方案2

1.1服務目標

執行維護服務包括,資訊系統相關的主機裝置、作業系統、資料庫和儲存裝置及其他資訊系統的執行維護與安全防範服務,保證使用者現有的資訊系統的正常執行,降低整體管理成本,提高網路資訊系統的整體服務水平。同時根據日常維護的資料和記錄,提供使用者資訊系統的整體建設規劃和建議,更好的為使用者的資訊化發展提供有力的保障。

使用者資訊系統的組成主要可分為兩類:硬體裝置和軟體系統。硬體裝置包括網路裝置、安全裝置、主機裝置、儲存裝置等;軟體裝置可分為作業系統軟體、典型應用軟體(如:資料庫軟體、中介軟體軟體等)、業務應用軟體等。

通過執行維護服務的有效管理來提升使用者資訊系統的服務效率,協調各業務應用系統的內部運作,改善網路資訊系統部門與業務部門的溝通,提高服務質量。結合使用者現有的環境、組織結構、IT資源和管理流程的特點,從流程、人員和技術三方面來規劃使用者的網路資訊系統的結構。將使用者的執行目標、業務需求與IT服務的相協調一致。

資訊系統服務的目標是,對使用者現有的資訊系統基礎資源進行監控和管理,及時掌握網路資訊系統資源現狀和配置資訊,反映資訊系統資源的可用性情況和健康狀況,建立一個可知可控的IT環境,從而保證使用者資訊系統的各類業務應用系統的可靠、高效、持續、安全執行。

1.2資訊資產統計服務

此項服務為基本服務,包含在執行維護服務中,幫助我們對使用者現有的資訊資產情況進行了解,更好的提供系統的執行維護服務。

服務內容包括:

硬體裝置型號、數量、版本等資訊統計記錄;

軟體產品型號、版本和補丁等資訊統計記錄;

網路結構、網路路由、網路IP地址統計記錄;

綜合佈線系統結構圖的繪製;

其它附屬裝置的統計記錄;

硬體裝置清單統計。

1.3網路、安全系統運維服務

從網路的連通性、網路的效能、網路的監控管理三個方面實現對網路系統的運維管理。

(1)使用者現場技術人員值守

根據使用者的需求提供長期的使用者現場技術人員值守服務,保證網路的實時連通和可用,保障接入交換機、匯聚交換機和核心交換機的正常運轉。

現場值守的技術人員每天記錄網路交換機的埠是否可以正常使用,網路的轉發和路由是否正常進行,交換機的效能檢測,進行整體網路效能評估,針對網路的利用率進行優化並提出網路擴容和優化的'建議。

現場值守人員還進行安全裝置的日常執行狀態的監控,對各種安全裝置的日誌檢查,對重點事件進行記錄,對安全事件的產生原因進行判斷和解決,及時發現問題,防患於未然。

同時能夠對裝置的執行資料進行記錄,形成報表進行統計分析,便於進行網路系統的分析和故障的提前預知。具體記錄的資料包括:配置資料、效能資料、故障資料。

(2)現場巡檢服務

現場巡檢服務是對客戶的裝置及網路進行全面檢查的服務專案,通過該服務可使客戶獲得裝置執行的第一手資料,最大可能地發現存在的隱患,保障裝置穩定執行。

同時,將有針對性地提出預警及解決建議,使客戶能夠提早預防,最大限度降低運營風險。

網路執行分析與管理服務是指工程師通過對網路執行狀況、網路問題進行週期性檢查、分析後,為客戶提出指導性建議的一種綜合性高階服務。

(3)網路執行分析與管理服務

(4)重要時刻專人值守服務

保證重要時刻裝置穩定執行對客戶成功尤為關鍵,因此,可對客戶提供重要時刻的專人現場值守支援,包括政府客戶的重大會議期間、金融客戶的年終結算日、運營商客戶的生產網重大割接或其它任何客戶認為可能對其業務運營產生重大影響的時刻。

如需專人值守,客戶需至少提前3周與授權服務商客戶服務經理聯絡。對每位合約客戶,授權服務商均需按事先合同約定提供專人值守服務。客戶如需超出合同約定範圍的更多值守支援,需額外支付相應人力和差旅費用。

1.4主機、儲存系統運維服務

主機、儲存系統的運維服務包括:主機、儲存裝置的日常監控,裝置的執行狀態監控,故障處理,作業系統維護,補丁升級等內容。

現場值守人員可進行監控管理的內容包括:

CPU效能管理;

記憶體使用情況管理;

硬碟利用情況管理;

系統程序管理;

主機效能管理;

實時監控主機電源、風扇的使用情況及主機機箱內部溫度;

監控主機硬碟執行狀態;

監控主機網絡卡、陣列卡等硬體狀態;

監控主機HA執行狀況;

主機系統檔案系統管理;

監控儲存交換機裝置狀態、埠狀態、傳輸速度;

監控備份服務程序、備份情況(起止時間、是否成功、出錯告警);

監控記錄磁碟陣列、磁帶庫等儲存硬體故障提示和告警,並及時解決故障問題;

對儲存的效能(如快取記憶體、光纖通道等)進行監控。

資料庫執行維護服務是包括主動資料庫效能管理,資料庫的主動效能管理對系統運維非常重要。通過主動式效能管理可瞭解資料庫的日常執行狀態,識別資料庫的效能問題發生在什麼地方,有針對性地進行效能優化。同時,密切注意資料庫系統的變化,主動地預防可能發生的問題。

1.5資料庫系統運維服務

資料庫執行維護服務還包括快速發現、診斷和解決效能問題,在出現問題時,及時找出效能瓶頸,解決資料庫效能問題,維護高效的應用系統。

資料庫執行維護服務,主要工作是使用技術手段來達到管理的目標,以系統最終的執行維護為目標,提高使用者的工作效率。

1.6中介軟體運維服務

中介軟體管理是指對BEAWeblogic、MQ等中介軟體的日常維護管理和監控工作,提高對中介軟體平臺事件的分析解決能力,確保中介軟體平臺持續穩定執行。中介軟體監控指標包括配置資訊管理、故障監控、效能監控。

執行執行緒:監控WebLogic配置執行執行緒的空閒數量。

JVM記憶體:JVM記憶體曲線正常,能夠及時的進行記憶體空間回收。JDBC連線池:連線池的初始容量和最大容量應該設定為相等,並且至少等於執行執行緒的數量,以避免在執行過程中建立資料庫連線所帶來的效能消耗。

檢查WEBLOG日誌檔案是否有異常報錯,如果有WEBLOG叢集配置,需要檢查叢集的配置是否正常。

  1.7運維服務流程

建議使用者採用的服務方式為兩種:一種為技術人員現場值守,另一種是定期巡檢結合故障現場服務。

技術人員現場值守執行維護服務的基本操作流程如下圖所示:

定期巡檢結合故障現場執行維護服務的基本操作流程如下圖所示:

  1.8服務管理制度規範

1.服務時間

(1)接收服務請求和諮詢:在5*8小時工作時間內設定由專人職守的熱線電話,接聽內部的服務請求,並記錄服務檯事件處理結果。

(2)在非工作時間設定有專人7*24小時接聽的行動電話熱線,用於解決內部的技術問題以及接聽7*24小時機房監控人員的機房突發情況彙報。

技術支援人員在解決故障時,會最大限度保護好資料,做好故障恢復的文件,力爭恢復到故障點前的業務狀態。

對於“系統癱瘓,業務系統不能運轉”的故障級別,如果不能於12小時內解決故障,將在16小時內提出應急方案,確保業務系統的執行。故障解決後24小時內,提交故障處理報告。說明故障種類、故障原因、故障解決中使用的方法及故障損失等情況。

2.行為規範

(1)遵守使用者的各項規章制度,嚴格按照使用者相應的規章制度辦事。

(2)與使用者執行維護體系其他部門和環節協同工作,密切配合,共同開展技術支援工作。

(3)出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。

(4)現場技術支援時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明瞭,語氣和善。

(5)遵守保密原則。對被支援單位的網路、主機、系統軟體、應用軟體等的密碼、核心引數、業務資料等負有保密責任,不得隨意複製和傳播。

3.現場服務支援規範

運維服務人員要做到耐心、細心、熱心的服務。工作要做到事事有記錄、事事有反饋、重大問題及時彙報。嚴格遵守工作作息時間,嚴格按照服務工作流程操作。

(1)現場支援工程師應著裝整潔、言行禮貌大方,技術專業,操作熟練、嚴謹、規範;現場支援時必須遵守使用者單位的相關規章制度。

(2)現場支援工程師在進行現場支援工作時必須在保證資料和系統安全的前提下開展工作。

(3)現場支援時出現暫時無法解決的故障或其他新的故障時,應告知使用者並及時上報負責人,尋找其他解決途徑。

(4)故障解決後,現場支援工程師要詳細記錄問題的發生時間、地點、提出人和問題描述,並形成書面文件,必要時應向用戶介紹故障出現的原因及預防方法和解決技巧。

4.問題記錄規範

根據使用人員提出問題的類別,將問題分為諮詢類問題和系統缺陷類問題二類:諮詢類問題是指通過服務熱線或現場解疑等方式能夠當場解決使用者提出的問題,具有問題解答直接、快速和實時的特點,該問題到現場支援人員處即可中止,對於該類問題的記錄可使用諮詢類問題記錄模版進行記錄。系統缺陷類問題是指使用人員提出的問題涉及到系統相應環節的確認修改,需要經過逐級提交、診斷、確認、處理和回覆等環節,處理解決需要專案組的分析確認,問題有解決方案後,將解決方案反饋給使用者。具體提交流程如下:

(1)問題提交。應用資訊系統的使用者發現屬於系統缺陷類的問題時,填寫系統缺陷類問題提交單,提交服務支援中心。

(2)問題分析。服務中心接到使用者提交的問題單,要組織相應人員對問題單中描述的問題進行分析研判,確定問題的型別(技術問題、業務問題或者操作問題)。屬於技術問題,提交服務中心技術人員對存在的問題提出具體的處理意見和建議;屬於業務問題,提交服務中心業務人員進行處理;屬於操作問題,可安排相關人員對問題提出人進行解釋,並將系統缺陷類問題提交單轉為系統諮詢類問題提交單。

(3)問題確認、解決。服務中心的技術人員和業務人員收到系統缺陷類問題提交單後,對提交的問題進行歸類彙總和分析、確認。可以解決的,明確問題解決的具體處理建議和措施,經主管領導簽字同意後,交實施人員進行解決方案的實施。服務人員確認是否解決,並將解決方法附在系統缺陷類問題提交單上反饋給問題提出人員。

(4)問題上報。服務人員收到經業務或技術人員確認的系統缺陷類問題提交單後,上報服務中心。

(5)問題回覆。服務中心根據提交問題的進行分析,制定解決方案並進行實施的解決,同時做好變更記錄。將解決方案彙總後及時向問題提交單位或問題交辦單位作出回覆,並將分析過程和問題產生原因一併提交。

  1.9應急服務響應措施

針對專案制定了詳盡的設計、應急處理預案,整個流程嚴謹而有序。但是,在服務維護過程中,意外情況將難以完全避免。

下面,我們將對專案實施的突發風險進行詳細分析,並且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。

1.應急基本流程

維護服務應急處理流程

2.預防措施

系統運維應急方案是對中斷或嚴重影響業務的故障,如宕機、資料丟失、業務中斷等,進行快速響應和處理,在最短時間內恢復業務系統,將損失降到最低。

在系統維護過程中,突發事件的出現將是很難完全避免的,針對這種情況,設計了完善的突發事件應急策略。

系統巡檢人員要定期規範檢查各硬體裝置的運轉情況和應用軟體執行情況,同時做好日常的資料增量備份和定期全備份。

對發現的問題在報各級負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決後,要形成問題彙報,避免以後類似重大緊急情況的發生。

對發現的問題在報負責人的同時,要協調相關資源分析問題根源,確定解決方案和臨時解決措施,避免造成更大的影響。問題得到穩定或徹底解決後,要形成問題彙報,避免以後類似重大緊急情況的發生。

當獲悉出現突發事件時,技術支援人員可以立即從知識庫中獲取相應的應急策略,並綜合使用者方的具體情況,給出相關解決方案,然後在第一時間以電話、郵件支援或現場服務的方式幫助使用者解決問題,盡最大努力減小突發事件對使用者日常應用的影響。

熱門標籤