數(shù)據(jù)庫如何進(jìn)行監(jiān)控?
數(shù)據(jù)庫監(jiān)控要做到“知生死、明優(yōu)劣、防問題”。

在實(shí)現(xiàn)的過程中要知道監(jiān)控什么,知道如何獲取,知道如何評(píng)判,知道問題原因和解決及避免方法。還要搞清楚監(jiān)控行為對(duì)生產(chǎn)系統(tǒng)的影響,不能因?yàn)楸O(jiān)控導(dǎo)致新問題的產(chǎn)生。
“知生死”是最基本的要求,方法有多種,從判斷數(shù)據(jù)庫服務(wù)進(jìn)程是否存在,通過連接測試判斷能否對(duì)外服務(wù),通過簡單增、刪、改測試數(shù)據(jù)庫能否支持交易,到獲取數(shù)據(jù)庫完成交易的成功失敗率判斷能否正常提供服務(wù),也可從應(yīng)用服務(wù)器端獲取指標(biāo)判斷數(shù)據(jù)庫的生死,甚至通過網(wǎng)絡(luò)包的監(jiān)控實(shí)現(xiàn)。
“明優(yōu)劣”首先要清楚判斷優(yōu)劣的標(biāo)準(zhǔn),數(shù)據(jù)庫中任何一個(gè)動(dòng)作都是要消耗資源的,消耗資源就是在一定時(shí)間內(nèi)占用某類資源,多占、占用時(shí)間不合理的即為劣的。然后明晰要收集的相關(guān)指標(biāo),確定指標(biāo)的正常范圍,設(shè)定不同級(jí)別的告警閥值,這些指標(biāo)通常可以通過數(shù)據(jù)庫快照、監(jiān)控視圖、表函數(shù)等獲取,獲取時(shí)間間隔要根據(jù)獲取動(dòng)作對(duì)系統(tǒng)的影響以及系統(tǒng)的承受能力而定。有些指標(biāo)會(huì)隨數(shù)據(jù)量及工作時(shí)段發(fā)生變化,需要從歷史監(jiān)控?cái)?shù)據(jù)中建立運(yùn)行基線,實(shí)時(shí)監(jiān)控參照基線,可發(fā)現(xiàn)突發(fā)事件。
“防問題”一般來說,到通過監(jiān)控發(fā)現(xiàn)問題,已經(jīng)晚了,但這次在這個(gè)系統(tǒng)發(fā)現(xiàn)的問題,可作為經(jīng)驗(yàn)教訓(xùn),通過項(xiàng)目前期更好的架構(gòu)設(shè)計(jì)、更合理的編碼實(shí)現(xiàn),避免同類問題出現(xiàn)在以后的生產(chǎn)系統(tǒng)中。
數(shù)據(jù)庫在大規(guī)模并行應(yīng)用環(huán)境中常見的問題主要有:
熱點(diǎn)問題,比如熱點(diǎn)記錄、熱點(diǎn)數(shù)據(jù)頁面、熱點(diǎn)索引頁面、存儲(chǔ)熱點(diǎn)等;
資源上限問題,表空間滿、鎖資源滿、操作系統(tǒng)資源將滿等;
性能隨時(shí)間、空間變化,衰減甚至突變問題
針對(duì)每種問題,我們需要了解觸發(fā)問題的條件,知道如何解決。
詳情請(qǐng)咨詢!
客服熱線:023-66090381