全面解析基于空間數據庫的數據挖掘技術[1]
作者:林夢 來源:賽迪網
隨著GIS技術在各個行業的應用以及數據挖掘、空間數據采集技術、數據庫技術的迅速發展,對從空間數據庫發現隱含知識的需求日益增長,從而出現了用于在空間數據庫中進行知識發現的技術——空間數據挖掘(Spatial Data Mining,本文簡稱為SDM)?臻g數據挖掘是從空間數據庫中提取隱含的、用戶感興趣的空間和非空間模式和普遍特征的過程。
本文分析了空間數據庫知識發現面臨的困難,研究了擴展傳統數據挖掘方法如分類、關聯規則、聚類等到空間數據庫的方法,并對空間數據庫系統實現技術及空間數據挖掘系統開發模式等進行了比較分析。
1 空間數據庫知識發現面臨的困難
從空間數據庫發現知識的傳統途徑是通過專家系統、數據挖掘、空間分析等技術來實現的。但是在空間數據庫隱含知識的發現方面,只單獨依*某一種技術,往往存在著這樣或那樣的缺陷。對于專家系統來講,專家系統不具備自動學習的能力,GIS中的專家系統也達不到真正的智能系統的要求,僅能利用已有的知識進行推導。對于數據挖掘來講,空間數據庫與普通數據庫的在數據存儲機制的不同和空間數據的相互依賴性等特點決定了在空間數據庫無法直接采用傳統的數據挖掘方法。對于空間分析來講,雖然空間分析中常用的統計方法可以很好地處理數字型數據,但是它存在的問題很多,如統計方法通常假設空間分布的數據間是統計上獨立的,而現實中空間對象間一般是相互關聯的;其次,統計模型一般只有具有相當豐富領域知識和統計方面經驗的統計專家才能用;另外,統計方法對大規模數據庫的計算代價非常高,所以在處理海量數據方面能力較低。
從上面的分析可以看出,由于空間數據具有諸多特點,因此在空間數據庫進行知識發現,需要克服使用單一技術的缺陷,即需要融合多種不同技術。所以研究人員提出了空間數據挖掘技術來解決從空間數據庫知識發現隱含知識的難題。
空間數據挖掘是多學科和多種技術交*綜合的新領域,它綜合了機器學習、空間數據庫系統、專家系統、可移動計算、統計、遙感、基于知識的系統、可視化等領域的有關技術。
空間數據挖掘利用空間數據結構、空間推理、計算幾何學等技術,把傳統的數據挖掘技術擴充到空間數據庫并提出很多新的有效的空間數據挖掘方法。與傳統空間分析方法相比,它在實現效率、與數據庫系統的結合、與用戶的交互、發現新類型的知識等方面的能力大大增強?臻g數據挖掘能與GIS的結合,使GIS系統具有自動學習的功能,能自動獲取知識,從而成為真正的智能空間信息系統。
2 擴展傳統數據挖掘方法到空間數據庫
空間數據挖掘技術按功能劃分可分為三類:描述、解釋、預測。描述性的模型將空間現象的分布特征化,如空間聚類。解釋性的模型用于處理空間關系,如處理一個空間對象和影響其空間分布的因素之間的關系。預測型的模型用來根據給定的一些屬性預測某些屬性。預測型的模型包括分類、回歸等。以下介紹將幾個典型的數據挖掘技術聚類、分類、關聯規則擴展到空間數據庫的方法。
聚類分析方法按一定的距離或相似性測度將數據分成一系列相互區分的組,而空間數據聚類是按照某種距離度量準則,在某個大型、多維數據集中標識出聚類或稠密分布的區域,從而發現數據集的整個空間分布模式。經典統計學中的聚類分析方法對海量數據效率很低,而數據挖掘中的聚類方法可以大大提高聚類效率。文獻[1]中提出兩個基于CLARANS聚類算法空間數據挖掘算法SD和ND,可以分別用來發現空間聚類中的非空間特征和具有相同非空間特征的空間聚類。SD算法首先用CLARANS算法進行空間聚類,然后用面向屬性歸納法尋找每個聚類中對象的高層非空間描述;ND算法則反之。文獻[4]中提出一種將傳統分類算法ID3決策樹算法擴展到空間數據庫的方法,該算法給出了計算鄰近對象非空間屬性的聚合值的方法,并且通過對空間謂詞進行相關性分析和采用一種逐漸求精的策略使得計算時間復雜度大大降低。Koperski等[4]將大型事務數據庫的關聯規則概念擴展到空間數據庫,用以找出空間對象的關聯規則。此方法采用一種逐漸求精的方法計算空間謂詞,首先在一個較大的數據集上用MBR最小邊界矩形結構技術對粗略的空間謂詞進行近似空間運算,然后在裁剪過的數據集上用代價較高的算法進一步改進挖掘的質量。
文章來源于領測軟件測試網 http://www.anti-gravitydesign.com/