最近,大數據、預測分析和云計算這些術語似乎無處不在:
顧名思義,大數據是指從不同來源以不同格式捕獲的大量的數據。數據源可能包括人或傳感器數據,該數據可以是結構化或非結構化的。例如,由人生成的事務數據是結構化的;Tweet 提要則是非結構化的。有關大數據的大問題是,“如何從中提取洞察力和價值”,以及 “如何更有效地提取這些洞察力”。這兩個問題的答案涉及到高級分析。
分析是一個廣義的術語,指的是描述性的分析以及預測分析。前者讓您知道在過去發生了什么事,后者則告訴您接下來會發生什么事。預測分析采用描述性分析作為墊腳石,以更加精確和一致的方式制定決策。預測分析技術能夠從歷史數據了解相關模式,并利用這些知識來預測行為。他們通過將數據與巧妙的數學相結合來實現這一點。
然而,數據和數學并不是完整的答案;您還需要準備好一個基礎架構,它能夠處理數據和復雜的算法。在過去,預測解決方案被綁定到非常具體的問題,并且范圍有限,主要原因是沒有具成本效益的處理能力?,F在不一樣了。云計算已經把這個方程式倒過來,它以低成本提供了幾乎無限的能力。
在其核心,云計算是一組通過 Internet 提供計算資源的服務。大型數據中心將可擴展的、通常是虛擬化的按需資源作為服務提供,消除了在特定的硬件、軟件,或對自己的數據中心基礎架構進行投資的需要。
云計算支持多種服務,包括存儲容量、處理能力和業務應用程序。在云上訪問服務并不是一個新概念,但只是在最近才能作為一個安全和可靠的基礎架構提供。 IBM® SmartCloud Enterprise 是一個通用云基礎架構的主要示例。由 IBM 技術支持,它通過遍布世界各地的幾個數據中心在云中提供了動態的計算能力。
本文介紹了預測分析的基礎知識,如數據挖掘模型的常用語言 PMML 及其組件。然后,本文向您介紹一個真實的 PMML 引擎,并討論它如何部署和執行預測解決方案。最后,看看一個在 IBM SmartCloud Enterprise 上如何使用引擎的示例。
預測解決方案和 PMML
當預測分析技術以解決某個具體問題為目標時,其結果將是一個預測模型。預測解決方案不僅包括模型本身,還包括所有數據轉換,數據轉換是為了讓數據可供模型消費。
數據預處理用于處理在原始數據中的任何缺陷,如缺失值和異常值。然而,其最終目標是增強原始輸入字段的預測能力,并將它們轉化為特性。
數據也接受了預處理,使其適合 “培訓”(通過經驗進行優化)。以神經網絡為例,這是一個典型的預測分析技術,它將只接受數值輸入。在這種情況下,類別字段在被提交到網絡之前將需要被轉換為連續字段。
預測解決方案通常構建在模型開發環境中。例子有 IBM SPSS Modeler 和 Statistics 或面向統計計算的開源 R 編程語言和軟件環境。這些環境提供了很大的靈活性,使數據科學家進行分析和并修改歷史數據,以培訓一個預測模型。
完成構建和驗證后,預測解決方案就可以輕松導出到 PMML (Predictive Model Markup Language),進行模型部署。PMML 是用來表示預測分析解決方案的事實標準。利用 PMML,模型部署是一件輕而易舉的事情,因為不必自定義編碼就可以將解決方案從科學家的桌面遷移到它將投入使用的部署環境。
PMML 是 Data Mining Group 的心血結晶,Data Mining Group 是由商業和開源分析公司組成的供應商主導的委員會。因此,大多數頂級模型開發環境都可以導出 PMML。PMML 在過去 10 多年來已發展為一個成熟精煉的標準,PMML 不僅可以表示用于從數據學習模式的預測技術,還可以表示原始輸入數據的預處理以及模型輸出的后處理。
PMML 基于 XML(它是人類和機器都可讀的)。PMML 文件的結構反映了它所實施的預測解決方案(參見圖 1)。
圖 1. 單個 PMML 文件包含可以反映它所實施的預測解決方案的若干個元素
不同的語言元素負責描述:
原始輸入數據。
對異常值、缺失值和無效值的適當處理
模型輸入的預處理,包括正?;?、映射、離散化,以及大量邏輯和算術操作的函數。
表示預測技術的特定模型元素。
模型輸出的后處理,包括擴展和業務決策。
PMML 也以能夠使用單個語言元素表示多個模型而著稱。這樣,單個 PMML 文件可以包含模型的集成、細分、鏈或成分。
IBM SPSS Modeler 和 IBM SPSS Statistics 讓無數模型可以導出為 PMML。這些環境將輸出數據轉換為 PMML 的能力也非常突出。例如,SPSS Statistics 支持自動數據增加,這可以被導出為一串 PMML 派生的字段。另一方面,R 以支持用戶導出 PMML 模型集成而著稱。例如,用戶可以用 R 建立一個隨機林模型,并導出其數百棵樹到 PMML,然后就可以很容易地將它遷移到部署環境,并在幾分鐘內投入工作。
即使解決方案不是最終版本,將它保存為一個 PMML 文件也是很好的實踐。這使得數據科學家可以將在達成最終解決方案之前的所有嘗試保存為 PMML 記錄。然后,數據分析團隊可以使用該記錄決定參數和實踐的最佳選擇。
如需增加有關 PMML 的知識,請閱讀本文作者有關 PMML 標準的文章 What is PMML? 請參閱 參考資料。
現在,讓我們來看看真實的示例。
回頁首
示例:ADAPA 決策引擎
Zementis Inc. 提供了一個基于 PMML 的預測分析決策管理平臺,其名稱為 ADAPA。它能夠使用以 PMML 表達的預測解決方案,并實時執行它們。由于 ADAPA 側重于運營端,它使 IT 資源從使用自定義編碼預測解決方案適應運營環境的負擔中釋放出來。它還使數據科學家有機會自己部署預測解決方案。
ADAPA Decision Engine 是一個很好的部署平臺示例。在這方面,它擁有兩個重要特性:
這是一個通用的 PMML 消費者,因為它不僅接受由任何 PMML 兼容的應用程序所生成的 PMML 文件,也接受舊版標準中所指定的 PMML 文件。
原文轉自:http://www.anti-gravitydesign.com