創(chuàng)建維持測試集
現(xiàn)在創(chuàng)建挖掘結構時,可以將挖掘結構中的數(shù)據(jù)劃分為定型集和測試集。分區(qū)的定義與結構存儲在一起,以便可以在基于該結構的任何挖掘模型中重用定型集和測試集。
數(shù)據(jù)在定型分區(qū)和測試分區(qū)之間隨機劃分,但是如果需要重新創(chuàng)建分區(qū),也可以指定用于創(chuàng)建分區(qū)的種子。
可以按照總行數(shù)的百分比或最大行數(shù),或者結合這兩項要求來指定測試集的大小。有關如何使用定型數(shù)據(jù)集和測試數(shù)據(jù)集的詳細信息,請參閱將數(shù)據(jù)分區(qū)為定型集和測試集(Analysis Services - 數(shù)據(jù)挖掘)。
有關 SQL Server 2008 中的所有模型驗證功能的詳細信息,請參閱驗證數(shù)據(jù)挖掘模型(Analysis Services – 數(shù)據(jù)挖掘)。
篩選模型事例
現(xiàn)在,可以將篩選器附加到挖掘模型,并在定型和測試期間應用篩選器。對模型應用篩選器,可以控制用于給模型定型的數(shù)據(jù),也更容易評估出模型對數(shù)據(jù)子集的準確情況。
例如,您可能想要知道目標郵件模型對于某種收入水平的客戶的準確性。您可以在創(chuàng)建提升圖時對挖掘模型的 Income 列應用篩選器,并僅查看該人口統(tǒng)計的結果。
Business Intelligence Development Studio 還提供了新的篩選器編輯器,可幫助您生成適用于事例表和嵌套表的復雜條件。
有關如何創(chuàng)建挖掘模型篩選器的詳細信息,請參閱為挖掘模型創(chuàng)建篩選器(Analysis Services – 數(shù)據(jù)挖掘)。
有關為挖掘模型測試篩選數(shù)據(jù)的信息,請參閱模型準確性圖表工具(Analysis Services - 數(shù)據(jù)挖掘)。
多個挖掘模型的交叉驗證
交叉驗證是用于評估數(shù)據(jù)挖掘模型的準確性的既定方法。在交叉驗證中,可反復將挖掘結構數(shù)據(jù)分為多個子集,生成子集的模型,然后衡量每個分區(qū)的模型的準確性。通過查看返回的統(tǒng)計信息,可以確定挖掘模型的可靠程度,并且可以更容易地對比基于相同結構的模型。
數(shù)據(jù)挖掘設計器的“挖掘準確性圖表”視圖中可以使用交叉驗證。您也可以使用 Analysis Services 存儲過程對挖掘結構分區(qū),測試多個挖掘模型,以及生成分析。
若要在 SQL Server 2008 中生成交叉驗證報表,請指定挖掘結構和可預測屬性,然后指定用于分割事例數(shù)據(jù)的折疊數(shù)。
Analysis Services 將返回一個表,報告各個分區(qū)的可能性或均方根誤差,以及聚合模型的所有度量值的平均偏差和標準偏差等統(tǒng)計信息。有關詳細信息,請參閱交叉驗證(Analysis Services – 數(shù)據(jù)挖掘)。
支持 Office 2007 數(shù)據(jù)挖掘外接程序
使用 SQL Server 2008 Office 2007 數(shù)據(jù)挖掘外接程序時,SQL Server 2008 支持從 Microsoft Excel 創(chuàng)建、管理和使用數(shù)據(jù)挖掘模型。通過增加對服務器端定型和測試分區(qū)、交叉驗證和幾個新的分析工具(例如購物籃分析和可打印預測計算器)的支持,此最新版本的受歡迎的免費外接程序已得到增強。
還可以使用文檔模型向導輕松為存儲在 SQL Server 2008 實例中的結構和模型創(chuàng)建文檔。有關外接程序的詳細信息,請參閱 Data Mining Add-ins for Office 2007(Office 2007 數(shù)據(jù)挖掘外接程序)。
Microsoft 時序算法的增強功能
為了改進時序模型中某些預測的準確性和穩(wěn)定性,在 Microsoft 時序算法中增加了一種新的算法。該新算法基于熟知的 ARIMA 算法,它比 Analysis Services 一直使用的 ARTxp 算法可提供更佳的長期預測。(ARTxp 是自動回歸樹算法,針對單個時間段預測或短期預測進行了優(yōu)化。)
默認情況下,Microsoft 時序算法的新實現(xiàn)使用 ARTxp 算法來定型一種版本的模型,使用 ARIMA 算法來定型另一種版本。然后,該算法將權衡這兩種模型的結果,以便提供您希望的預測特征。如果不想使用此默認實現(xiàn),可以指定 Microsoft 時序算法僅使用 ARTxp 或 ARIMA 算法。在 SQL Server 2008 Enterprise 中,可以指定算法的自定義加權,以便提供對可變時間范圍的最佳預測。
現(xiàn)在,Microsoft 時序算法還可在預測期間接受數(shù)據(jù)以啟用新的業(yè)務方案。例如,可以創(chuàng)建基于平均叉積、區(qū)域聚合或其他某種大數(shù)據(jù)集的收入預測模型。然后,將該模型應用于顯示各種產(chǎn)品銷售額的時序。通過應用常規(guī)模型,可以利用聚合數(shù)據(jù)的穩(wěn)定性和可用性,并自定義對各種產(chǎn)品的預測。
也可以使用多個時序定型數(shù)據(jù),然后對新數(shù)據(jù)應用該模型以預測“假設”情況。
有關時序挖掘模型的詳細信息,請參閱 Microsoft 時序算法(Analysis Services – 數(shù)據(jù)挖掘)和 PredictTimeSeries (DMX)。
鉆取到結構事例和結構列
在 SQL Server 2008 中,如果對挖掘結構啟用鉆取,則可以查詢挖掘結構并返回有關用于定型和測試的事例的詳細信息�?梢允褂脭�(shù)據(jù)挖掘擴展插件 (DMX) 創(chuàng)建對結構的鉆取查詢。
而且,如果對挖掘模型和相關的挖掘結構啟用鉆取,則可以創(chuàng)建用于在基礎挖掘結構中檢索數(shù)據(jù)列的查詢。如果想要發(fā)現(xiàn)有關特定節(jié)點中的事例的詳細信息,此功能很有用。例如,可以在特定群集中檢索客戶的聯(lián)系信息。
有關詳細信息,請參閱針對挖掘模型和挖掘結構使用鉆�。ˋnalysis Services – 數(shù)據(jù)挖掘)。
有關挖掘結構的 DMX 查詢的示例,請參閱 SELECT FROM <結構>.CASES。
有關從模型到結構數(shù)據(jù)的鉆取的示例,請參閱 SELECT FROM <模型>.CASES (DMX)。
對挖掘模型列使用別名
現(xiàn)在,可以為挖掘模型中的列添加別名,以便于理解列內容和在 DMX 語句中引用列。
例如,如果生成的挖掘結構包含同一數(shù)據(jù)的連續(xù)版本和離散化版本,則可以為這兩列指定相同的名稱,以便于比較。
有關如何管理和查看別名的詳細信息,請參閱設置挖掘模型的屬性或如何為模型列創(chuàng)建別名。
有關如何使用 DMX 創(chuàng)建列別名的信息,請參閱 ALTER MINING STRUCTURE (DMX)。
查詢數(shù)據(jù)挖掘架構行集
在 SQL Server 2008 中,許多現(xiàn)有 OLE DB 數(shù)據(jù)挖掘架構行集已作為可以使用 DMX 語句輕松查詢的一組系統(tǒng)表公開。從而更加易于檢索與模型和結構相關的元數(shù)據(jù)、從挖掘模型內容提取詳細信息,或者監(jiān)視 Analysis Services 實例或服務。
有關詳細信息,請參閱查詢數(shù)據(jù)挖掘架構行集(Analysis Services - 數(shù)據(jù)挖掘)。
新示例位置
聯(lián)機叢書不再提供 SQL Server 示例數(shù)據(jù)庫和示例應用程序。這些示例數(shù)據(jù)庫和示例應用程序現(xiàn)在位于 SQL Server Samples(SQL Server 示例)網(wǎng)站上。該網(wǎng)站便于用戶查找這些示例,還提供了與 Microsoft SQL Server 和商業(yè)智能相關的其他新示例。在 SQL Server 示例網(wǎng)站上,您可以執(zhí)行下列操作:
-瀏覽由開發(fā)人員、用戶和 Microsoft 最有價值專家 (MVP) 社區(qū)提供的示例。
-下載示例數(shù)據(jù)庫和代碼項目。
-查看或參與討論區(qū),您可以在討論區(qū)報告和詢問與各技術領域的示例相關的問題。
與 SQL Server 2005 Analysis Services 并行安裝
SQL Server 2008 Analysis Services 現(xiàn)在可與 SQL Server 2005 Analysis Services (SSAS) 并行安裝。有關詳細信息,請參閱使用 SQL Server 的多個版本和實例。
對于影響 Analysis Services 的重要的并行安裝問題,請參閱本版本所附的自述文件。
備份和還原 Analysis Services 數(shù)據(jù)庫
備份和還原 Analysis Services 數(shù)據(jù)庫的功能已得到增強。減少了對數(shù)據(jù)庫大小的限制,備份和還原操作需要的時間已大大降低。
有關詳細信息,請參閱新增功能(Analysis Services - 多維數(shù)據(jù)庫)。
Analysis Services 的其他增強功能
如果使用 Analysis Services 來創(chuàng)建也用于數(shù)據(jù)挖掘的 OLAP 多維數(shù)據(jù)集,您可能會發(fā)現(xiàn)可以更容易地設計維度及其相關的層次結構和屬性。維度設計器中提供了新的屬性關系設計器,可幫助您設計屬性關系,并確保屬性關系遵循最佳實踐。