數(shù)據(jù)挖掘流行學(xué)習(xí)工具weka的中文版入門教程,Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費(fèi)的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine )的,基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)(machine learning)以及數(shù)據(jù)挖掘(data minining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是New Zealand獨(dú)有的一種鳥名,而Weka的主要開發(fā)者同時(shí)恰好來自New Zealand的the University of Waikato。
啟動WEKA:
WEKA中新的菜單驅(qū)動的GUI 繼承了老的GUI 選擇器(類weka.gui.GUIChooser)的功能。它的MDI(“多文檔界面”)外觀,讓所有打開的窗口更加明了。
這個(gè)菜單包括六個(gè)部分。
1. Program
LogWindow 打開一個(gè)日志窗口,記錄輸出到stdout 或 stderr 的內(nèi)容。在MS Windows 那樣的環(huán)境中,WEKA 不是從一個(gè)終端啟動,這個(gè)就比較有用。
Exit 關(guān)閉WEKA。
2. Applications 列出WEKA 中主要的應(yīng)用程序。
Explorer 使用WEKA 探索數(shù)據(jù)的環(huán)境。(本文檔的其它部分將詳細(xì)介紹這個(gè)環(huán)境)
Experimenter 運(yùn)行算法試驗(yàn)、管理算法方案之間的統(tǒng)計(jì)檢驗(yàn)的環(huán)境。
KnowledgeFlow 這個(gè)環(huán)境本質(zhì)上和Explorer 所支持的功能是一樣的,但是它有一個(gè)可以拖放的界面。它有一個(gè)優(yōu)勢,就是支持增量學(xué)習(xí)(incremental learning)。
SimpleCLI 提供了一個(gè)簡單的命令行界面,從而可以在沒有自帶命令行的操作系統(tǒng)中直接執(zhí)行WEKA 命令。
3. Tools 其他有用的應(yīng)用程序。
ArffViewer 一個(gè)MDI 應(yīng)用程序,使用電子表格的形式來查看ARFF 文件。
SqlViewer 一個(gè)SQL 工作表,用來通過JDBC 查詢數(shù)據(jù)庫。
EnsembleLibrary 生成集成式選擇(Ensemble Selection)[5] 所需設(shè)置的界面。
4. Visualization WEKA 中數(shù)據(jù)可視化的方法。
Plot 作出數(shù)據(jù)集的二維散點(diǎn)圖。
ROC 顯示預(yù)先保存的ROC 曲線。
TreeVisualizer 顯示一個(gè)有向圖,例如一個(gè)決策樹。
GraphVisualizer 顯示XML、BIF 或DOT 格式的圖片,例如貝葉斯網(wǎng)絡(luò)(Bayesian network)。
BoundaryVisualizer 允許在二維空間中對分類器的決策邊界進(jìn)行可視化。
5. Windows 所有已打開的窗口都列在這里。
Minimize 最小化所有當(dāng)前的窗口。
Restore 還原所有最小化過的窗口。
6. Help WEKA 的在線資源可以從這里找到。
Weka homepage 打開一個(gè)瀏覽器窗口,顯示W(wǎng)EKA 的主頁。
Online documentation 鏈接到WekaDoc 維基文檔[4]。
HOWTOs, code snippets, etc. 通用的WekaWiki [3],包括大量的例子,
以及開發(fā)和使用WEKA 的基本知識(HOWTO)。
Weka on Sourceforge WEKA 項(xiàng)目在Sourceforge.net 的主頁。
SystemInfo 列出一些關(guān)于Java/WEKA 環(huán)境的信息,例如CLASSPATH。
About 不光彩的“About”窗口。
如果從終端啟動WEKA,會有一些文字在終端窗口中出現(xiàn)。這些文字是可以忽略的,除非某些東西出錯(cuò)了——這時(shí)它可以幫助找到錯(cuò)誤的原因。(LogWindow 也可以顯示那些信息。)
目錄:
1 啟動WEKA..3
2 WEKA Explorer...5
2.1 標(biāo)簽頁.5
2.2 狀態(tài)欄.5
2.3 Log 按鈕.5
2.4 WEKA 狀態(tài)圖標(biāo)...5
3 預(yù)處理..6
3.1 載入數(shù)據(jù).6
3.2 當(dāng)前關(guān)系.6
3.3 處理屬性.7
3.4 使用篩選器.7
4 分類10
4.1 選擇分類器...10
4.2 測試選項(xiàng)...10
4.3 Class屬性..11
4.4 訓(xùn)練分類器...11
4.5 分類器輸出文本...11
4.6 結(jié)果列表...12
5 聚類13
5.1 選擇聚類器(Clusterer).13
5.2 聚類模式...13
5.3 忽略屬性...13
5.4 學(xué)習(xí)聚類...14
6 關(guān)聯(lián)規(guī)則15
6.1 設(shè)定...15
6.2 學(xué)習(xí)關(guān)聯(lián)規(guī)則...15
7 屬性選擇16
7.1 搜索與評估...16
7.2 選項(xiàng)...16
7.3 執(zhí)行選擇...16
8 可視化18
8.1 散點(diǎn)圖矩陣...18
8.2 選擇單獨(dú)的二維散點(diǎn)圖...18
8.3 選擇實(shí)例...19
參考文獻(xiàn)..