日韩久久久精品,亚洲精品久久久久久久久久久,亚洲欧美一区二区三区国产精品 ,一区二区福利

WEKA介紹

系統(tǒng) 2315 0

WEKA( developed at the University of Waikato in New Zealand 新西蘭懷卡托大學(xué)) http://www.cs.waikato.ac.nz/~ml/weka/index.html

與此開源項(xiàng)目對(duì)應(yīng)的書為《Data Mining Practical Machine Learning Tools and Techniques Second Edition 》,該書下載地址 http://www.itpub.net/showthread.php?s=&threadid=731436 ,另外本書已有中文版《數(shù)據(jù)挖掘,實(shí)用機(jī)器學(xué)習(xí)技術(shù)》。

如果想研究里面算法的具體實(shí)現(xiàn),可以用Eclipse調(diào)試。見(jiàn) http://weka.sourceforge.net/wiki/index.php/Eclipse_3.0.x

Weka 3: Data Mining Software in Java

Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data pre-processing, classification, regression, clustering, association rules, and visualization. It is also well-suited for developing new machine learning schemes.

Weka 3:開源的數(shù)據(jù)挖掘軟件(Java)

Weka 是實(shí)施數(shù)據(jù)挖掘任務(wù)所需的各種機(jī)器學(xué)習(xí)算法的合集。這些算法既可以直接應(yīng)用到某數(shù)據(jù)集上,也可以在你自己設(shè)計(jì)的Java程序調(diào)用它們。Weka 包含了下列工具:數(shù)據(jù)預(yù)處理,分類,回歸,聚類,關(guān)聯(lián)規(guī)則,以及可視化。另外也可以在Weka 的基礎(chǔ)上開發(fā)新的機(jī)器學(xué)習(xí)。

Weka主要致力于classifier and filter algorithms。

以下轉(zhuǎn)載自 http://blog.donews.com/carouter/archive/2005/07/11/462134.aspx

數(shù)據(jù)挖掘終于可以和煩人的代碼們說(shuō)再見(jiàn)了! Weka,一個(gè)不足兩歲的新生兒,讓數(shù)據(jù)挖掘輕松易行,無(wú)需編程也能輕松搞定。

?? Weka是基于java,用于數(shù)據(jù)挖掘和知識(shí)分析一個(gè)平臺(tái)。來(lái)自世界各地的java愛(ài)好者們都可以把自己的算法放在這個(gè)平臺(tái)上,然后從海量數(shù)據(jù)中發(fā)掘其背后隱藏的種種關(guān)系;也許你只是出于對(duì)數(shù)據(jù)的狂熱愛(ài)好,但也許你的發(fā)現(xiàn)會(huì)蘊(yùn)含著無(wú)限的商機(jī)。

? 打開Weka,首先出現(xiàn)一個(gè)命令行窗口。原以為要在這個(gè)命令行下寫java語(yǔ)句呢,不過(guò)稍等一秒,Weka GUIChooser的出現(xiàn)了。這是一個(gè)很簡(jiǎn)單的窗體,提供四個(gè)按鈕:SimpleCLI、Explorer、Experimenter、 KnowledgeFlow。SimpleCLI應(yīng)該是一個(gè)使用命令行的界面,有點(diǎn)像SAS的編輯器;Explorer是則是視窗模式下的數(shù)據(jù)挖掘工 具;Experimenter和KnowledgeFlow的使用有待進(jìn)一步摸索....

?? 先打開WekaExlporer感受一下它的強(qiáng)大吧。它有六個(gè)標(biāo)簽頁(yè),分別是Preprocess、Classify、Cluster、 Associate、Selectattributes、Visualize。在Preprocess中Open一個(gè)數(shù)據(jù)文件(Weka使用的數(shù)據(jù)文件 是.arff,其實(shí)是一個(gè)文本數(shù)據(jù)集,格式并不復(fù)雜,用notepad打開一看就明白了)。當(dāng)然也可以O(shè)pen URL或Open DB,不過(guò)我沒(méi)有check一下支持哪些DB。
打開數(shù)據(jù)文件后,可以使用Filter進(jìn)行一下過(guò)濾,相當(dāng)于“預(yù)處理的預(yù)處理”。Filter提供了許多算法來(lái)過(guò)濾數(shù)據(jù),比如filters/unsupervised/instance/normalize應(yīng)該是一個(gè)標(biāo)準(zhǔn)化的算法。當(dāng)然,也可以編寫你自己的算法!
這時(shí)窗體上已經(jīng)給出這個(gè)數(shù)據(jù)集的一些基本特征了,比如有多少屬性,各屬性的一些簡(jiǎn)單統(tǒng)計(jì)量,右下方還給出一些可視化效果比如柱狀圖。通過(guò)這些可以初步了解這個(gè)數(shù)據(jù)集了。但這些都是很直觀的可以看出來(lái),好戲在后頭,隱藏的關(guān)系即將登場(chǎng)。

?? 接下來(lái)的兩個(gè)標(biāo)簽頁(yè)是classify(分類)和cluster(聚類),接觸數(shù)據(jù)挖掘的人對(duì)它們一定不會(huì)陌生。同樣Weka有許多分類和聚類算法可供選 擇,在這里面稱為clasifier和clusterer。不過(guò)Weka提供的classify功能似乎還不夠靈活,只能定長(zhǎng)度和定頻率地分類。但這個(gè)關(guān) 系不大,現(xiàn)在很多數(shù)據(jù)處理軟件都可以做到這個(gè),比如excel。Cluster功能強(qiáng)大,提供了許多巧妙的聚類算法,選定一個(gè)算法,給出你所需要生成的聚 類數(shù)目,就可以自動(dòng)完成。當(dāng)然如果能不給出聚類數(shù)目也能自動(dòng)聚類的話就更佳了,不過(guò)我還沒(méi)發(fā)現(xiàn)怎么做。

??? Next,終于到偉大的Associate了! 這是一個(gè)用于發(fā)掘AssociateRules(關(guān)聯(lián)規(guī)則)的模塊。對(duì)商學(xué)略有涉獵的人一定熟知沃爾瑪發(fā)現(xiàn)了啤酒和尿布銷售的關(guān)系這一佳話。有了 WekaAssociate,任何一家超市都可以做到這一點(diǎn)了。將前面導(dǎo)入的數(shù)據(jù)使用Associator進(jìn)行發(fā)掘,就可以發(fā)現(xiàn)其中無(wú)數(shù)隱藏的關(guān)系。 Weka-3-4提供了Apriori、PredictiveApriori、Tertius三種關(guān)聯(lián)規(guī)則發(fā)掘算法,不過(guò)我感覺(jué)這已經(jīng)夠用了。選定一個(gè)算 法,進(jìn)行一些必要的設(shè)置,包括支持度上界、下界,每次運(yùn)算的支持度遞減值,等等。另外一個(gè)重要的參數(shù):所需要生成的關(guān)聯(lián)規(guī)則個(gè)數(shù)。太不可思議了,以前我們 能從海量數(shù)據(jù)中發(fā)現(xiàn)一個(gè)關(guān)聯(lián)規(guī)則就已經(jīng)沾沾自喜,現(xiàn)在Weka居然問(wèn)你想生成多少關(guān)聯(lián)規(guī)則!
參數(shù)設(shè)置完成,點(diǎn)Start,就可以去喝茶了。不一會(huì),10條關(guān)聯(lián)規(guī)則已經(jīng)生成,可以提交給老板了。當(dāng)然,你還可以分析一下哪些規(guī)則比較有用,哪一條有潛在收益,這就需要business sense了。

??? 另外兩個(gè)標(biāo)簽頁(yè)還沒(méi)怎么看。Selectattributes大概是針對(duì)單屬性的分析?Visualize則提供了許多可視化效果,需要拿出去演示時(shí)很方便。不過(guò)今天使用感覺(jué)這個(gè)模塊的功能有點(diǎn)問(wèn)題,沒(méi)太搞懂。也有可能是我用錯(cuò)了。

?? Weka實(shí)在是一個(gè)偉大的工具?;趈ava,卻沒(méi)有運(yùn)行其它java程序那種慢吞吞的感覺(jué)。前天我還在說(shuō)Data Mining isexcruciating but interesting,有了Weka,Data Mining也可以輕輕松松了!

WEKA介紹


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦?。?!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論
主站蜘蛛池模板: 清流县| 济源市| 张家界市| 玛纳斯县| 万年县| 祁门县| 济源市| 辛集市| 东乌珠穆沁旗| 襄汾县| 鄢陵县| 宜丰县| 抚顺市| 基隆市| 宁远县| 栾城县| 鹤岗市| 临泉县| 当阳市| 屯门区| 武宣县| 香港 | 贞丰县| 申扎县| 西平县| 泽库县| 灵石县| 霍州市| 迭部县| 盐源县| 类乌齐县| 南宁市| 洪江市| 石景山区| 故城县| 玉田县| 利辛县| 汝州市| 左权县| 郓城县| 彩票|