機器學(xué)習(xí)(Machine Learning)根據(jù)已知數(shù)據(jù)來不斷學(xué)習(xí)和積累經(jīng)驗,然后總結(jié)出規(guī)律并嘗試預(yù)測未知數(shù)據(jù)的屬性,是一門綜合性非常強的多領(lǐng)域交叉學(xué)科,涉及線性代數(shù)、概率論、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。
目前機器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用。
總體上說,機器學(xué)習(xí)算法和問題可以分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類。
在有監(jiān)督學(xué)習(xí)中,數(shù)據(jù)帶有額外的屬性(例如每個樣本所屬的類別),必須同時包含輸入和輸出(也就是特征和目標(biāo)),通過大量已知的數(shù)據(jù)不斷訓(xùn)練和減少錯誤來提高認(rèn)知能力,最后根據(jù)積累的經(jīng)驗去預(yù)測未知數(shù)據(jù)的屬性。分類和回歸屬于經(jīng)典的有監(jiān)督學(xué)習(xí)算法。在分類算法中,樣本屬于兩個或多個離散的類別之一,我們根據(jù)已貼標(biāo)簽的樣本來學(xué)習(xí)如何預(yù)測未貼標(biāo)簽樣本所屬的類別。如果預(yù)期的輸出是一個或多個連續(xù)變量,則分類問題變?yōu)榛貧w問題。
在無監(jiān)督學(xué)習(xí)算法中,訓(xùn)練數(shù)據(jù)包含一組輸入向量而沒有任何相應(yīng)的目標(biāo)值。這類算法的目標(biāo)可能是發(fā)現(xiàn)原始數(shù)據(jù)中相似樣本的組合(稱作聚類),或者確定數(shù)據(jù)的分布(稱作密度估計),或者把數(shù)據(jù)從高維空間投影到二維或三維空間(稱作降維)以便進行可視化。
一般地,不會把給定的整個數(shù)據(jù)集都用來訓(xùn)練模型,而是將其分成訓(xùn)練集和測試集兩部分,模型使用訓(xùn)練集進行訓(xùn)練(或?qū)W習(xí)),然后把測試集輸入訓(xùn)練好的模型并評估其表現(xiàn)。另外,大多數(shù)模型都有若干參數(shù)可以設(shè)置,例如支持向量機模型的gamma參數(shù),這些參數(shù)可以手動設(shè)置,也可以使用網(wǎng)格搜索(grid search)和交叉驗證(cross validation)尋找合適的值。
接下來,我們一起了解一下機器學(xué)習(xí)中常見的幾個概念。
閱讀原文
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
