Python數(shù)據(jù)科學(xué)入門
Dmitry Zinoviev著
熊子源 譯
第10章 機(jī)器學(xué)習(xí)
監(jiān)督學(xué)習(xí) | 嘗試從具有標(biāo)記的訓(xùn)練數(shù)據(jù)集中推斷出預(yù)測函數(shù),其中訓(xùn)練數(shù)據(jù)集中的每一個樣本屬于哪類都是已知的。(線性回歸、邏輯回歸、隨機(jī)決策森林、樸素貝葉斯分類、支持向量機(jī)、線性判別分析、神經(jīng)網(wǎng)絡(luò)) |
---|---|
無監(jiān)督學(xué)習(xí) | 嘗試在沒有標(biāo)記的數(shù)據(jù)中找出隱藏的結(jié)構(gòu)。(K均值、社區(qū)檢測、分層聚類、主成分分析) |
第48單元 設(shè)計(jì)預(yù)測試驗(yàn)
完成模型的建立、評估和驗(yàn)證有一下四個步驟:
- 將輸入數(shù)據(jù)分成訓(xùn)練集和測試集(一般占比為7:3);
- 僅使用訓(xùn)練集構(gòu)建數(shù)據(jù)模型;
- 將新模型應(yīng)用于測試集;
- 評估模型質(zhì)量(通過多方面的評價指標(biāo)來評估,比如準(zhǔn)確度等)。
模型評價指標(biāo)可有四個方面:準(zhǔn)確度、精確度、靈敏度(召回率)和特異性
TP | 模型正確地預(yù)測了屬性為存在的項(xiàng)目數(shù)(真陽) |
---|---|
TN | 模型正確地預(yù)測了屬性為不存在的項(xiàng)目數(shù)(真陰) |
FP | 模型錯誤地預(yù)測了屬性為存在的項(xiàng)目數(shù)(假陽) |
FN | 模型錯誤地預(yù)測了屬性為不存在的項(xiàng)目數(shù)(假陰) |
準(zhǔn)確度
是正確分類項(xiàng)目的比例:
精確度
是所有陽性分類中真陽所占的比例:
**靈敏度(召回率)**是在所有陽真實(shí)值中真陽所占的比例:
特異性
是在所有陰真實(shí)值中真陰所占的比例
第49單元 線性回歸擬合
普通最小二乘回歸(OLS)
訓(xùn)練模型的過程是最小化加權(quán)殘差的平方和(SSR):
脊回歸
模型正則化:
當(dāng)α=0,脊回歸退化為OLS回歸。α越大,懲罰越大。
邏輯回歸
創(chuàng)建一個邏輯回歸對象:
LogisticRegression()
其中包含一個最重要的參數(shù)C,參數(shù)C是正則化參數(shù)的倒數(shù)(脊回歸的α的倒數(shù))。為了使分類的結(jié)果有意義,一般取值至少為20。
第50單元 用K均值聚類實(shí)現(xiàn)數(shù)據(jù)分組
K均值聚類按照下面的算法將樣本聚合成k個類:
- 隨機(jī)選擇k個初始矢量作為初始質(zhì)心(矢量不需要時數(shù)據(jù)集中的樣本);
- 將每個樣本分配給它最接近的質(zhì)心;
- 重新計(jì)算質(zhì)心位置;
- 重復(fù)步驟(2)和(3),直到質(zhì)心不再移動。
《Python數(shù)據(jù)科學(xué)入門》這本書中的主要內(nèi)容也就概述完了。這本書每個章節(jié)后面都有三道習(xí)題,本人感覺挺有用的,大家可以自行學(xué)習(xí)。(
"The more you know who you are and what you want,the less you let things upset you."--《Lost in Translation》
)
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
