統(tǒng)計學習方法
統(tǒng)計學習方法
統(tǒng)計學習是關于計算機基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運用模型對數(shù)據(jù)進行預測與分析的一門學科,也稱統(tǒng)計機器學習以下是學習啦小編分享給大家的統(tǒng)計學習的資料,希望可以幫到你!
統(tǒng)計學習方法一
統(tǒng)計學習
統(tǒng)計學習的對象是數(shù)據(jù),它從數(shù)據(jù)出發(fā),提取數(shù)據(jù)的特征,抽象出數(shù)據(jù)的模型,發(fā)現(xiàn)數(shù)據(jù)中的知識,又回到對數(shù)據(jù)的分析與預測中去。統(tǒng)計學習關于數(shù)據(jù)的基本假設是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性,這是統(tǒng)計學習的前提。
統(tǒng)計學習的目的就是考慮學習什么樣的模型和如何學習模型。
統(tǒng)計學習方法包括模型的假設空間、模型選擇的準則以及模型學習的算法。實現(xiàn)統(tǒng)計學習的步驟如下:
(1) 得到一個有限的訓練數(shù)據(jù)集合;
(2) 確定包含所有可能的模型的假設空間,即學習模型的集合;
(3) 確定模型選擇的準則,即學習的策略;
(4) 實現(xiàn)求解最優(yōu)模型的算法,即學習的算法;
(5) 通過學習方法選擇最優(yōu)模型;
(6) 利用學習的最優(yōu)模型對新數(shù)據(jù)進行預測或分析。
統(tǒng)計學習方法二
監(jiān)督學習
監(jiān)督學習從訓練數(shù)據(jù)中學習模型,對測試數(shù)據(jù)進行預測,訓練集通常表示為
人們根據(jù)輸入、輸出變量的不同類型,對預測任務給予不同的名稱:輸入變量和輸出變量均為連續(xù)變量的預測問題稱為回歸問題;輸出變量為有限個離散變量的預測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。
監(jiān)督學習假設輸入與輸出的隨機變量X和Y遵循聯(lián)合概率分布P(X,Y),P(X,Y)表示分布函數(shù),或分布密度函數(shù)。統(tǒng)計學習假設數(shù)據(jù)存在一定的統(tǒng)計規(guī)律,X和Y具有聯(lián)合概率分布的假設就是監(jiān)督學習關于數(shù)據(jù)的基本假設。
監(jiān)督學習的模型可以是概率模型或非概率模型,由條件概率分布P(Y|X)或決策函數(shù)Y=f(X)表示,隨具體學習方法而定。
監(jiān)督學習分為學習和預測兩個過程,由學習系統(tǒng)與預測系統(tǒng)組成,如下圖:
學習過程中,學習系統(tǒng)利用給定的訓練數(shù)據(jù)集,通過學習得到一個模型,表示為條件概率分布P(Y|X)或決策函數(shù)Y=f(X)。預測過程中,預測系統(tǒng)對于給定的測試樣本集中的輸入
統(tǒng)計學習方法三
統(tǒng)計學習三要素
統(tǒng)計學習=模型+策略+算法
3.1 模型
統(tǒng)計學習中,首先要考慮學習什么樣的模型,在監(jiān)督學習中,模型就是所要學習的條件概率分布或決策函數(shù),由決策函數(shù)表示的模型為非概率模型,由條件概率分布表示的模型為概率模型。
3.2 策略
有了模型的假設空間,統(tǒng)計學習接著需要考慮的是按照什么樣的準則學習或選擇最優(yōu)的模型。監(jiān)督學習實際上就是一個經(jīng)驗風險或者結(jié)構(gòu)風險函數(shù)的最優(yōu)化問題。風險函數(shù)度量平均意義下模型預測的好壞,模型每一次預測的好壞用損失函數(shù)來度量。
監(jiān)督學習問題就是從假設空間F中選擇模型f作為決策函數(shù),對于給定的輸入X,由f(X)給出相應的輸出Y,這個輸出的預測值f(X)與真實值Y可能一致也可能不一致,用一個損失函數(shù)來度量預測錯誤的程度。損失函數(shù)記為L(Y, f(X))。常用的損失函數(shù)有以下幾種:
3.3 算法
統(tǒng)計學習問題歸結(jié)為以上的最優(yōu)化問題,這樣,統(tǒng)計學習的算法就是求解最優(yōu)化問題的算法。如果最優(yōu)化問題有顯示的解析解,這個最優(yōu)化問題就比較簡單,但通常這個解析解不存在,所以就需要利用數(shù)值計算的方法來求解。統(tǒng)計學習可以利用已有的最優(yōu)化算法,也可以開發(fā)獨自的最優(yōu)化算法。
統(tǒng)計學習方法四
模型評估與模型選擇
當損失函數(shù)給定時,基于損失函數(shù)的模型的訓練誤差和模型的測試誤差就自然成為學習方法評估的標準。
訓練誤差是模型Y=f(x)關于訓練數(shù)據(jù)集的平均損失:
下圖給出了M=0,M=1,M=3,M=9時的多項式函數(shù)擬合的情況,其中綠色曲線為真模型,紅色為預測模型。
其中,M=0和M=1模型簡單,擬合不足,訓練誤差較大;M=9模型復雜,過擬合,訓練誤差為0,但基本不具備推廣性;M=3模型復雜度適中,泛化能力強,效果最好。
下圖描述了訓練誤差和測試誤差與模型的復雜度之間的關系:
當模型的復雜度增大時,訓練誤差會逐漸減小并趨向于0,而測試誤差會先減少,達到最小值后又增大。模型選擇的典型方法是正則化與交叉驗證。
統(tǒng)計學習方法五
正則化與交叉驗證
模型選擇的典型方法是正則化,正則化的一般形式如下:
其中,第一項是經(jīng)驗風險,第二項是正則化項,正則化項可以取不同的形式,例如,正則化項可以是模型參數(shù)向量的范數(shù)?;貧w問題中,損失函數(shù)是平方損失,正則化項可以是參數(shù)向量的L2范數(shù):
正則化項也可以是參數(shù)向量的L1范數(shù):
經(jīng)驗風險較小的模型可能較復雜,這時正則化項的值會較大,正則化的作用是選擇經(jīng)驗風險與模型復雜度同時較小的模型。
正則化符合奧卡姆剃刀原理,在所有可能的模型中,能夠很好的解釋已知數(shù)據(jù)并且十分簡單的模型才是最好的模型。從貝葉斯估計的角度來看,正則化項對應于模型的先驗概率,可以假設復雜的模型有較小的先驗概率,簡單的模型有較大的先驗概率。
模型選擇的另一種方法是交叉驗證,使用交叉驗證的前提是數(shù)據(jù)不充足,常見的有簡單交叉驗證、S折交叉驗證和留一交叉驗證。如果數(shù)據(jù)充足,選擇模型的一種簡單方法是隨機的將數(shù)據(jù)集分成三部分,分別為訓練集、驗證集和測試集,訓練集用來訓練模型,驗證集用于模型的選擇,而測試集用于最終對學習方法的評估。如果數(shù)據(jù)不充足,可以采用交叉驗證的方法來選擇模型。
統(tǒng)計學習方法六
泛化能力
統(tǒng)計學習方法七
生成模型與判別模型
判別模型
該模型主要對p(y|x)建模,通過x來預測y。在建模的過程中不需要關注聯(lián)合概率分布。只關心如何優(yōu)化p(y|x)使得數(shù)據(jù)可分。通常,判別式模型在分類任務中的表現(xiàn)要好于生成式模型。但判別模型建模過程中通常為有監(jiān)督的,而且難以被擴展成無監(jiān)督的。
常見的判別式模型有:
Logisticregression
Lineardiscriminant analysis
Supportvector machines
Boosting
Conditionalrandom fields
Linearregression
Neuralnetworks
生成模型
該模型對觀察序列的聯(lián)合概率分布p(x,y)建模,在獲取聯(lián)合概率分布之后,可以通過貝葉斯公式得到條件概率分布。生成式模型所帶的信息要比判別式模型更豐富。除此之外,生成式模型較為容易的實現(xiàn)增量學習。
常見的生成式模型有:
Gaussian mixture model and othertypes of mixture model
HiddenMarkov model
NaiveBayes
AODE
LatentDirichlet allocation
RestrictedBoltzmann Machine
由上可知,判別模型與生成模型的最重要的不同是,訓練時的目標不同,判別模型主要優(yōu)化條件概率分布,使得x,y更加對應,在分類中就是更可分。而生成模型主要是優(yōu)化訓練數(shù)據(jù)的聯(lián)合分布概率。而同時,生成模型可以通過貝葉斯得到判別模型,但判別模型無法得到生成模型。
統(tǒng)計學習方法八
分類問題、標注問題和回歸問題
前面提到過,輸入變量和輸出變量均為連續(xù)變量的預測問題稱為回歸問題;輸出變量為有限個離散變量的預測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。
對于二分類問題,常用的評價指標是精確率和召回率。通常以關注的類為正類,其他類為負類,分類器在測試數(shù)據(jù)集上的預測或正確或不正確,4中情況出現(xiàn)的總數(shù)分別記為:
TP——將正類預測為正類數(shù);
FN——將正類預測為負類數(shù);
FP——將負類預測為正類數(shù);
TN——將負類預測為負類數(shù)。
則,精確率定義為:
許多統(tǒng)計方法可以用于分類,包括k近鄰法、感知機、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機、提升方法、貝葉斯網(wǎng)絡、神經(jīng)網(wǎng)絡、Winnow等。
標注問題的輸入是一個觀測序列,輸出是一個標記序列。標注問題在信息抽取、自然語言處理等領域被廣泛采用。例如,自然語言處理中的詞性標注就是一個典型的標注問題:給定一個由單詞組成的句子,對這個句子中的每一個單詞進行詞性標注,即對一個單詞序列預測其對應的詞性標記序列。標注常用的統(tǒng)計學習方法有:隱馬爾科夫模型、條件隨機場。
回歸問題的學習等價于函數(shù)擬合:選擇一條函數(shù)曲線使其很好的擬合已知數(shù)據(jù)且很好地預測未知數(shù)據(jù)?;貧w問題按照輸入變量的個數(shù)分為一元回歸和多元回歸,按照輸入變量和輸出變量之間的關系的類型即模型的類型,分為線性回歸和非線性回歸?;貧w學習最常用的損失函數(shù)時平方損失函數(shù),在此情況下,回歸問題可以用著名的最小二乘法求解。