特黄特色三级在线观看免费,看黄色片子免费,色综合久,欧美在线视频看看,高潮胡言乱语对白刺激国产,伊人网成人,中文字幕亚洲一碰就硬老熟妇

學(xué)習(xí)啦 > 學(xué)習(xí)方法 > 通用學(xué)習(xí)方法 > 學(xué)習(xí)方法指導(dǎo) > 統(tǒng)計學(xué)習(xí)方法

統(tǒng)計學(xué)習(xí)方法

時間：2017-08-21 09:18:18 欣怡1112由分享

統(tǒng)計學(xué)習(xí)方法

　　統(tǒng)計學(xué)習(xí)是關(guān)于計算機(jī)基于數(shù)據(jù)構(gòu)建概率統(tǒng)計模型并運(yùn)用模型對數(shù)據(jù)進(jìn)行預(yù)測與分析的一門學(xué)科，也稱統(tǒng)計機(jī)器學(xué)習(xí)以下是學(xué)習(xí)啦小編分享給大家的統(tǒng)計學(xué)習(xí)的資料，希望可以幫到你!

　　統(tǒng)計學(xué)習(xí)方法一

　　統(tǒng)計學(xué)習(xí)

　　統(tǒng)計學(xué)習(xí)的對象是數(shù)據(jù)，它從數(shù)據(jù)出發(fā)，提取數(shù)據(jù)的特征，抽象出數(shù)據(jù)的模型，發(fā)現(xiàn)數(shù)據(jù)中的知識，又回到對數(shù)據(jù)的分析與預(yù)測中去。統(tǒng)計學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)是同類數(shù)據(jù)具有一定的統(tǒng)計規(guī)律性，這是統(tǒng)計學(xué)習(xí)的前提。

　　統(tǒng)計學(xué)習(xí)的目的就是考慮學(xué)習(xí)什么樣的模型和如何學(xué)習(xí)模型。

　　統(tǒng)計學(xué)習(xí)方法包括模型的假設(shè)空間、模型選擇的準(zhǔn)則以及模型學(xué)習(xí)的算法。實現(xiàn)統(tǒng)計學(xué)習(xí)的步驟如下：

　　(1) 得到一個有限的訓(xùn)練數(shù)據(jù)集合;

　　(2) 確定包含所有可能的模型的假設(shè)空間，即學(xué)習(xí)模型的集合;

　　(3) 確定模型選擇的準(zhǔn)則，即學(xué)習(xí)的策略;

　　(4) 實現(xiàn)求解最優(yōu)模型的算法，即學(xué)習(xí)的算法;

　　(5) 通過學(xué)習(xí)方法選擇最優(yōu)模型;

　　(6) 利用學(xué)習(xí)的最優(yōu)模型對新數(shù)據(jù)進(jìn)行預(yù)測或分析。

　　統(tǒng)計學(xué)習(xí)方法二

　　監(jiān)督學(xué)習(xí)

　　監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型，對測試數(shù)據(jù)進(jìn)行預(yù)測，訓(xùn)練集通常表示為

　　人們根據(jù)輸入、輸出變量的不同類型，對預(yù)測任務(wù)給予不同的名稱：輸入變量和輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題;輸出變量為有限個離散變量的預(yù)測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標(biāo)注問題。

　　監(jiān)督學(xué)習(xí)假設(shè)輸入與輸出的隨機(jī)變量X和Y遵循聯(lián)合概率分布P(X,Y)，P(X,Y)表示分布函數(shù)，或分布密度函數(shù)。統(tǒng)計學(xué)習(xí)假設(shè)數(shù)據(jù)存在一定的統(tǒng)計規(guī)律，X和Y具有聯(lián)合概率分布的假設(shè)就是監(jiān)督學(xué)習(xí)關(guān)于數(shù)據(jù)的基本假設(shè)。

　　監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型，由條件概率分布P(Y|X)或決策函數(shù)Y=f(X)表示，隨具體學(xué)習(xí)方法而定。

　　監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測兩個過程，由學(xué)習(xí)系統(tǒng)與預(yù)測系統(tǒng)組成，如下圖：

　　學(xué)習(xí)過程中，學(xué)習(xí)系統(tǒng)利用給定的訓(xùn)練數(shù)據(jù)集，通過學(xué)習(xí)得到一個模型，表示為條件概率分布P(Y|X)或決策函數(shù)Y=f(X)。預(yù)測過程中，預(yù)測系統(tǒng)對于給定的測試樣本集中的輸入

　　統(tǒng)計學(xué)習(xí)方法三

　　統(tǒng)計學(xué)習(xí)三要素

　　統(tǒng)計學(xué)習(xí)=模型+策略+算法

　　3.1 模型

　　統(tǒng)計學(xué)習(xí)中，首先要考慮學(xué)習(xí)什么樣的模型，在監(jiān)督學(xué)習(xí)中，模型就是所要學(xué)習(xí)的條件概率分布或決策函數(shù)，由決策函數(shù)表示的模型為非概率模型，由條件概率分布表示的模型為概率模型。

　　3.2 策略

　　有了模型的假設(shè)空間，統(tǒng)計學(xué)習(xí)接著需要考慮的是按照什么樣的準(zhǔn)則學(xué)習(xí)或選擇最優(yōu)的模型。監(jiān)督學(xué)習(xí)實際上就是一個經(jīng)驗風(fēng)險或者結(jié)構(gòu)風(fēng)險函數(shù)的最優(yōu)化問題。風(fēng)險函數(shù)度量平均意義下模型預(yù)測的好壞，模型每一次預(yù)測的好壞用損失函數(shù)來度量。

　　監(jiān)督學(xué)習(xí)問題就是從假設(shè)空間F中選擇模型f作為決策函數(shù)，對于給定的輸入X，由f(X)給出相應(yīng)的輸出Y，這個輸出的預(yù)測值f(X)與真實值Y可能一致也可能不一致，用一個損失函數(shù)來度量預(yù)測錯誤的程度。損失函數(shù)記為L(Y, f(X))。常用的損失函數(shù)有以下幾種：

　　3.3 算法

　　統(tǒng)計學(xué)習(xí)問題歸結(jié)為以上的最優(yōu)化問題，這樣，統(tǒng)計學(xué)習(xí)的算法就是求解最優(yōu)化問題的算法。如果最優(yōu)化問題有顯示的解析解，這個最優(yōu)化問題就比較簡單，但通常這個解析解不存在，所以就需要利用數(shù)值計算的方法來求解。統(tǒng)計學(xué)習(xí)可以利用已有的最優(yōu)化算法，也可以開發(fā)獨自的最優(yōu)化算法。

　　統(tǒng)計學(xué)習(xí)方法四

　　模型評估與模型選擇

　　當(dāng)損失函數(shù)給定時，基于損失函數(shù)的模型的訓(xùn)練誤差和模型的測試誤差就自然成為學(xué)習(xí)方法評估的標(biāo)準(zhǔn)。

　　訓(xùn)練誤差是模型Y=f(x)關(guān)于訓(xùn)練數(shù)據(jù)集的平均損失：

　　下圖給出了M=0，M=1，M=3，M=9時的多項式函數(shù)擬合的情況，其中綠色曲線為真模型，紅色為預(yù)測模型。

　　其中，M=0和M=1模型簡單，擬合不足，訓(xùn)練誤差較大;M=9模型復(fù)雜，過擬合，訓(xùn)練誤差為0，但基本不具備推廣性;M=3模型復(fù)雜度適中，泛化能力強(qiáng)，效果最好。

　　下圖描述了訓(xùn)練誤差和測試誤差與模型的復(fù)雜度之間的關(guān)系：

　　當(dāng)模型的復(fù)雜度增大時，訓(xùn)練誤差會逐漸減小并趨向于0，而測試誤差會先減少，達(dá)到最小值后又增大。模型選擇的典型方法是正則化與交叉驗證。

　　統(tǒng)計學(xué)習(xí)方法五

　　正則化與交叉驗證

　　模型選擇的典型方法是正則化，正則化的一般形式如下：

　　其中，第一項是經(jīng)驗風(fēng)險，第二項是正則化項，正則化項可以取不同的形式，例如，正則化項可以是模型參數(shù)向量的范數(shù)?；貧w問題中，損失函數(shù)是平方損失，正則化項可以是參數(shù)向量的L2范數(shù)：

　　正則化項也可以是參數(shù)向量的L1范數(shù)：

　　經(jīng)驗風(fēng)險較小的模型可能較復(fù)雜，這時正則化項的值會較大，正則化的作用是選擇經(jīng)驗風(fēng)險與模型復(fù)雜度同時較小的模型。

　　正則化符合奧卡姆剃刀原理，在所有可能的模型中，能夠很好的解釋已知數(shù)據(jù)并且十分簡單的模型才是最好的模型。從貝葉斯估計的角度來看，正則化項對應(yīng)于模型的先驗概率，可以假設(shè)復(fù)雜的模型有較小的先驗概率，簡單的模型有較大的先驗概率。

　　模型選擇的另一種方法是交叉驗證，使用交叉驗證的前提是數(shù)據(jù)不充足，常見的有簡單交叉驗證、S折交叉驗證和留一交叉驗證。如果數(shù)據(jù)充足，選擇模型的一種簡單方法是隨機(jī)的將數(shù)據(jù)集分成三部分，分別為訓(xùn)練集、驗證集和測試集，訓(xùn)練集用來訓(xùn)練模型，驗證集用于模型的選擇，而測試集用于最終對學(xué)習(xí)方法的評估。如果數(shù)據(jù)不充足，可以采用交叉驗證的方法來選擇模型。

　　統(tǒng)計學(xué)習(xí)方法六

　　泛化能力

　　統(tǒng)計學(xué)習(xí)方法七

　　生成模型與判別模型

　　判別模型

　　該模型主要對p(y|x)建模，通過x來預(yù)測y。在建模的過程中不需要關(guān)注聯(lián)合概率分布。只關(guān)心如何優(yōu)化p(y|x)使得數(shù)據(jù)可分。通常，判別式模型在分類任務(wù)中的表現(xiàn)要好于生成式模型。但判別模型建模過程中通常為有監(jiān)督的，而且難以被擴(kuò)展成無監(jiān)督的。

　　常見的判別式模型有：

　　Logisticregression

　　Lineardiscriminant analysis

　　Supportvector machines

　　Boosting

　　Conditionalrandom fields

　　Linearregression

　　Neuralnetworks

　　生成模型

　　該模型對觀察序列的聯(lián)合概率分布p(x,y)建模，在獲取聯(lián)合概率分布之后，可以通過貝葉斯公式得到條件概率分布。生成式模型所帶的信息要比判別式模型更豐富。除此之外，生成式模型較為容易的實現(xiàn)增量學(xué)習(xí)。

　　常見的生成式模型有:

　　Gaussian mixture model and othertypes of mixture model

　　HiddenMarkov model

　　NaiveBayes

　　AODE

　　LatentDirichlet allocation

　　RestrictedBoltzmann Machine

　　由上可知，判別模型與生成模型的最重要的不同是，訓(xùn)練時的目標(biāo)不同，判別模型主要優(yōu)化條件概率分布，使得x,y更加對應(yīng)，在分類中就是更可分。而生成模型主要是優(yōu)化訓(xùn)練數(shù)據(jù)的聯(lián)合分布概率。而同時，生成模型可以通過貝葉斯得到判別模型，但判別模型無法得到生成模型。

　　統(tǒng)計學(xué)習(xí)方法八

　　分類問題、標(biāo)注問題和回歸問題

　　前面提到過，輸入變量和輸出變量均為連續(xù)變量的預(yù)測問題稱為回歸問題;輸出變量為有限個離散變量的預(yù)測問題稱為分類問題;輸入變量與輸出變量均為變量序列的預(yù)測問題稱為標(biāo)注問題。

　　對于二分類問題，常用的評價指標(biāo)是精確率和召回率。通常以關(guān)注的類為正類，其他類為負(fù)類，分類器在測試數(shù)據(jù)集上的預(yù)測或正確或不正確，4中情況出現(xiàn)的總數(shù)分別記為：

　　TP——將正類預(yù)測為正類數(shù);

　　FN——將正類預(yù)測為負(fù)類數(shù);

　　FP——將負(fù)類預(yù)測為正類數(shù);

　　TN——將負(fù)類預(yù)測為負(fù)類數(shù)。

　　則，精確率定義為：

　　許多統(tǒng)計方法可以用于分類，包括k近鄰法、感知機(jī)、樸素貝葉斯法、決策樹、決策列表、邏輯斯諦回歸模型、支持向量機(jī)、提升方法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、Winnow等。

　　標(biāo)注問題的輸入是一個觀測序列，輸出是一個標(biāo)記序列。標(biāo)注問題在信息抽取、自然語言處理等領(lǐng)域被廣泛采用。例如，自然語言處理中的詞性標(biāo)注就是一個典型的標(biāo)注問題：給定一個由單詞組成的句子，對這個句子中的每一個單詞進(jìn)行詞性標(biāo)注，即對一個單詞序列預(yù)測其對應(yīng)的詞性標(biāo)記序列。標(biāo)注常用的統(tǒng)計學(xué)習(xí)方法有：隱馬爾科夫模型、條件隨機(jī)場。

　　回歸問題的學(xué)習(xí)等價于函數(shù)擬合：選擇一條函數(shù)曲線使其很好的擬合已知數(shù)據(jù)且很好地預(yù)測未知數(shù)據(jù)?；貧w問題按照輸入變量的個數(shù)分為一元回歸和多元回歸，按照輸入變量和輸出變量之間的關(guān)系的類型即模型的類型，分為線性回歸和非線性回歸。回歸學(xué)習(xí)最常用的損失函數(shù)時平方損失函數(shù)，在此情況下，回歸問題可以用著名的最小二乘法求解。

相關(guān)文章

熱門文章

3688823

<bdo id="njx7c"></bdo>