獨(dú)家 | 機(jī)器學(xué)習(xí)模型的非泛化和泛化
本文作為數(shù)據(jù)科學(xué)博客馬拉松(https://analyticsvidhya.com/blogathon)的一部分發(fā)表。
介紹
機(jī)器學(xué)習(xí)模型的泛化是指模型對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)或預(yù)測(cè)的能力。當(dāng)我們?cè)跀?shù)據(jù)集上訓(xùn)練模型并為其提供訓(xùn)練集中缺少的新數(shù)據(jù)時(shí),它可能會(huì)表現(xiàn)良好。這樣的模型是可推廣的。它不需要在所有的數(shù)據(jù)類(lèi)型上行動(dòng),而是在類(lèi)似的領(lǐng)域或數(shù)據(jù)集上行動(dòng)。
泛化學(xué)習(xí)
兩個(gè)模型可能分別從兩個(gè)不同的問(wèn)題領(lǐng)域?qū)W習(xí),并在采用相同變量和約束行為時(shí)獨(dú)立學(xué)習(xí)。
最初,泛化的結(jié)果是模型建立中的失誤或僅僅是巧合。而在現(xiàn)在的模型中,泛化反而成為一種優(yōu)勢(shì),應(yīng)該被控制和最大化。一個(gè)泛化的模型可以通過(guò)從頭開(kāi)始重新訓(xùn)練新模型來(lái)節(jié)省生產(chǎn)成本。如果一個(gè)模型能夠進(jìn)行預(yù)測(cè),那么它的開(kāi)發(fā)就是為了有效地進(jìn)行預(yù)測(cè);沒(méi)有人不想要一個(gè)能夠預(yù)測(cè)另一個(gè)問(wèn)題的模型。每個(gè)工程師和研究人員都應(yīng)該考慮如何能夠使一個(gè)模型具有可泛化性。
什么是未見(jiàn)過(guò)的數(shù)據(jù)?
了解什么是未見(jiàn)過(guò)的數(shù)據(jù)是很重要的。未見(jiàn)過(guò)的數(shù)據(jù)對(duì)模型來(lái)說(shuō)就是新的數(shù)據(jù),它們不是訓(xùn)練的一部分。模型在它們以前見(jiàn)過(guò)的觀(guān)察上表現(xiàn)得更好。為了獲得更多的好處,我們應(yīng)該嘗試建立即使在未見(jiàn)過(guò)的數(shù)據(jù)上也能表現(xiàn)的模型。
泛化的好處
有時(shí)候,泛化可以是一個(gè)提高性能的過(guò)程。在深度學(xué)習(xí)中,模型可以分析和理解數(shù)據(jù)集中存在的模式。他們也很容易出現(xiàn)過(guò)擬合。使用泛化技術(shù),可以管理這種過(guò)擬合,使模型不會(huì)過(guò)于嚴(yán)格。它可以協(xié)助深度學(xué)習(xí)來(lái)預(yù)測(cè)一個(gè)以前沒(méi)有見(jiàn)過(guò)的模式。泛化代表了一個(gè)模型在訓(xùn)練集上被訓(xùn)練后,如何對(duì)新的數(shù)據(jù)做出正確的預(yù)測(cè)。
深度學(xué)習(xí)清楚地顯示了使用泛化的好處。它成為一種復(fù)雜的能力,因?yàn)槲覀儾幌Mㄟ^(guò)塞滿(mǎn)圖像來(lái)訓(xùn)練模型,這樣當(dāng)模型遇到一個(gè)不在壓縮內(nèi)存中的圖像時(shí),它就會(huì)失敗。我們希望訓(xùn)練好的模型在面對(duì)一個(gè)不在通用集里的圖像時(shí)表現(xiàn)良好。
100%的準(zhǔn)確率可能意味著所有的圖像都被壓縮得很好。遇到一張外面的圖片,模型就會(huì)失敗。一個(gè)好的模型將能夠更普遍地處理圖片。泛化技術(shù)應(yīng)該確保在深度學(xué)習(xí)模型的訓(xùn)練中不會(huì)出現(xiàn)過(guò)度擬合。
各種方法可以分為以數(shù)據(jù)為中心和以模型為中心的泛化技術(shù)。它們確保模型被訓(xùn)練成可以泛化驗(yàn)證數(shù)據(jù)集,并從訓(xùn)練數(shù)據(jù)中找到模式。
模型泛化的要素
由于泛化更具優(yōu)勢(shì),因此有必要在模型的設(shè)計(jì)周期中查看一些可能影響泛化的因素。
以算法/模型為中心的方法的性質(zhì)
所有的模型都有不同的行為。它們處理數(shù)據(jù)以及優(yōu)化性能的方法是不同的。決策樹(shù)是非參數(shù)化的,導(dǎo)致它們?nèi)菀壮霈F(xiàn)過(guò)擬合。為了解決模型的泛化問(wèn)題,應(yīng)該有意考慮算法的性質(zhì)。有時(shí),模型的表現(xiàn)伴隨著高復(fù)雜性。當(dāng)它們很復(fù)雜時(shí),過(guò)擬合就變得很容易??梢允褂媚P驼齽t化來(lái)創(chuàng)造一個(gè)平衡,以實(shí)現(xiàn)泛化并避免過(guò)度擬合。對(duì)于深度網(wǎng)絡(luò)來(lái)說(shuō),通過(guò)減少權(quán)重?cái)?shù)量或網(wǎng)絡(luò)參數(shù)(即權(quán)重值)來(lái)改變網(wǎng)絡(luò)結(jié)構(gòu),可以起到一定的作用。
數(shù)據(jù)集的性質(zhì)
另一個(gè)方面是用于訓(xùn)練的數(shù)據(jù)集。有時(shí)數(shù)據(jù)集過(guò)于統(tǒng)一。他們彼此之間的差異很小。自行車(chē)的數(shù)據(jù)集可能過(guò)于統(tǒng)一,不能被用來(lái)檢測(cè)摩托車(chē)。為了實(shí)現(xiàn)一個(gè)通用的機(jī)器學(xué)習(xí)模型,數(shù)據(jù)集應(yīng)該包含多樣性。應(yīng)該增加不同的可能樣本以拓展范圍。這有助于模型的訓(xùn)練,以達(dá)到最佳的泛化效果。在訓(xùn)練過(guò)程中,我們可以使用交叉驗(yàn)證技術(shù),例如K-fold。即使在以泛化為目標(biāo)時(shí),這對(duì)于了解我們模型的意義也是必要的。
模型的非泛化
可以看出,模型不需要泛化。模型應(yīng)該只做它們被嚴(yán)格期望做的事情。這可能是也可能不是最好的。我可能希望我在摩托車(chē)圖像上訓(xùn)練的模型能夠識(shí)別所有類(lèi)似的車(chē)輛,包括自行車(chē)甚至是輪椅。這可能是非常強(qiáng)大的。在另一個(gè)應(yīng)用中則相反,我們可能希望我們用摩托車(chē)訓(xùn)練的模型能夠嚴(yán)格地識(shí)別摩托車(chē)。它不應(yīng)該識(shí)別自行車(chē)。也許我們想計(jì)算停車(chē)場(chǎng)里的摩托車(chē),而不是自行車(chē)。
利用上述影響泛化的因素,我們可以決定并控制何時(shí)需要或不需要泛化。由于泛化可能包含風(fēng)險(xiǎn),因此,如果手段可用,非泛化應(yīng)該被高度優(yōu)化。如果手段可用,應(yīng)該為自行車(chē)開(kāi)發(fā)一個(gè)新模型,為輪椅開(kāi)發(fā)另一個(gè)模型。在時(shí)間和數(shù)據(jù)集等資源較少的情況下,可以利用泛化技術(shù)。
非泛化/泛化和模型的過(guò)度擬合
非泛化與過(guò)擬合條件最為密切相關(guān)。當(dāng)一個(gè)模型是非泛化的,它可能與過(guò)擬合有關(guān)。如果過(guò)擬合能夠得到解決,泛化就更容易實(shí)現(xiàn)。我們不想要過(guò)擬合的模型--一個(gè)已經(jīng)學(xué)會(huì)了訓(xùn)練數(shù)據(jù)集的模型,但是對(duì)其他方面一無(wú)所知。它在訓(xùn)練數(shù)據(jù)集上表現(xiàn)良好,但在新的輸入上卻表現(xiàn)不佳。另一種情況是欠擬合模型。這將是一個(gè)不了解問(wèn)題的模型,在訓(xùn)練數(shù)據(jù)集上表現(xiàn)不佳,在新的輸入上也沒(méi)有表現(xiàn)。我們也不希望這樣。另一種情況是良好擬合模型。這就像機(jī)器學(xué)習(xí)中的一個(gè)普通圖。該模型適當(dāng)?shù)貙W(xué)習(xí)了訓(xùn)練數(shù)據(jù)集,并將其概括到新的輸入。
當(dāng)我們想要一個(gè)可以泛化的模型時(shí),一個(gè)良好的擬合度是我們需要的目標(biāo)。
欠擬合,最佳模型和過(guò)擬合
偏差和方差對(duì)概括性的影響
對(duì)模型的概括性有影響的其他因素是方差和偏差。模型分析數(shù)據(jù),在數(shù)據(jù)中找到模式并進(jìn)行預(yù)測(cè)。在訓(xùn)練過(guò)程中,它學(xué)習(xí)數(shù)據(jù)集中的模式,并在測(cè)試過(guò)程中使用這些模式來(lái)進(jìn)行預(yù)測(cè),而預(yù)測(cè)的準(zhǔn)確度是經(jīng)過(guò)衡量的。在預(yù)測(cè)過(guò)程中,由于偏差,預(yù)測(cè)值和實(shí)際值之間的對(duì)比是錯(cuò)誤的。一個(gè)高偏差的模型不能進(jìn)行泛化。
方差告訴我們一個(gè)變量與它的預(yù)期值有多大差別。我們做一個(gè)隨機(jī)變量,并將其與我們對(duì)它的預(yù)期進(jìn)行比較。預(yù)計(jì)模型相對(duì)來(lái)說(shuō)不會(huì)變化太大。模型應(yīng)該能夠理解輸入和輸出之間的隱藏映射。低方差顯示預(yù)測(cè)中的小偏差,而高方差顯示目標(biāo)函數(shù)的預(yù)測(cè)中的大偏差。
一個(gè)顯示出高方差的模型在未見(jiàn)過(guò)的數(shù)據(jù)集上是不能泛化的。這意味著在開(kāi)發(fā)能夠很好地泛化的模型時(shí),必須將方差水平處理得很低。
錯(cuò)誤 v 模型的復(fù)雜性
結(jié)論
我們已經(jīng)深入了解了泛化的概念,它描述了一個(gè)模型對(duì)來(lái)自與模型初始數(shù)據(jù)集相同分布的新鮮的、從未見(jiàn)過(guò)的數(shù)據(jù)的反應(yīng)。非泛化則是相反的情況。數(shù)據(jù)集和算法是影響泛化能力的因素。我們形成了對(duì)過(guò)度擬合的感覺(jué),以及它與磁盤(pán)主題的關(guān)系。簡(jiǎn)單地說(shuō),方差是模型預(yù)測(cè)的變化能力,或者 ML 函數(shù)可能根據(jù)輸入數(shù)據(jù)集發(fā)生變化的程度。具有許多特征和高度復(fù)雜性的模型是方差的來(lái)源。高偏差模型將具有最小方差。最后,具有低偏差的模型將具有不會(huì)泛化的高方差。
要點(diǎn):
- 機(jī)器學(xué)習(xí)模型的泛化被定義為一個(gè)模型對(duì)新數(shù)據(jù)進(jìn)行分類(lèi)或預(yù)測(cè)的能力。
- 最初,泛化是由于模型構(gòu)建中的失誤或單純的巧合而產(chǎn)生的。在今天的模型中,它被認(rèn)為是一種優(yōu)勢(shì),應(yīng)該被最大化和控制。
- 未見(jiàn)過(guò)的數(shù)據(jù)對(duì)模型來(lái)說(shuō)是新的數(shù)據(jù),不屬于訓(xùn)練的一部分。模型在它們以前見(jiàn)過(guò)的觀(guān)察上表現(xiàn)得更好。為了獲得更多的好處,我們應(yīng)該嘗試擁有即使在未見(jiàn)過(guò)的數(shù)據(jù)上也能表現(xiàn)的模型。
- 使用泛化技術(shù),如正則化,可以管理過(guò)度擬合,使模型不會(huì)過(guò)于嚴(yán)格。
- 算法的性質(zhì)/以模型為中心的方法和數(shù)據(jù)集的性質(zhì)是泛化的兩個(gè)因素。
原文標(biāo)題:Non-Generalization and Generalization of Machine learning Models
原文鏈接:https://www.analyticsvidhya.com/blog/2022/10/non-generalization-and-generalization-of-machine-learning-models/
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。