在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 線性回歸:不能忽視的三個問題

            線性回歸:不能忽視的三個問題

            發(fā)布人:數(shù)據(jù)派THU 時間:2023-08-04 來源:工程師 發(fā)布文章

            前言


            線性回歸是比較簡單的機器學(xué)習(xí)算法,很多書籍介紹的第一種機器學(xué)習(xí)算法就是線性回歸算法,筆者查閱的中文書籍都是給出線性回歸的表達式,然后告訴你怎么求參數(shù)最優(yōu)化,可能部分同學(xué)會忽視一些問題,至少筆者忽視了。因此,本文重點介紹了平常容易忽視的三類問題,(1)線性回歸的理論依據(jù)是什么(2)過擬合意味著什么(3)模型優(yōu)化的方向。


            目錄


            1、線性回歸的理論依據(jù)是什么

            2、過擬合意味著什么

            3、模型優(yōu)化的方向

            4、總結(jié)


            線性回歸的理論依據(jù)


            泰勒公式


            若函數(shù)f(x)在包含x0的某個閉區(qū)間[a,b]上具有n階導(dǎo)數(shù),且在開區(qū)間(a,b)上具有(n+1)階導(dǎo)數(shù),則對閉區(qū)間[a,b]上任意一點x,成立下式:


            圖片

            圖片


            結(jié)論:對于區(qū)間[a,b]上任意一點,函數(shù)值都可以用兩個向量內(nèi)積的表達式近似,其中

            圖片是基函數(shù)(basis function),圖片是相應(yīng)的系數(shù)。


            高階表達式圖片表示兩者值的誤差(請回想您學(xué)過的線性回歸表達式)。


            傅里葉級數(shù)


            圖片

            周期函數(shù)f(x)可以用向量內(nèi)積近似,圖片表示基函數(shù),圖片表示相應(yīng)的系數(shù),圖片表示誤差。


            線性回歸


            由泰勒公式和傅里葉級數(shù)可知,當基函數(shù)的數(shù)量足夠多時,向量內(nèi)積無限接近于函數(shù)值。線性回歸的向量內(nèi)積表達式如下:


            圖片

            過擬合問題


            過擬合定義


            構(gòu)建模型的訓(xùn)練誤差很小或為0,測試誤差很大,這一現(xiàn)象稱為過擬合。


            高斯噪聲數(shù)據(jù)模型


            我們采集的樣本數(shù)據(jù)其實包含了噪聲,假設(shè)該噪聲的高斯噪聲模型,均值為0,方差為圖片。

            若樣本數(shù)據(jù)的標記為y1,理論標記為y,噪聲為η,則有:


            y1 = y + η,(其中,η是高斯分布的抽樣)


            上節(jié)的線性回歸表達式的方差圖片表示的意義是噪聲高斯分布的隨機抽樣,書本的線性回歸表達式把方差圖片也包含進去了。


            過擬合原因


            數(shù)學(xué)術(shù)語:當基函數(shù)的個數(shù)足夠大時,線性回歸表達式的方程恒相等。


            如下圖:


            圖片


            機器學(xué)習(xí)術(shù)語:模型太過復(fù)雜以致于把無關(guān)緊要的噪聲也學(xué)進去了。


            當線性回歸的系數(shù)向量間差異比較大時,則大概率設(shè)計的模型處于過擬合了。用數(shù)學(xué)角度去考慮,若某個系數(shù)很大,對于相差很近的x值,結(jié)果會有較大的差異,這是較明顯的過擬合現(xiàn)象。


            過擬合的解決辦法是降低復(fù)雜度,后期會有相應(yīng)的公眾號文章,請繼續(xù)關(guān)注。


            模型的優(yōu)化方向


            模型的不同主要是體現(xiàn)在參數(shù)個數(shù),參數(shù)大小以及正則化參數(shù)λ,優(yōu)化模型的方法是調(diào)節(jié)上面三個參數(shù)(但不僅限于此,如核函數(shù)),目的是找到最優(yōu)模型。


            總結(jié)


            本文通過泰勒公式和傅里葉級數(shù)的例子說明線性回歸的合理性,線性回歸表達式包含了方差項,該方差是高斯噪聲模型的隨機采樣,若訓(xùn)練數(shù)據(jù)在線性回歸的表達式恒相等,那么就要考慮過擬合問題了,回歸系數(shù)間差異比較大也是判斷過擬合的一種方式。模型優(yōu)化的方法有很多種,比較常見的方法是調(diào)節(jié)參數(shù)個數(shù),參數(shù)大小以及正則化參數(shù)λ。


            參考:Christopher M.Bishop <<Pattern Reconition and Machine Learning>>



            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉