在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 5 分鐘了解機(jī)器學(xué)習(xí)的特征工程

            5 分鐘了解機(jī)器學(xué)習(xí)的特征工程

            發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2021-08-20 來源:工程師 發(fā)布文章

            來源:DeepHub IMBA

            介紹

            在我們進(jìn)一步研究之前,我們需要定義機(jī)器學(xué)習(xí)中的特征。

            如果您不熟悉機(jī)器學(xué)習(xí),那么特征就是機(jī)器學(xué)習(xí)算法模型的輸入。

            1.png

            什么是特征工程?

            特征工程使用數(shù)學(xué)、統(tǒng)計(jì)學(xué)和領(lǐng)域知識(shí)從原始數(shù)據(jù)中提取有用的特征的方法。

            例如,如果兩個(gè)數(shù)字特征的比率對(duì)分類實(shí)例很重要,那么計(jì)算該比率并將其作為特征包含可能會(huì)提高模型質(zhì)量。

            例如有兩個(gè)特征:平方米和公寓價(jià)格。您可能需要通過獲取每平方米價(jià)格來創(chuàng)建特征以改進(jìn)您的模型。

            2.png

            如何做特征工程?

            讓我們看看特征工程的不同策略。在本文中,我們不會(huì)看到所有方法,而是最流行的方法。添加和刪除特征:

            假設(shè)我們確實(shí)具有以下特征:

            3.png

            如果我們想預(yù)測(cè)公寓的價(jià)格,植物的數(shù)量可能無關(guān)緊要。在這種情況下,我們需要從機(jī)器學(xué)習(xí)模型中刪除此功能,以免添加額外的噪音。

            這種噪音被稱為維度災(zāi)難。這意味著隨著數(shù)據(jù)中特征數(shù)量的增加,構(gòu)建良好模型所需的數(shù)據(jù)點(diǎn)數(shù)量呈指數(shù)增長(zhǎng)。

            我們需要選擇哪些特征與我們的模型最相關(guān)。

            將多個(gè)特征組合成一個(gè)特征:

            4.png

            在上面的例子中,我們可以看到平方米和平方英尺實(shí)際上是相同的數(shù)據(jù),但不是相同的單位。如果我們將其提供給我們的算法,它將必須了解平方米和平方英尺是相關(guān)的并且實(shí)際上是相同的特征。

            這就是為什么我們需要決定采用哪種測(cè)量并只保留一個(gè)。

            我們也可以有兩個(gè)特征,狗的數(shù)量和貓的數(shù)量,并在動(dòng)物數(shù)量下將它們組合起來。

            5.png

            盡管如此,結(jié)合這些功能并不是每次都是一個(gè)好主意。例如,在日期特征的情況下,可能是星期幾很重要。

            你需要記住質(zhì)量勝于數(shù)量。

            清理現(xiàn)有特征:

            您需要保留您認(rèn)為與模型相關(guān)的特征,以獲取數(shù)據(jù)中的正確信號(hào)。

            為此,您可以:

            估算缺失值。

            刪除不嘗試使用不具有代表性的數(shù)據(jù)點(diǎn)進(jìn)行訓(xùn)練的異常值。

            擺脫比例尺,例如,如果您有以厘米為單位的要素而其他一些以米為單位的要素,請(qǐng)嘗試將所有要素都以厘米為單位進(jìn)行轉(zhuǎn)換。這稱為規(guī)范化。

            由于更容易的分布,轉(zhuǎn)換傾斜的數(shù)據(jù)以使其更適合我們的模型。

            分箱:

            分箱是指您進(jìn)行數(shù)值測(cè)量并將其轉(zhuǎn)換為類別。

            以下是房屋銷售的示例:

            6.png

            在那個(gè)例子中,我們可以假設(shè)銷售價(jià)格取決于有游泳池的事實(shí)。

            然后我們可以通過預(yù)處理數(shù)據(jù)并用布爾未來替換游泳池長(zhǎng)度來簡(jiǎn)化我們的模型。

            7.png

            獨(dú)熱(One-hot)編碼:

            獨(dú)熱編碼是一種以機(jī)器學(xué)習(xí)算法能夠理解的方式表示分類數(shù)據(jù)的方式。

            我們的模型理解數(shù)字但不理解字符串,這就是我們需要將字符串轉(zhuǎn)換為數(shù)字的原因。但是,我們不能為我們的字符串分配隨機(jī)數(shù),因?yàn)槲覀兊哪P涂赡鼙刃?shù)字更重視大數(shù)字。這就是為什么我們要使用 one-hot 編碼的原因。

            以下是有關(guān)房屋銷售的示例:

            8.png

            One-hot 編碼對(duì)于用機(jī)器學(xué)習(xí)模型能夠理解的簡(jiǎn)單數(shù)字?jǐn)?shù)據(jù)替換分類數(shù)據(jù)很有用。

            總結(jié)

            特征工程將幫助您:

            借助適當(dāng)?shù)奶卣?,解決適當(dāng)?shù)臉I(yè)務(wù)案例問題。

            提高機(jī)器學(xué)習(xí)算法的性能。

            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

            物聯(lián)網(wǎng)相關(guān)文章:物聯(lián)網(wǎng)是什么




            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉