在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 基于時態(tài)差分法的強化學習:Sarsa和Q-learning

            基于時態(tài)差分法的強化學習:Sarsa和Q-learning

            發(fā)布人:數(shù)據(jù)派THU 時間:2023-08-21 來源:工程師 發(fā)布文章

            時態(tài)差分法(Temporal Difference,  TD)是一類在強化學習中廣泛應用的算法,用于學習價值函數(shù)或策略。Sarsa和Q-learning都是基于時態(tài)差分法的重要算法,用于解決馬爾可夫決策過程(Markov Decision Process, MDP)中的強化學習問題。

            下面是最簡單的TD方法更新:

            圖片

            它只使用當前行動之后的獎勵值和下一個狀態(tài)的值作為目標。Sarsa(State-Action-Reward-State-Action)和Q-learning是都是基于時態(tài)差分法的強化學習方法。

            Sarsa和Q-learning的區(qū)別

            圖片

            Sarsa代表State-Action-Reward-State-Action。是一種基于策略的方法,即使用正在學習的策略來生成訓練數(shù)據(jù)。Q-learning是一種非策略方法它使用不同的策略為正在學習的值函數(shù)的策略生成訓練數(shù)據(jù)。

            Sarsa的更新規(guī)則如下:

            圖片

            其中:

            • Q(s, a) 是在狀態(tài)s下采取動作a的值函數(shù)估計。
            • α 是學習率,控制每次更新的步長大小。
            • r 是在狀態(tài)s下采取動作a后獲得的即時獎勵。
            • γ 是折扣因子,表示未來獎勵的折現(xiàn)率。
            • s' 是在執(zhí)行動作a后得到的新狀態(tài)。
            • a' 是在新狀態(tài)s'下選擇的下一個動作。

            Q-learning是另一種基于時態(tài)差分法的增強學習算法,用于學習一個值函數(shù),表示在狀態(tài)s下采取最優(yōu)動作得到的期望累積獎勵。Q-learning的更新規(guī)則如下:

            圖片

            其中:max(Q(s', a')) 表示在新狀態(tài)s'下選擇下一個動作a'時的最大值函數(shù)估計。

            從上面的更新可以看出這兩個方法非常相似,主要區(qū)別在于它們的更新策略。在Sarsa中,更新策略考慮了在新狀態(tài)下采取的下一個動作,而在Q-learning中,更新策略總是選擇了新狀態(tài)下使值函數(shù)最大化的動作。因此,Sarsa更傾向于跟隨當前策略進行學習,而Q-learning更傾向于學習最優(yōu)策略。

            cliff walking環(huán)境下的表現(xiàn)

            這是RL書中描述的一個簡單環(huán)境,如下面的截圖所示。

            圖片

            • 事件開始于狀態(tài)S,我們的代理開始于這種狀態(tài)。
            • 一個事件在狀態(tài)G結束,也就是這是終態(tài)。
            • 在S和G之間的最下面一行的狀態(tài)是懸崖狀態(tài)。
            • 從懸崖狀態(tài)以外的任何狀態(tài)轉換的獎勵為-1,并且代理會移動到鄰近的狀態(tài)。
            • 懸崖狀的獎勵為-100,并且代理移動到開始狀態(tài)S,也就是說結束了。
            • 當代理到達終端狀態(tài)G,走了100步或者最終處于懸崖狀態(tài)時,就代表結束了。
            • 圖中藍色路徑是安全的,但不是最優(yōu)的,因為它需要很多步才能到達目標狀態(tài)。
            • 紅色路徑是最優(yōu)的,但它是非常危險的,因為代理可能會發(fā)現(xiàn)自己在懸崖邊緣。

            從環(huán)境的描述來看,代理的目標是最大化累積獎勵,即采取盡可能少的步數(shù),因為每一步的值為-1。最優(yōu)路徑是懸崖上方的那條,因為它只需要13步,值為-13。我使用上面的2td(0)方法來確定它們是否在上面以獲得最優(yōu)路徑。

            實驗環(huán)境如下:

            在訓練中使用以下超參數(shù):

            • episodes:2000;
            • discounting factor:1;
            • Alpha: 0.1,這是學習率;
            • Epsilon: 0.1, 選擇具有相同概率的所有動作的概率,用于ε貪婪算法。

            結果:

            Sarsa和Q-learning在收斂的時間上大致相同,但Q-learning能夠學習13個步驟的最優(yōu)路徑。Sarsa無法學習最優(yōu)路徑,它會選擇避開懸崖。這是因為它的更新函數(shù)是使用貪婪的方式來獲取下一個狀態(tài)-動作值,因此懸崖上方的狀態(tài)值較低。

            Q-learning在更新中使用了下一個狀態(tài)動作值的最大值,因此它能夠小心地沿著邊緣移動到目標狀態(tài)G。下圖顯示了每個訓練論測的學習步驟數(shù)量。為了使圖表更加平滑,這里將步驟數(shù)按20個一組取平均值。我們可以清楚地看到,Q-learning能夠找到最優(yōu)路徑。

            圖片

            下圖顯示了2種算法的在線性能*這些值再次以20組為單位進行平均)。我們可以看到,Sarsa的性能比Q-learning更好。這是因為隨著Q-learning學習獲得最優(yōu)路徑,偶爾會發(fā)現(xiàn)自己陷入絕境,因為要更新的狀態(tài)動作對的生成遵循了貪婪算法。而Sarsa學會了避開靠近懸崖的狀態(tài),從而減少了靠近懸崖的機會。

            圖片

            總結

            這個簡單的例子說明了Sarsa和Q-learning之間的比較,我們總結兩個算法的區(qū)別:

            Sarsa和Q-learning都是基于時態(tài)差分法的強化學習算法,它們在解決馬爾可夫決策過程(MDP)中的強化學習問題時有一些重要的區(qū)別。

            1. 更新策略:

              • Sarsa:在Sarsa中,更新策略是"狀態(tài)-動作-獎勵-下一個狀態(tài)-下一個動作",即更新后的動作與下一個狀態(tài)相關。這意味著Sarsa在更新值函數(shù)時會考慮在新狀態(tài)下采取的下一個動作,因此其學習過程更加穩(wěn)定,可以學習到策略的各種特征。
              • Q-learning:Q-learning的更新策略是"狀態(tài)-動作-獎勵-最大值動作",即更新后的動作是在新狀態(tài)下具有最大值函數(shù)估計的動作。這使得Q-learning更加傾向于學習最優(yōu)策略,但也可能導致其學習過程不穩(wěn)定,容易受到噪聲干擾。

            2. 學習方式:

              • Sarsa:由于Sarsa在更新時會考慮在新狀態(tài)下執(zhí)行的下一個動作,它更適合于在線學習和與環(huán)境進行交互時的應用。Sarsa在實際應用中可能更加穩(wěn)定,但也可能會收斂較慢。
              • Q-learning:Q-learning更傾向于學習最優(yōu)策略,但由于其更新策略不考慮實際執(zhí)行的下一個動作,可能在一些情況下收斂更快,但也更容易受到噪聲的影響。

            3. 探索策略:

              • Sarsa:由于Sarsa考慮了在新狀態(tài)下執(zhí)行的下一個動作,它在學習過程中傾向于跟隨當前策略進行探索,可能更適合于需要較多探索的任務。
              • Q-learning:Q-learning在更新時不受當前策略的影響,更容易在學習過程中進行探索。然而,這種無關探索策略可能導致Q-learning在某些情況下過度探索,陷入不收斂的狀態(tài)。

            4. 應用場景:

              • Sarsa:適用于需要穩(wěn)定學習過程、重視探索的任務,或者在與環(huán)境進行交互時進行在線學習的情況。
              • Q-learning:適用于傾向于學習最優(yōu)策略的任務,或者在需要快速收斂時的情況。

            這兩種算法只是強化學習領域眾多算法中的兩種,還有其他更高級的算法如Deep Q Network (DQN)、Actor-Critic等,可以根據(jù)問題的復雜度和要求選擇適當?shù)乃惴ā?/p>

            最后如果你想自行進行試驗,這里是本文兩個試驗的源代碼:

            https://github.com/mirqwa/reinforcement-leaning

            作者:Kim Rodgers


            *博客內容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



            關鍵詞: AI

            相關推薦

            技術專區(qū)

            關閉