在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 獨家 | 115個A/B測試的分析結(jié)果︰平均提升為4%,大部分缺乏統(tǒng)計檢定力(2)

            獨家 | 115個A/B測試的分析結(jié)果︰平均提升為4%,大部分缺乏統(tǒng)計檢定力(2)

            發(fā)布人:數(shù)據(jù)派THU 時間:2021-10-20 來源:工程師 發(fā)布文章

            從A/B測試的角度分析多元測試

            筆者遇到的另一個問題是如何把多元測試(一個對照對比多個變量)表達(dá)成兩個分別的A/B測試。筆者認(rèn)為這是可能的,因為兩者的對照完全一致,且多元測試和兩個連續(xù)的測試有著相同的樣本大小和轉(zhuǎn)換率。有一篇博客文章完整描述了其中一個測試的整個實驗,結(jié)果表明,不單單是一個多元測試,還有未被提及的其他變量。因為在多元測試中,為了反映對照是和多個變量進(jìn)行測試,我們需要調(diào)整p值和置信區(qū)間。這里便出現(xiàn)了問題,因為我們不能簡單地進(jìn)行成對的t檢定或z檢定,就像GoodUI中對一個個變量和對照進(jìn)行p值計算。

            p值和信賴區(qū)間的有效性所導(dǎo)致的后果和無從發(fā)現(xiàn)的數(shù)據(jù)窺探的后果相似︰相較報告中名義上的可能性,實際觀察結(jié)果的可能性會更高。由于筆者并不知道在每一個A/B測試中有多少個變量,所以不能夠?qū)Y(jié)果和最小可檢測效應(yīng)的計算進(jìn)行Dunnett修正。筆者知道其中兩個測試(#16和#17)的變量數(shù)目和它們的效應(yīng)大小大于40%,暗示著它們有未解釋的自選停止情況,故筆者決定把這兩個測試移除。

            筆者決定保留余下的測試,因為它們大部分在有著1至2個額外變量的假設(shè)下,仍然適當(dāng)?shù)乇3至藱z定力。

            A/B測試的元分析結(jié)果

            115個測試的元分析結(jié)果明顯有一部分測試(80=69.57%)欠缺統(tǒng)計檢定力,有著或多或少嚴(yán)重的方法論問題。其中,有27個測試因明顯妥協(xié)性測試而被移除。3個測試有著對照組和實驗組在人流分配上的顯著不平衡,故為了避免使用因技術(shù)上的可能問題而導(dǎo)致的偏差數(shù)據(jù),這3個測試也被移除。16個測試是8個多元測試分拆的結(jié)果,即使如此,我們?nèi)詻Q定有能力能合理地評估它們的誤差控制,它們當(dāng)中的2個被移除,余下的則繼續(xù)用作分析(有爭議的決定)。

            在移除3個不平衡隨機(jī)化的測試和27個因缺乏固定樣本大小和無從發(fā)現(xiàn)的數(shù)據(jù)窺探,導(dǎo)致統(tǒng)計上明顯妥協(xié)的測試后,能進(jìn)入元分析的測試有85個。(初始有115個)。

            85個測試的平均百分比提升是3.77%,而中位數(shù)提升是3.92%,其分布如下︰

            7.png

            上面的分布與有著平均值3.77%的正態(tài)分布十分相似,大部分的效應(yīng)(58%)在-3%和+10%之間??梢钥吹?,在數(shù)據(jù)修剪后大部分的極端高的結(jié)果都被移除,在最初的數(shù)據(jù)集中有8個效應(yīng)大于35%。這是因為在極端早的結(jié)果中,測試往往是在數(shù)據(jù)窺探、極端大的提升下就被早早停止。自然而然,這些結(jié)果也有著極端的不確定性。

            大部分效應(yīng)在10%提升以下的這一事實進(jìn)一步支持大部分測試的檢定力低下的論點,因為在115個測試中只有24個測試在90%檢定力和95%顯著度下,有著小于10%的最小可檢定效應(yīng)。

            統(tǒng)計上顯著(p<0.05)的測試的觀察效應(yīng)大小為︰

            88.jpg

            大部分測試的結(jié)果都落在0.54%-5.54%這一區(qū)間,而主體結(jié)果則在0.54%和20.54%之間。對于統(tǒng)計上顯著的測試,它們的觀察效應(yīng)大小的算術(shù)平均值為6.78%的提升,當(dāng)中50%的測試結(jié)果少于5.96%,而這些來自統(tǒng)計上顯著的結(jié)果的效應(yīng)大小自然地相較整體來得大。

            85個測試的p值分布如下︰

            99.jpg

            可以看到在85個測試中,只有39個(45.88%)有統(tǒng)計上顯著的結(jié)果,當(dāng)中8個是負(fù)值結(jié)果,大部分測試(20個)的p值落在0.05-0.1的范圍。

            當(dāng)有這么一大部分的測試沒有達(dá)到常用的顯著度閾值時,不禁令人懷疑當(dāng)中出現(xiàn)了什么問題。直接把它們視作無價值的測試而丟棄顯然不是個好做法。一般來說,我們會通過觀察檢定力和最小可檢測效應(yīng)進(jìn)行分析,以下是85個測試的最小可檢測效應(yīng)的分布︰

            8.png

            然后是在0.05閾值下不顯著的測試的分布︰

            777.jpg

            我們可以看到只有46個不顯著測試中的15個(32.6%)有著低于12%的最小可檢測效應(yīng)。對于這些測試我們可以把有著90%可能性的12%或更大的效應(yīng)大小排除掉。但對于余下的25個測試,因為它們的最小可檢測效應(yīng)非常大,以至于對它們的排除并不會帶來新的情報︰這些測試的干預(yù)程度使得如此大的效應(yīng)變得幾近不可能出現(xiàn)。

            另一個更加直覺地評估沒有被排除的效應(yīng)大小(被置信區(qū)間覆蓋的效應(yīng)大?。┑姆椒ㄊ怯^察置信區(qū)間︰

            9.png

            有一部分的測試有著圍繞零點的狹窄區(qū)間,它們都是檢定力良好的測試。當(dāng)中幾個更是正相等測試,即在這些測試中變量和對照之間很大機(jī)率沒有任何差異。GoodUI并沒有很好地利用這一點,而是粗略地把它們定義為”不顯著”,而失去了能從這些數(shù)據(jù)中獲取信息的機(jī)會。

            留意有著負(fù)值觀察結(jié)果的測試實際上也覆蓋了大程度的正值效應(yīng),反之亦然,這些都是檢定力低下的測試。一般來說,區(qū)間越寬,測試的檢定力就越低下。

            現(xiàn)在讓我們檢視一下統(tǒng)計上顯著的測試的置信區(qū)間,從中我們能了解觀察效應(yīng)大小和真實效應(yīng)大小的接近程度︰

            10.png

            我們可以看到絕大部分測試幾乎沒有排除到0%附近的區(qū)域,很多區(qū)間只坐落在0%附近的幾個百分點。如果筆者關(guān)于數(shù)據(jù)窺探的懷疑是正確的,那么這些測試的結(jié)果則相當(dāng)有問題。某些區(qū)間頗為遠(yuǎn)離0%,說明它們的數(shù)據(jù)很大機(jī)會反映了實際情況中會出現(xiàn)很大程度的差異。

            同樣地我們能看到比較狹窄的區(qū)間來自檢定力高的測試,而比較闊寬的區(qū)間則來自檢定力低下的測試。舉個例子,測試#36和#38都有著高于16%提升的下界,但測試#38的信賴區(qū)間較為闊寬,顯出它是檢定力低下的,而下界遠(yuǎn)離0%的原因來自較大的觀察效應(yīng)大?。ㄒ卜浅S锌赡苁钦鎸嵭?yīng)大?。.?dāng)然,以上假設(shè)的前提是測試中沒有出現(xiàn)數(shù)據(jù)窺探和其他統(tǒng)計上的濫用問題。

            討論和重點

            在115個測試中只有31個有著統(tǒng)計上顯著的正值結(jié)果(在數(shù)據(jù)修剪后),這比起其他行業(yè)報告中如10%或5%的低數(shù)值來得要高。顯著性結(jié)果的缺失部分是由于大約70%的測試經(jīng)過分析都沒有很好的檢定力,另一方面則是因為測試中的干預(yù)不夠有效,又或者沒有造成明顯的負(fù)值效應(yīng)。而在考慮這些數(shù)字是否能代表行業(yè)情況時,也要考慮報導(dǎo)/出版的偏差。

            關(guān)于統(tǒng)計上顯著的正值測試,它們的平均百分比改變?yōu)?0.73%(中位數(shù)7.91%)。這一結(jié)果在測試時長方面部分受挫于統(tǒng)計上顯著的負(fù)值測試,原因是顯著測試的平均值是6.78%(中位數(shù)5.96%),而全部測試小于4%(平均值3.77%,中位數(shù)3.92%)。筆者相信即使這一數(shù)據(jù)缺失了其代表性,它仍能幫助告知決策者有關(guān)轉(zhuǎn)換率最優(yōu)化程序的可能結(jié)果,筆者也相信它能在從業(yè)者決定是否把最小可檢定效應(yīng)放到檢定力和樣本大小計算中時起到幫助作用。筆者在做出這些決定時全憑每個獨立A/B測試的水平,同時考慮到全部成本和回報,但外部基準(zhǔn)在評估與測試有關(guān)的風(fēng)險和回報時絕對有幫助。

            而在研究測試時也有機(jī)會忽略有關(guān)在任何顯著大小下的效應(yīng)缺失的有力數(shù)據(jù),原因在于相關(guān)測試被標(biāo)簽為”不顯著”。

            因為在元分析中的樣本并不具代表性,所以得出的結(jié)果在用途上會有一定限制。另一個值得考慮的問題是測試有著不同的主要輸出︰有的關(guān)注于改變輕微的點擊行為,有的關(guān)注于改善試驗注冊,購買率,等等。

            在報告中的測試沒有一個以收入作為主要KPI的,而當(dāng)中最少一個測試(#24)的主要輸出與以收入為基本的KPI有著直接分歧(測試的成功有可能損害到中期和長期的收入)。還有一個問題是缺乏有關(guān)測試中用到的停止準(zhǔn)則的信息︰如果以上提及的假設(shè)是正確的,而且有70%或更多的測試沒有被正確地實行,那么一大部分的測試結(jié)果有可能是帶有偏差的,且偏向任一方向的顯著結(jié)果。

            就A/B測試的收集和報告而言,筆者認(rèn)為重點相當(dāng)明顯︰確保適當(dāng)?shù)赜嬎憬y(tǒng)計量,而前提是需要知道測試在統(tǒng)計上是怎樣設(shè)計的。需要知道測試是固定樣本還是連續(xù)觀察的設(shè)計,如果是連續(xù)觀察的設(shè)計,那么分析的數(shù)目和時間又是多少。需要知道測試的變量數(shù),又在人流分配中有沒有任何值得懷疑的地方等等。這些都已經(jīng)在之前的文章或者其他地方中討論過。

            原文標(biāo)題︰

            Analysis of 115 A/B Tests: Average Lift is 4%, Most Lack Statistical Power

            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉