在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁(yè) > 博客 > 獨(dú)家 | 115個(gè)A/B測(cè)試的分析結(jié)果︰平均提升為4%,大部分缺乏統(tǒng)計(jì)檢定力(1)

            獨(dú)家 | 115個(gè)A/B測(cè)試的分析結(jié)果︰平均提升為4%,大部分缺乏統(tǒng)計(jì)檢定力(1)

            發(fā)布人:數(shù)據(jù)派THU 時(shí)間:2021-10-20 來源:工程師 發(fā)布文章

            作者 : Georgi Georgiev

            翻譯:Gabriel Ng

            校對(duì):張玲

            從115個(gè)公開的A/B測(cè)試中你能夠得到什么信息?通常情況下并不會(huì)太多,原因在于大部分情況下,你只能看到有關(guān)被測(cè)對(duì)象的基本數(shù)據(jù)和A/B測(cè)試結(jié)果。另一方面,置信區(qū)間、p值以及其他針對(duì)不確定性的度量則往往被遺忘,而即使有,它們的計(jì)算也不盡人意,又或者背后的統(tǒng)計(jì)過程沒有分享出來,使得它們實(shí)際上難以使用。一個(gè)數(shù)據(jù)來源︰GoodUI.org有稍微好一點(diǎn)的方法,在他們網(wǎng)站上發(fā)布的每一個(gè)測(cè)試都附上了基本的統(tǒng)計(jì)信息︰用戶數(shù)量、每個(gè)測(cè)試變量的轉(zhuǎn)換以及被試對(duì)象是什么。

            筆者決定收集這些數(shù)據(jù),并對(duì)這115個(gè)測(cè)試(在下文展示)進(jìn)行統(tǒng)計(jì)上的元分析。除了對(duì)A/B測(cè)試或轉(zhuǎn)換率優(yōu)化活動(dòng)的樣本的平均結(jié)果作出總結(jié)以外,這樣做更多的是為了在設(shè)計(jì)和分析A/B測(cè)試時(shí),能作為一個(gè)更好的統(tǒng)計(jì)習(xí)慣的指引。

            一個(gè)主要發(fā)現(xiàn)是相對(duì)于預(yù)期的結(jié)果和成本經(jīng)濟(jì)邏輯,大約70%的測(cè)試有著低下的檢定力,暗示著有自選停止的問題。經(jīng)過數(shù)據(jù)修剪和統(tǒng)計(jì)上的調(diào)整后,余下的85個(gè)測(cè)試顯示出4%以下的平均值和中位數(shù)相對(duì)提升,當(dāng)中統(tǒng)計(jì)顯著的平均值為6.78%,中位數(shù)為5.96%。

            因?yàn)镚oodUI這個(gè)樣本并不能代表所有完成的A/B測(cè)試,所以對(duì)于整個(gè)A/B測(cè)試流程的任何形式的一般化都應(yīng)該謹(jǐn)慎處理。

            筆者首先會(huì)討論初始數(shù)據(jù)必要的修剪,然后分享元分析的詳細(xì)結(jié)果,最后作出一個(gè)簡(jiǎn)短的總結(jié)。

            統(tǒng)計(jì)意義上的重新計(jì)算和數(shù)據(jù)修剪

            GoodUI上的數(shù)據(jù)有對(duì)統(tǒng)計(jì)顯著度的計(jì)算和置信區(qū)間,同時(shí)也有結(jié)果的自評(píng)︰"不顯著"、"有可能"、"顯著"、"強(qiáng)",兩個(gè)方向都有。數(shù)據(jù)也包含了所觀察到的百分比改變。因?yàn)橛袌?bào)告的樣本大小,也能對(duì)檢定力作出計(jì)算。

            以百分比變化形式展示,整個(gè)數(shù)據(jù)集的觀察效應(yīng)估計(jì)分布如下︰

            1.png

            我們可以看到,結(jié)果幾乎服從正態(tài)分布,效應(yīng)提升的平均值在12.33%,除了右邊有重尾分布。這個(gè)問題我們?cè)谙旅娴奈恼聲?huì)展開討論。效應(yīng)提升的中位數(shù)是4.89%,代表著在50%的測(cè)試中觀測(cè)到的效應(yīng)提升小于4.89%,而真實(shí)的效應(yīng)提升可能更小。注意這里也包含了那些沒有通過95%顯著性檢驗(yàn)的測(cè)試的觀察效應(yīng)提升。

            統(tǒng)計(jì)顯著度和置信區(qū)間的重新計(jì)算

            很不幸的是,在人工提取每個(gè)測(cè)試的用戶數(shù)目和轉(zhuǎn)換后,筆者需要優(yōu)先重新計(jì)算統(tǒng)計(jì)顯著度(p值)和置信區(qū)間的上下限,原因是網(wǎng)站上的統(tǒng)計(jì)信息有兩個(gè)問題︰

            1. 顯著度和置信區(qū)間的計(jì)算都是以雙邊對(duì)立假設(shè),而非單邊對(duì)立假設(shè)作為基本,而在進(jìn)行方向性的推斷時(shí),顯然單邊對(duì)立假設(shè)更合理。

            2. p值(統(tǒng)計(jì)顯著度)和置信區(qū)間是為了計(jì)算絕對(duì)差異,但推斷目標(biāo)卻是百分比改變(百分比提升)。因此,筆者用了恰當(dāng)?shù)膒值和置信區(qū)間來表示百分比提升。

            第一個(gè)重新計(jì)算有著較預(yù)期少的不確定性,而第二個(gè)重新計(jì)算則有著較預(yù)期高的不確定性。整體上,相較原來的顯著性水平和置信區(qū)間,重新計(jì)算使得不確定性減少,原因在于單邊對(duì)立假設(shè)的修正抹除了百分比提升的改正。

            我們可以看到,115個(gè)測(cè)試中有18個(gè)測(cè)試結(jié)果重新評(píng)級(jí)︰

            2.png

            根據(jù)GoodUI的定義,有︰

            p值小于等于0.03為強(qiáng)結(jié)果,p值小于等于0.25為可能結(jié)果,p值大于0.25為不顯著結(jié)果。每一個(gè)評(píng)級(jí)結(jié)果都是連續(xù)的(例如若果p值為0.01,則測(cè)試的評(píng)級(jí)不能同時(shí)為強(qiáng)和可能)。GoodUI也定義了每個(gè)評(píng)級(jí)所需要的樣本大小,但這是不合理的,因?yàn)閜值的恰當(dāng)計(jì)算包括了樣本大小的調(diào)整,這比GoodUI粗略的做法來得好。

            按照更為經(jīng)典的p值閾值︰0.05(95%置信度),我們獲得了45個(gè)統(tǒng)計(jì)上顯著的成功結(jié)果和12個(gè)統(tǒng)計(jì)上顯著的失敗結(jié)果(分別為整體測(cè)試的39.13%和10.43%),余下的58個(gè)測(cè)試(50.44%)則有著不顯著的結(jié)果。恰當(dāng)p值的分布如下︰

            3.png

            這是p值在0.05以下的測(cè)試的觀測(cè)效應(yīng),恰當(dāng)計(jì)算后,提升效應(yīng)百分比的單尾p值如下:

            4.png

            當(dāng)然,比起整體,這些測(cè)試有著較高的平均值和中位數(shù)︰22.94%和7.91%,但它們只占115個(gè)中的57個(gè)。

            不平衡測(cè)試的移除

            115個(gè)的測(cè)試中的3個(gè)(#55,#72,#90)在對(duì)照組和實(shí)驗(yàn)組的用戶數(shù)目上有著顯著的不平衡。在第一個(gè)情景中,相較于對(duì)照組(樣本大小為每組200,000+),實(shí)驗(yàn)組有著16%更多的用戶數(shù),而在其后的兩個(gè)情景中,分別為9%和13%更少的用戶數(shù)(樣本大小為20,000+和10,000+)。我們可以猜測(cè)以下原因︰不恰當(dāng)?shù)碾S機(jī)化、技術(shù)問題引致一部分用戶沒有體驗(yàn)整體實(shí)驗(yàn)、采用了如多臂老虎機(jī)或在測(cè)試期間重新平衡臂的類似方法等等。

            唯一合理的解釋是隨機(jī)化過程中,實(shí)驗(yàn)組和對(duì)照組流量分配不均,數(shù)量如此之多,以至于筆者懷疑就是這么回事。

            如果原因是以上任何一種不合理的解釋,那么很明顯地任何以這一數(shù)據(jù)為基本的統(tǒng)計(jì)分析都會(huì)是帶有偏差的。由于出現(xiàn)了妥協(xié)性隨機(jī)化,并且筆者高度懷疑有意的不均等分布,筆者決定在最后的分析中移除以上3個(gè)測(cè)試。

            明顯妥協(xié)性測(cè)試的移除

            在對(duì)A/B測(cè)試進(jìn)行統(tǒng)計(jì)設(shè)計(jì)和分析時(shí),一個(gè)常見的問題是在沒有任何統(tǒng)計(jì)上的調(diào)整下,多次地重復(fù)窺探數(shù)據(jù),以獲得所需要和希望的數(shù)據(jù)。這種方法一般被稱為︰”顯著度等待”。

            只需幾次觀察就能大大地提高顯著(名義上的)結(jié)果的似然性好幾倍,即使真實(shí)的觀察可能性非常低。舉個(gè)例子,一個(gè)有著實(shí)際上0.08p值的測(cè)試,在經(jīng)過5次窺探后,就可以得到一個(gè)名義上的0.025 p值,這里實(shí)際上的p值大大偏離了0.05閾值,且是名義上的p值的3.2倍?,F(xiàn)在我們有多種方法去觀察收集數(shù)據(jù),而其中一種是”敏捷A/B測(cè)試方法”。

            發(fā)現(xiàn)妥協(xié)性測(cè)試的一種方法是尋找檢定力低得不切實(shí)際的測(cè)試。我們可以通過詢問自己以下問題來達(dá)到這一效果︰如果我正在設(shè)計(jì)測(cè)試時(shí),考慮到干預(yù)的規(guī)模、 X%真實(shí)提升的預(yù)期效益、固定成本、可變成本等等,我會(huì)對(duì)什么樣的功效水平感到滿意(在文章Risk vs. Reward in A/B Tests: A/B testing as Risk Management一文中有詳細(xì)介紹怎樣選擇合適的樣本大小檢定力和顯著性水平)。

            舉例說,沒有人會(huì)在變量只有輕微改變(例如按鈕的內(nèi)容文字)的情況下,去設(shè)計(jì)一個(gè)有著90%檢定力,去偵測(cè)20%相對(duì)變化的測(cè)試。在這種情況下,去預(yù)期干預(yù)有著巨大程度的結(jié)果是不現(xiàn)實(shí)的,也會(huì)因?yàn)闇y(cè)試的檢定力低下而白白浪費(fèi)測(cè)試資源。所以當(dāng)人們?cè)跊Q定合理樣本大小和最小可檢測(cè)效應(yīng)時(shí),一個(gè)應(yīng)該自問的問題是︰怎么樣的結(jié)果是令我們鼓舞的?是1%,2%,5%,還是20%?問題的答案因測(cè)試而異,但在A/B測(cè)試中很少會(huì)高于10%。

            因?yàn)樯鲜鲈颍侠淼脑O(shè)計(jì)者不會(huì)在大于40%的最小可檢測(cè)效應(yīng)(Minimum detectable effect, MDE)情況下,設(shè)計(jì)有著90%檢定力的A/B測(cè)試,原因是這會(huì)使得偵測(cè)任何低于MDE的真實(shí)效應(yīng)的機(jī)會(huì)變得非常低。這一點(diǎn)從熟悉的”效應(yīng)大小/檢定力函數(shù)”的圖像中就能看到。

            5.png

            如果真實(shí)相對(duì)提升為50%,那么根據(jù)圖像,測(cè)試會(huì)有90%的機(jī)會(huì)有著顯著結(jié)果。

            上圖來源是A/B測(cè)試統(tǒng)計(jì)計(jì)算器,在圖中能看到如果要以90%檢定力去偵測(cè)50%的真實(shí)提升,那么只有45.7%的可能性偵測(cè)到25%的真實(shí)提升,且對(duì)于越小的真實(shí)效應(yīng),其可能性也越小。筆者并不對(duì)在這些水平下仍經(jīng)濟(jì)上合理的測(cè)試感興趣。而且對(duì)于大部分測(cè)試,即使是在數(shù)據(jù)修剪前效應(yīng)大小的中位數(shù)也有著4%-5%。這進(jìn)一步說明在顯著高的水平下設(shè)計(jì)有著最小可檢測(cè)效應(yīng)的測(cè)試是不合理的。

            所以如果我們希望在115個(gè)測(cè)試中偵測(cè)出妥協(xié)性測(cè)試,在90%檢定力下,觀測(cè)測(cè)試效應(yīng)大小的分布是一個(gè)值得的舉動(dòng)。下圖是實(shí)際結(jié)果(平均最小可檢測(cè)提升是27.8%,中位數(shù)是20.84%)︰

            6.png

            第一眼就明顯的情況是︰

            1. 有一大堆測(cè)試,它們的設(shè)計(jì)者認(rèn)為測(cè)試有天文級(jí)別的改善效果。

            2. 有一大堆測(cè)試,只有在天文級(jí)別高的結(jié)果下才經(jīng)濟(jì)合算。

            3. 有一大堆人在沒有固定樣本大小的前提下進(jìn)行測(cè)試,而且常常窺探數(shù)據(jù),最后若無其事地分析結(jié)果。

            筆者認(rèn)為情況3最有機(jī)會(huì)代表大部分的測(cè)試。即使沒有像情況3那樣做,他們也是用了某種恰當(dāng)?shù)南嗬^性分析。正確的測(cè)試是這樣的︰p值的計(jì)算吻合固定樣本大小測(cè)試的計(jì)算結(jié)果,而且它們只有在固定樣本大小的測(cè)試下才變得合理。

            通過對(duì)每一個(gè)測(cè)試的干預(yù)進(jìn)行人工檢視,結(jié)合筆者對(duì)于在這些干預(yù)中的合理效應(yīng)大小的知識(shí),以及A/B測(cè)試的經(jīng)濟(jì)效益。筆者得出了自己(某程度上的主觀)的評(píng)估結(jié)果,在115個(gè)測(cè)試中的80個(gè)(69.57%)是低檢定力的,從而筆者懷疑當(dāng)中有不同程度的自選停止。這里,筆者必須指出其假設(shè)已經(jīng)是相當(dāng)寬松的。

            雖然如此,筆者仍無意為了闡釋評(píng)估結(jié)果中的主觀部分,而單單對(duì)30個(gè)測(cè)試作出分析,故筆者決定只移除最為明顯的出錯(cuò)例子︰在90%檢定力和0.05(95%信賴度)顯著水平的情況下,有著最小可檢測(cè)提升為大于等于40%的測(cè)試。注意,筆者在檢定力的計(jì)算中已是十分寬松,因?yàn)樵贕oodUI的分類中,p值的閾值為0.03,而不是0.05。

            數(shù)據(jù)修剪的結(jié)果是,有25個(gè)測(cè)試被移除,因未解釋的自選停止(數(shù)據(jù)窺探)下而出現(xiàn)了明顯的妥協(xié)行為。因?yàn)闆]有關(guān)于窺探次數(shù)和時(shí)間的信息,我們沒有辦法去對(duì)p值和信賴區(qū)間作出調(diào)整以抵償數(shù)據(jù)的窺探。被移除的總測(cè)試數(shù)變成28(當(dāng)中3個(gè)是因?yàn)椴黄胶獾臉颖敬笮。晒┓治龅臏y(cè)試有87個(gè)。

            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

            帶通濾波器相關(guān)文章:帶通濾波器設(shè)計(jì)


            波段開關(guān)相關(guān)文章:波段開關(guān)原理


            分頻器相關(guān)文章:分頻器原理
            隔離器相關(guān)文章:隔離器原理
            鑒相器相關(guān)文章:鑒相器原理


            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉