#安全性與保護力都不確定的疫苗可以拿來混打嗎?混蛋!只有混蛋會這樣想。
指揮中心說要由「專家」決定是否要第一劑打莫德納的人,第二劑用混搭高端來完成疫苗注射。指揮中心的專家決定,一向都是秉承上意的專家,就算是有專業,都可以遮掩住良心,揣摩上意做決定。這個先放一邊,讓我們想想一些基本的事情先:
一個保護力與安全性都還不確定的藥,單獨用是否適合,都還不知道,怎麼可以拿來混合使用呢?先不考慮高端,今天假設你有個藥物X,效果與副作用還沒有評估完成,你可不可以去評估X跟A藥物混用的效果與副作用呢?如果混用有效,你怎麼知道是A的效果還是X的效果?如果混用有副作用,你怎麼知道是來自於A還是來自於X?
很基本的概念,只有當兩者的效果與副作用發生的機率都很清楚了,我們才能夠知道混用之後的效果與副作用是增加還是減少。如果X本身都還不清楚,就跟其他混用,出來的結果將是一團亂,沒有多大意義。
當然,目前看起來指揮中心是要比較兩劑都莫德納與一劑莫德納一劑高端有沒有差異,但是無差異的研究,樣本數要很大才有效力。人數少少的兩組,很容易統計出來都是沒有什麼差別。這是真的沒有差別還是只是在玩統計的遊戲?
老實說,高端乖乖把三期臨床試驗做完,要怎樣都理直氣壯。今天高端三期都沒有做,你要做什麼都沒有道理。實情就是這樣簡單,指揮中心再怎麼辯解都沒有用了!
同時也有1部Youtube影片,追蹤數超過12萬的網紅朱學恒的阿宅萬事通事務所,也在其Youtube影片中提到,用民調判別民意走向,才能有正確的選舉方式。從科學角度,探究民意,才能夠掌握民意。 藍營每次都無法掌握民意,甚至還使出過蓋牌通通都不信的大家閉上眼相信我之術,最後不但大敗,而且還敗得比民調還慘。組頭都比政治人物相信科學呢! 請大家仔細思考吧。 民調以一個社會科學來講 它的科學性在哪裡 為什麼現...
「樣本數少統計」的推薦目錄:
- 關於樣本數少統計 在 千錯萬錯,柯神不會有錯!爹親娘親,不如小英主席親! Facebook 的精選貼文
- 關於樣本數少統計 在 玩遊戲不難,做營運好難 Facebook 的最讚貼文
- 關於樣本數少統計 在 Facebook 的最佳貼文
- 關於樣本數少統計 在 朱學恒的阿宅萬事通事務所 Youtube 的精選貼文
- 關於樣本數少統計 在 [心得] 影響A/B Test 所需樣本數的要素- 看板DataScience 的評價
- 關於樣本數少統計 在 研究中有些子群體,在統計上有意義但樣本數少 - YouTube 的評價
- 關於樣本數少統計 在 第7單元獨立樣本的推論統計| 心理科學基礎統計 的評價
- 關於樣本數少統計 在 以斯帖統計- 【最新課程資訊-樣本數估算(Sample size ... 的評價
樣本數少統計 在 玩遊戲不難,做營運好難 Facebook 的最讚貼文
【💡💡營運小教室-第32堂】🕹 A/B測試 重點分享 🕹
.
🔎文章同步部落格:https://bit.ly/3rPadlk
(圖文同步、畫好重點,閱讀更方便)
.
最近這兩週我在研究A/B測試,
何謂A/B測試我就直接引用文章內的話:
「針對某一需要改進的功能、頁面或是產品,提供兩種或以上的方案,合理分配流量,將不同方案发布給不同用戶。在運行一段時間後,結合各項指標和科學的統計方法,對比實驗數據做出決策,將最優方案更新給全量用戶。」
.
因此,A/B測試在現今網路行業中被用的相當頻繁,
Google更是把A/B測試視為圭臬,
大到一個功能,
小到一個按鈕的顏色都要做A/B測試,
也因為Google進行了大量的A/B測試,
把用戶旅程(user journey)中每個節點的轉換率一步步提高,
使得每次產品功能或是頁面的改動更符合多數用戶需求,
自然效能與績效就能極大化,
其他像是臉書、亞馬遜等電商公司,
都是將A/B測試納入必要的工作項目內。
.
專門在做這工作的人,
現在也有個很新穎的職務名稱叫成長駭客(Growth Hacker),
大家到104人力銀行搜尋就知道其工作內容,
這邊不贅述。
(注意,A/B測試只是成長駭客內的其中一個工作項目,並非成長駭客就只做A/B測試,差很多)
.
遊戲業坦白說在營運上不太會進行A/B測試,
因為用戶幾乎都從雙平台上下載遊戲,
如果要做A/B測試就只能在雙平台上著手,
新產品或許還能這樣做,
但對既有產品來說就不切實際點,
因此A/B測試通常會出現在廣告的買量測試中。
.
以下分享我自己在A/B測試上的心得分享:
.
1⃣A/B測試不代表一次只能測試兩個,你想測試2個以上也行,主要是得確認每個群體樣本數要夠多,如果樣本數太少,達不到性效度的話,做出來的結果就沒有參考價值。
.
2⃣如何確認有足夠的樣本數呢?身為營運人員,自家的營運數據自己最清楚,可以透過這個網站輸入母體大小,就會自動算出要多少樣本數才能達到統計顯著性。
👉https://zh.surveymonkey.com/mp/sample-size-calculator/
.
3⃣假設是投放廣告,如果不曉得母體會有多少,那可以用以下免費工具來反推,例如你想要達到的轉換率是1%提升到5%,這個頁面就可以幫你計算出兩個群體各自要曝光幾次才足夠,就能判斷預算會花多少。
👉https://clincalc.com/stats/samplesize.aspx
.
4⃣會需要計算上述的原因主要有兩個,一個是預算問題,另一個是在不確定風險下,建議做足夠樣本數就好。
👉舉例來說,如果今天某款遊戲每月付費玩家有10,000人,如果想改動一個功能,可能一開始會想到的做法是隨機5,000人分配到不同群組(也就是A/B測試為50% / 50%)。
.
但這樣就會有一個風險,萬一這個改動是失敗的,等於就會直接影響到5,000人,那在A/B測試期間,可能就開始蒙受不小的營收損失,或是等不到信效度出現就提早結束測試,因此如果能事前估出足夠的樣本數,就能降低上述風險。
.
以10,000人這例子,丟到頁面內,只要370人的樣本就能達到統計顯著性了,不用分到50% / 50%這麼多,只要5%就足夠了,這樣即使A/B測試不理想,也只會影響到那5%付費用戶。
.
5⃣要確保兩個群體是完全獨立,而非交集,如果有交集,就會影響分析結果。
👉這點比較吃技術的工,技術要能夠確保實驗對象進入A/B測試時會被隨機分派到不同群體內,如果因為裝置過多、版本不同等因素而導致有部分用戶既是A群體、也在B群體的話,那就會導致數據判讀出現錯誤。
.
6⃣不要在一個A/B測試還沒做完情況下,又緊接著做另一個A/B測試,除非能確定這兩個A/B測試是完全不相干,不然不但在分析時不容易分清楚每個群體,也很容易影響整個數據的分析。
.
7⃣做出來的結果到底有沒有達到統計顯著性,可以把數據輸入到這個網頁內,非常方便。
👉https://abtestguide.com/calc/
.
8⃣A/B 測試前,可以先執行A/A測試,先確認目前的隨機分配中有沒有其他的變異數,確保這兩個群體的整個營運數據夠乾淨。
👉由於測試的是群體內有沒有其他變因,而非方案本身,因此在流量分配上就能夠以50% / 50%進行。
.
以上就是我對於A/B 測試目前的經驗與心得分享,
如果要再探討下去絕對有更多的理論基礎與分析模組,
我自己也還在學習摸索中,
日後如果有甚麼心得或是勘誤,
我會持續更新在這篇文章中,
如果你有其他心得或是已經發現錯誤的地方,
也歡迎分享給我。
.
🔎參考資料:A/B 測試要測多久?從統計顯著與檢定力看廣告測試結果
https://bit.ly/3CcQAIL
.
🔎延伸閱讀:谷歌是怎么用A/B測試的
https://bit.ly/3lr6KYZ
樣本數少統計 在 Facebook 的最佳貼文
為何有人喜歡在車上看電影?
喜歡看影視作品的人多半有兩個心理需求。看的時候希望能全神貫注,不被打擾。另一種心理需求則是「獨樂樂不如眾樂樂」,最好過程都有人陪伴,跟著一起放聲大笑或是失聲尖叫。
喜歡全神貫注的人因為想看作品的細節轉折,深怕一個轉折會錯過關鍵線索。通常會以劇情類為主。喜歡「獨樂樂不如眾樂樂」的人則喜歡全場哄堂大笑,或是看驚悚恐怖片的時候能有人一起握拳。
最近全球電動車知名廠牌 #特斯拉 (#Tesla)統計全台車主使用劇院模式習慣與「前十大追劇排行榜」,這讓我們喜歡分析的樣本數,可以增加一些有趣的結論。特別是當你也對電動車有點興趣,或是你本身就是特斯拉的愛好者。
首先,特斯拉要做這個統計,也是對自家影音體驗效果有一定信心。畢竟在車上看跟在家坐在沙發看,狀況是截然不同的。行車過程總有遇到必須等待的時間,如何處理零碎的時間,特斯拉幫車主徹底實踐了充分利用時間成本的概念。
調查的車主觀影習慣來說,比如說Model 3與Model X好了。這兩款車型的車主在輪廓上也有些許不同,選Model 3多半以年輕科技為背景,Model X車主則重視家庭出遊功能等等。
根據資料分析,特斯拉有58% 的車主喜歡獨自觀賞 Netflix,其中,Model 3 車主較喜歡獨自觀賞,Model X 車主則較多與親友同樂。而且超過 70% Model 3 車主每週至少觀看一次以上。等等,要嘛這代表Model 3 車主出門遠行比例比較高,或是自己開車為主,所以獨自一人的時間自然比較長。Model X 多半有家庭成員,相對比較難花時間追劇。
然後車主最常觀看 Netflix 的時機依序為:超級充電時、等候接送親友或小孩時、想在車內獨處時。當然超級充電過程要花時間,有些車主會出來跟別人聊天,不過北部天氣狀況比較不明朗。待在車上還是相對舒服。
下面是特斯拉的調查分析:
兩大類型內容,三款車車主分別最喜歡的類別:
電視劇
Model S科幻/奇幻片 (#獵魔士)
Model 3 犯罪 (#紙房子)
Model X劇情 (#黑道律師文森佐)
電影
Model S 劇情 (#刺激1995)
Model 3 動作片 (#不可能的任務 系列)
Model X 科幻/奇幻 (#駭客任務)
不得不說,這選單品味非常硬漢啊,特別是電影部分。可以看出來,特斯拉車主似乎比較喜歡經典作品。Model S 畢竟比較早來台灣,喜歡IMDB影史TOP.250的亞軍之作《刺激1995》(The Shawshank Redemption)合情合理。(冠軍是《教父》,不過《刺激1995》屬於那種看到哪裡都能接起來重新回味的好片,《教父》就要很嚴肅看下去了。)
Model 3 車主偏年輕,喜歡看動作片系列也很正常。《#不可能的任務》系列重看率也很高,特別是第4集之後幾乎都有部分情節相關串聯,會讓大家一部接一部。(剛好跟《玩命關頭》系列有點異曲同工之妙)《不可能的任務》系列有非常多誇張的實景特技,不走大幅綠幕合成。這也是為何阿湯哥跳傘、攀岩、掛在重型運輸機外面、爬杜拜塔等知名動作場面會讓人一看再看。
特斯拉車主整體以男性為主的觀影體驗,動作、科幻是主戰場。加上特斯拉車內的影音條件不錯,給車主在等待的瑣碎片刻之餘,可以重溫過去看過的心頭好,也能協助追劇的時間整合,像近期話題十足的熱門台灣戲劇《#火神的眼淚》。另外長年在車主榜上的優秀作品像《#紙房子》(不是《紙牌屋》喔)、《#絕命毒師》(經典犯罪影集)、還有尺度比較限制級的《屍戰朝鮮》。還有老實說,如果我是車主,我在家真的也不方便看《#AV帝王》,畢竟家裡有小朋友,就很適合在車上追劇(笑)。
這回特斯拉推出「#Tesla移動電影院」活動,只要分享自己夢想中的創意「移動電影院」追劇地點與私藏片單,即有機會透過 Tesla App 遠端解鎖,以零接觸方式進入 Model 3 移動電影院,親身體驗具備絕佳音響系統的 Tesla 私人劇院空間(我之前只有略略體驗,還沒完整在車上追完一整部電影過呢)。
想要體驗的朋友可以上活動報名官網: https://www.tesla.com/zh_TW/campaign/theater
樣本數少統計 在 朱學恒的阿宅萬事通事務所 Youtube 的精選貼文
用民調判別民意走向,才能有正確的選舉方式。從科學角度,探究民意,才能夠掌握民意。
藍營每次都無法掌握民意,甚至還使出過蓋牌通通都不信的大家閉上眼相信我之術,最後不但大敗,而且還敗得比民調還慘。組頭都比政治人物相信科學呢!
請大家仔細思考吧。
民調以一個社會科學來講
它的科學性在哪裡
為什麼現在我們會說
民進黨現在執政幾乎完全看民調來做事
當初你是怎麼樣接觸民調
民調 因為我念政治系
那我是1975年念政治系
正好是美國行為主義的革命
民調其實就是
可以這麼講就是近百年社會及行為科學的結晶
因為我當時在念大學的階段
正好接觸到這一個行為主義革命
我非常投入到這個裡面
因為一般對政治學的了解都是傳統政治學 對啊
我們講的政治學是科學政治學
也就是說是政治科學
Political science
就量化的研究方面最出名的那當然就是
我們講說政治態度與行為的研究
以前我們不叫民調
民調比較像說是市調啊民調這些東西
不過無論如何
我講比較簡單一點
民調作為一個科學它的根據是在於說
它有嚴謹的統計學的基礎
然後有嚴謹的社會科學研究法的這些測量方法
那麼結合起來
然後再加上這個心理學
社會心理學 人類學等等等等
這些所謂其實是一個科技整合的東西
民調作為一個目前這個
了解一般社會大眾的政治態度和行為
做一個科學工具來講那是非常成熟的
董事長我可不可以問一下
因為你知道我們學電機的時候
物理有一個叫海森堡測不準原理
行為科學呢在調查方面
有沒有類似這樣狀況
因為我先講我見過很多很惡質的民調方法
他根本沒做民調
他就是打給你
我告訴你喔 這個我們今天要做個民調
但我告訴你朱學恒是一個徹頭徹尾的人渣
請問你支不支持人渣來選立委
像這樣子的干擾行為
在民意調查裡面
這個董事長是專家你要怎麼去隔離
isolate這一類的變數
而不會導致民調變成是誰做就可以操縱
我題目設計就可以操作 這要怎麼辦呢
我跟你講這很簡單
如果是蓄意要做假民調
那種就沒有什麼科學的可談
它不是科學 不是科學
所以假民調或劣質民調是很多的到處都是
如果你要講說憑什麼我要講我們這個是真正的民調
民調的過程裡面也會碰到很多
有些人故意惡作不表示真實態度
對不對 對
可是我用一個簡單的理論講
你可能也聽過大數法則
所謂的大數法則簡單講就是說
當你的樣本足夠大的時候
你的樣本所得到的一些估計值
比如說平均數
它會跟跟母體平均數會幾乎完全一致
那如果你的樣本夠大怎麼樣叫夠大呢
以目前來講其實100個樣本都相當大
100個就夠大啦
那我們都要求1000個以上的樣本數
比方說在我們說在百分之九十五信心水準的情況底下
我們希望因為任何調查都會有誤差
我們希望你這個誤差不會太大就正負三
在正負三的這樣的一個誤差範圍之內
我們是可以接受
那樣本那隱含的說樣本會多大呢
就是1068
1068個隨機取樣的樣本得到的
那它的估計母體的這個誤差
我們大概就是正負三
我的意思就是說
談民調的精準度要先撇開所謂假民調
假民調沒辦法去談
就完全沒辦法就跟玄學一樣
他是故意做假民調根本沒做民調對不對
沒有做民調宣稱做假民調然後還有數字
那他絕對不會把他的樣本拿出來給你看
那但是正規的民調
一定是經由這樣的一個非常嚴謹的程序
得到的一個就是抽樣完之後他還會訪談
訪談之後呢所得到的一個結果
你知道我從小到大
其實對政治不是那麼感興趣
我最近幾年才開始注意政治因為工作的關係
是從什麼時候開始民進黨才把
民意調查或是數據化的政治科學
當成那麼重要的一個施政依據
而不相信自己能夠聆聽民眾的聲音
那這個事情我覺得最近很嚴重
就民調不跌
他根本不在乎你在那邊靠北什麼東西
他認為都假的
這個狀況演變我覺得可能跟您當年的民進黨也不一樣
這個是怎麼一回事
這個我倒是可以提供你一個非常重要的理論跟經驗
理論是什麼
有一位非常...叫??一個德國人
他曾經講過一個好的政治人物
他必須具備一種能力
就是說能夠預期民意反應的能力
能夠預期民意反應的能力
不但是專制的君主也好或者是這個
民主國家的元首總統也好
都應該具有這種能力
因為這樣才能夠知道民心知道民意
民心之所向
但是這個
民調其實是可以補足這些政治人物的不足
因為天縱英明的這種政治領袖很少見
一般的這種很平庸的這些政治人物要怎麼樣去了解
影響民意在哪裡
你比方說好了 美國這麼大一個國家
美國總統怎麼了解美國選民的意向是什麼
當然是民調
除了民調還有什麼
那民調就是一定要很精準的民調
所以美國歷屆總統沒有一個不重視民調
所以重視民調不是一件錯誤的事情
在台灣才很奇怪
台灣在批什麼民調治國
這是一個完全錯誤的這是一個威權心態很重的
或者是對民調不了解的人講出來的話
你當然講說這個市井小民
比方說菜市場 夜市啦
那是輿情應該去搜集應該去了解
但民調跟這個輿情沒有互相排斥 沒有互斥
民進黨對於民調的態度
特別是過去 我講過去這5年好了
我覺得是跟過去是不一樣的
跟更長遠的過去是不一樣的
小英當政之後我有一個感覺
民調高她就很高興 民調低她就怪民調
我最後簡單的問一個問題
以游盈隆老師過去5年的民調的經驗
你覺得2022年民進黨好不好選
當然不好選
民進黨的政黨支持度
是一個很敏感的指標很好的指標
在測量政黨的社會支持
現在是最低的時候
民進黨次低的時候是在2018年的11月12月的時候
那時候就是慘敗的時候
慘敗的時候就是23
現在選戰都還沒開始你就已經22點幾了
怎麼可能好 不可能好
所以你現在要收拾殘局嘛
民進黨政府要怎麼樣收拾殘局來避免2022全軍覆沒
或者是2022能夠勉強維持目前兩都四縣市的局面
可不可能不知道
那顯然是一場苦戰
直播日期:游盈隆6/30
直播連結:https://www.youtube.com/watch?v=vxDJ45oODCE
樣本數少統計 在 研究中有些子群體,在統計上有意義但樣本數少 - YouTube 的推薦與評價
不要忘記總是謙虛humble,再加上未來更大規模的這個研究,reviewer 就會知道說,你也是有考慮到你自己可能是sample size、power 可能會不足的這個問題 ... ... <看更多>
樣本數少統計 在 第7單元獨立樣本的推論統計| 心理科學基礎統計 的推薦與評價
以下介紹兩類示範案例,說明計算實際次數與期望次數差異的統計數為何比較符合卡方分佈,以及示範分析程序。 7.1.1 適合度問題案例介紹. 有位在網路連載推理小說的作家, ... ... <看更多>
樣本數少統計 在 [心得] 影響A/B Test 所需樣本數的要素- 看板DataScience 的推薦與評價
[關鍵字]: A/B Testing
[重點摘要]:
- 幹嘛管 A/B Test 的樣本數?樣本數太少會怎麼樣嗎?
- 實驗檢定力會不足、測不出有用的結果
- A/B Test 的樣本數不是越多越好嗎?太多又可能有什麼問題?
- 經常看見顯著、但是效果小到沒有幫助
- 多蒐集樣本在商業上也是一種成本
- 是什麼因素影響 A/B Test 所需樣本數?
- 樣本標準差、Minimum Detectable Effect、還有型一、型二錯誤
A/B Test 是個看似簡單,實際上充滿統計學學問的領域
一個小動作做錯、也可能鑄成錯誤決策
「樣本數怎麼算」就是做 A/B Test 的產品設計者、行銷專家
還有資料科學家們永遠都在問的萬年問題
如果沒有在實驗前想清楚這個問題
很有可能讓你的產品團隊精心準備的實驗成為浪費時間
以下我將和大家分享三個議題:
*為什麼要計較 A/B Test 的樣本數?
*是哪些要素影響 A/B Test 所需樣本數?
*所需樣本數可以用什麼公式計算?
更完整的數學公式加上 Python 程式碼圖文介紹
歡迎參考我的網誌文章:
https://haosquare.com/calculate-ab-testing-sample-size/
## 為什麼要計較 A/B Test 的樣本數?
我們先稍微聊聊究竟資料分析為什麼要這麼在意 A/B Test 的樣本數有多少。難道,不是
只要做好隨機對照實驗(RCT)、在假設檢定看到顯著就能馬上下結論嗎?沒這麼簡單!
當 A/B Test 樣本數過少時,統計檢定力往往會不足,也就是,即使你的產品新設計確實
對使用者有幫助,商業實驗也看不出顯著性。更麻煩的問題是,如果產品每天能蒐集的樣
本很少,我們常會急切地天天盯著 A/B Test 結果看,如果看到資料反映出統計檢定顯著
,馬上下結論、結束實驗,這種在樣本數不足下「偷看」的動作會造成持續監控問題,其
中的抽樣偏誤會使得實驗的統計錯誤大大提高!此「偷看」問題我過去曾在本板分享過,
如果你有興趣,歡迎參考之前的文來複習:#1VGG3_Pu
而當 A/B Test 樣本數過多也不全然是好事情,不是資料越多就一定越好。首先,對某些
使用者流量還不太高的產品而言,每個樣本都超珍貴、多蒐集幾個樣本可能要花不少時間
。如果你蒐集了比你實際上需要還多很多的樣本,就會多浪費好幾天蒐集樣本、還對實驗
沒什麼貢獻。而且別忘了,A/B Test 會讓你的使用者看到跟平常不一樣的產品,這個不一
樣或許是暫時的、未來或許會變回原狀(因為你的實驗有可能告訴你使用者其實不青睞新
設計),因此我們當然希望因為 A/B Test 而看到這個「不一樣」的使用者樣本越少越好
,我們不會想讓太多人看到我們反反覆覆修改著產品設計的過程。
此外,當樣本數超級大的時候,通常 P 值(P-value)都會很小,換言之,只要你的樣本
數超多,幾乎都能看到統計顯著、拒絕虛無假設
但樣本數過多的統計顯著往往只伴隨著很小很小的效果
會是「不實用」的統計顯著。
(Statistically significant, but not practically significant)
舉例而言,假設有藥廠發明了一種藥,可以讓身高增加 0.2 公分,他們找了超大一群樣本
、也真的在實驗看出統計顯著性,但你會為了想長高 0.2 公分冒險吃這種藥嗎?這就是統
計顯著不太「實用」(Practical Significance)的意思。如果你還想知道樣本數過大還
會造成哪些其他 P-value 問題,推薦你細細品嚐以下這篇 Too big to fail 論文:
https://reurl.cc/XERbqg
總之,想要為產品高效率執行 A/B Test,我們要找個剛剛好的樣本數
不能太低、也不適合太高
## 決定所需樣本數的四大要素
### 1. 樣本標準差
> 樣本標準差越大、A/B Test 需要的樣本數越多
樣本標準差(Standard Deviation)衡量樣本內數值的離散程度,樣本內的數值如果很發
散,我們會更難結論兩組數據間的差異。直接舉個例子來想像,假設已經知道A地區的平
均身高是 165 公分:
* 如果你在B地區抽樣出 5 個人:158、163、170、172、177 公分
* 即使樣本平均是 168 公分,但是數據很發散(樣本標準差很大)
* 讓你不敢斷言「B地區平均身高高於A地區」,或許還要 30 個樣本以上才能下結論
* 如果你在C地區抽樣出 5 個人:166、166、167、168、169 公分
* 雖然平均數只比A地區高 2 公分,但是每筆數據都很接近 167 公分、資料相當集中
(樣本標準差很小)
* 你可能會在心中想著:只要再抽樣 3 個人、他們身高也同樣接近 167 公分的話,你
或許已經願意相信「B地區平均身高高於A地區」
樣本標準差的影響亦可以用鐘型曲線來視覺化。統計學常會對估計值畫出鐘型曲線來呈現
其分佈,A/B Test 兩組的樣本平均數分佈可以各自畫出鐘型曲線,很概略地說,(見下圖
)兩個鐘型曲線只要重疊的部分很少、就會有統計顯著。所以,樣本標準差對決定樣本數
的影響可以這樣思考:
* 鐘型曲線越「瘦高」,越不容易重疊(越容易統計顯著)
* A/B Test 樣本數越多,標準誤會越小、鐘型曲線會越瘦高
* 而當樣本標準差越小,標準誤也會越小
* 那就表示樣本標準差很小的時候,樣本數可以不用那麼多,鐘型曲線也能保持同樣瘦高
、同樣容易呈現統計顯著
* 「容易呈現統計顯著」的程度就是統計學家口中的檢定力(Statistical Power)
### 2. Minimum Detectable Effect (MDE)
> MDE 越大、A/B Test 需要的樣本數越少
Minimum Detectable Effect(MDE)是期望最小的指標效果差異,它是主觀設定的,它可
能取自於你的產品設計理念,例如幫 APP 某個按鈕換造型預計提升 10% 點擊率;也可能
來自於商業策略問題,例如這個 APP 按鈕的點擊率如果無法成長 10%,那將會不符成本、
不值得改變產品。
決定樣本數的時候就把 MDE 考慮進去,將會解決剛剛提到的「不實用」統計顯著問題,因
為你事先設定好你的數據至少要看到多大差異才算是實用,只要你使用剛剛好的樣本數來
做商業實驗,最後如果看到實驗呈現出統計顯著,其效果肯定不小於 MDE、必然是「實用
」的統計顯著(Practical Significance)。
Practical Significance 參考說明:
https://online.stat.psu.edu/stat200/book/export/html/119
在此囉唆提醒,MDE 是在 A/B Test 開始之前就(主觀)決定好的,MDE 不是指實際實驗
數據的兩組平均數差異(因為實驗還沒開始做、不知道實際差異)。
當你設定的 MDE 越小,實驗需要的樣本數越高;反之,MDE 越大,需要樣本數越少。就用
上個小節的「長高藥」來舉例吧,假設已知控制組的平均身高是 165 公分:
* 如果實驗者設定 MDE 為 1 公分
你陸續蒐集了幾個樣本分別是 166 公分、164 公分、172 公分
* 實驗組平均雖然比控制組高了 2 公分,你可能還是會心想:「不能結論長高藥有效!
或許有抽樣偏誤存在,是運氣好抽到一位特別高的樣本才有這種結果」
* 還要多蒐集很多樣本才敢結論到底有沒有長高效果
* 如果實驗者設定 MDE 為 20 公分
而你目前蒐集到幾個樣本分別是 187 公分、174 公分、189 公分
* 實驗組平均只比控制組高了 18 公分、不到 MDE 設定的 20 公分
* 但光是實驗組蒐集這少少 3 個樣本相對於控制組都有很大的效果
你是否也開始相信這個長高藥好像真的有效了?
此外,MDE 對樣本數的影響也同樣可以用鐘型曲線來想像。
* A/B Test 樣本數越多,標準誤會越小、鐘型曲線會越瘦高
* 而 MDE 越大,對照組的鐘型曲線會越往右邊平移、與另個鐘型曲線的重疊會越少
* 換言之,MDE 越大,樣本數即使少一點、鐘型曲線矮胖一點,也同樣容易出現統計顯著
### 3. 型一與型二錯誤
> 允許的型一與型二錯誤率越高、A/B Test 需要的樣本數越少
統計方法不是完美的,不管你進行假設檢定之後看到顯著或不顯著,都還是有機會讓你造
成錯誤結論。有可能抽樣時恰好運氣不佳,使得你抽到的樣本對於母體不具有代表性、無
法反映出母體的真實特徵,這種出現抽樣偏誤的隨機性會使我們錯誤推論資料。統計學家
將這種 A/B Test 「預期會發生」的錯誤分成兩種:
* 型一錯誤(α 或 Type-1 Error):
A/B 兩組其實並沒有差異,統計檢定卻因為隨機性判定成有差異(偽陽性錯誤)
* 型二錯誤(β 或 Type-2 Error):
A/B 兩組確實有差異,統計檢定卻沒有偵測到顯著(偽陰性錯誤)
如同人做的決策不可能完美無缺,統計檢定的型一與型二錯誤也不可能完全消除、但可以
被控制,分析者可以自己決定容許統計方法有多少型一與型二錯誤存在。在資料越多時,
你對估計值的衡量就越精確,(通常)也表示會產生的決策錯誤越少;反過來說,如果你
允許發生的型一與型二錯誤越少,需要的樣本數就會越多。
在此又要囉唆地註記,很多資料科學家會用檢定力(Statistical Power)來描述型二錯誤
,檢定力其實就只是 1-β、與原本的型二錯誤 β 一體兩面,只需要注意樣本數計算的統
計直覺會變成:如果分析者要求 A/B Test 的檢定力(1-β)越高、需要的樣本數也會越
多。
相對於剛剛討論的另外兩個因素(樣本標準差由資料決定、MDE 由產品設計者決定),一
般來說,我們執行 A/B Test 會選擇的型一與型二錯誤率幾乎都是按照統計學的慣例、不
太會更動:
* 型一錯誤設定為 α = 0.05
* α 也被稱為顯著水準(Significance Level)
* 這也是為什麼我們常常看到 95% 信賴區間
* 型二錯誤設定為 β = 0.2
* 也就是檢定力 = 1-β = 80%
## 究竟樣本數計算公式是什麼?
進行 A/B Test 的正確做法是預先決定實驗樣本數、並且禁止在蒐集到這個樣本數之前偷
看。那麼實驗樣本數究竟是怎麼算出來的呢?以下是計算方法的「經驗法則」:
n = 16 * sigma^2 / delta^2
經驗法則的意思是,此公式已經經過不少簡化, 並且計算內容已蘊含了上述的四大要素
更重要的是, 我們使用時要注意其包含了幾項假設:
* 實驗的 A 與 B 兩組樣本數大小相同
* n 是 A 與 B 其中一組的樣本數至少要是多少(注意 n 不是 A 與 B 的樣本數總和)
* 型一與型二錯誤依照慣例設定 α = 0.05 與 β = 0.2
* 假設實驗的 A 與 B 兩組樣本變異數相同(樣本標準差相同)
(如果你的實驗要改變以上假設, 就不能再用此經驗法則、要去找更完整的數學公式)
這個簡化後的經驗法則公式不限於資料型態,不管你的 A/B Test 目標是連續型資料還是
比例資料都能適用。我們可以用 Python 程式跑些模擬來驗證我們算出來樣本數的正確性
對模擬流程有興趣的話,請參考我放在 GitHub 的 Python Notebook:
https://reurl.cc/y7vaaE
此外,這個簡短的樣本數計算公式還可以用效果量的觀點來理解
統計學課本所說的 效果量(Effect Size)是衡量兩個變數之間關係的強度,我自己則更
喜歡把效果量想成考慮資料離散程度(變異數)後的效果大小相對值,又或者,效果量可
以想成是為效果標準化、以統一尺度來衡量效果。
在 A/B Test 情境,效果量經常使用 Cohen’s d 來計算。而上面這個公式,可以用
Cohen's d 來改寫(以下 Cohen's d 以 ES 表示):
n = 16 * sigma^2 / delta^2 = 16 / ES^2
where ES = delta / sigma
由此改寫後的公式來看,A/B Test 樣本數取決於標準化後的效果大小
換言之,樣本數是 Cohen’s d 的函數。
依此能看出把樣本數轉換成 Cohen’s d 的函數來理解的好處:
幫我們一眼看出「樣本數取決於效果大小」的統計直覺
## 小結
如果你在網路上用英文關鍵字搜尋過「Sample Size」
很可能看過 Evan Miller 設計的熱門 A/B Test 樣本數計算機
https://www.evanmiller.org/ab-testing/sample-size.html
網頁提到他用的正是 n = 16 * sigma^2 / delta^2 這個經驗法則公式
而網站中對公式說明不多、也無法一眼看出用到了哪些假設
希望這篇文章能幫助各位板友
更清楚理解網路上搜尋到的各種 A/B Test 樣本數計算機究竟算了什麼
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.225.5.200 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1687878735.A.FB3.html
※ 編輯: AgileSeptor (36.225.15.165 臺灣), 06/28/2023 11:29:09
... <看更多>