
白底图 vs 场景图 A/B 测试:到底要测多少样本才不算“瞎折腾”?
嘿,朋友。咱们今天来聊个特实在的话题。你在做电商,或者搞运营,手里肯定有两样东西:一个是干干净净、没啥背景的白底图;另一个是热气腾腾、特有氛围感的场景图。你心里可能一直在打鼓:到底哪个好?用户更喜欢哪个?能多卖点货吗?
于是你想着,搞个 A/B 测试吧,用数据说话,这总没错吧?
没错,思路绝对正确。但问题马上就来了:你找了 100 个用户,50 个看白底图,50 个看场景图,结果场景图那组下单的人多了 3 个。这能说明场景图就一定更好吗?还是说,纯粹就是运气好?你心里没底。
这就是我们今天要掰扯清楚的核心问题:白底图和场景图做 A/B 测试,样本量到底要多少,结果才靠谱?
这事儿没个标准答案,但它绝对不是拍脑袋想出来的数字。咱们今天不掉书袋,就用大白话,把这背后的道道儿给你捋清楚。
别被“感觉”骗了,数据世界里“巧合”太多了
先给你讲个最简单的道理。你抛硬币,理论上是 50% 正面,50% 反面。但你实际抛 10 次,很可能出现 7 次正面,3 次反面。这时候,你能说这枚硬币有问题,偏向正面吗?不能,对吧?因为样本太小了,偶然性太大了。
做 A/B 测试也是一个道理。你看到的那 3 个用户的差别,可能就是“抛硬币”抛出来的偶然。如果你基于这个不靠谱的结论,把全站商品图都换成场景图,结果销量反而掉了,那可就亏大了。

所以,样本量的核心目的,就是为了 “过滤掉偶然,看到必然”。它就像一个筛子,筛孔的大小得刚好合适,太小了,什么杂质都漏过去了;太大了,又把金子也给筛掉了。我们要找的,就是那个能筛掉“随机波动”的最小样本量。
决定样本量的四个“关键先生”
那这个“筛子”的大小(也就是样本量)到底由什么决定呢?不是凭空想的,它主要跟你心里的四个“小算盘”有关。
1. 你期望的“最小提升幅度” (Minimum Detectable Effect, MDE)
说白了,就是你觉得多大的变化才值得你动手。如果你觉得,场景图比白底图,点击率能高个 5% 就很不错了,那这就是你的期望值。但如果你觉得,不搞个 20% 的提升,折腾半天没意思,那又是另一个标准。
这里有个坑:你期望的提升幅度越小,你需要的样本量就越大。为什么?因为一个小的变化,更容易被“随机波动”这种噪音给淹没。你想在嘈杂的环境里听清一句悄悄话,是不是得让说话的人多说几遍,或者凑得更近?一个道理。
2. 你当前的“家底”有多厚 (Baseline Conversion Rate)
就是你现在的转化率是多少。比如,你现在白底图的转化率是 2%。这个数字也会影响样本量。
一般来说,转化率特别高(比如 50%)或者特别低(比如 0.1%)的情况,都需要更大的样本量。为什么呢?因为转化率太低,就像在大海里捞针,你得看足够多的“海”(用户),才能确定你捞到的“针”(转化)是不是真的多了。转化率太高,同理,一点点波动都会被放大。
最常见的转化率区间(比如 1% – 10%),需要的样本量相对比较“友好”。

3. 你愿意承担多大的“犯错风险” (Significance Level, α)
这个通常叫“显著性水平”,一般我们设定为 5% (0.05)。它代表你愿意接受 5% 的概率,去犯一个“假阳性”的错误。
啥叫“假阳性”?就是明明白底图和场景图没啥区别,但你的测试结果却显示场景图赢了。你误判了。5% 的风险,意味着你做 100 次测试,可能有 5 次是被数据“欺骗”了。这是行业通用标准,大家都能接受。如果你想把这个风险降到 1%,那样本量就得翻倍往上涨。
4. 你有多大的“信心”去抓住那个提升 (Statistical Power, 1-β)
这个叫“统计功效”,听起来有点玄乎。简单说,就是如果场景图真的比白底图好,你有多大的把握能通过测试发现它。
通常,我们希望这个把握能达到 80%。也就是说,如果真有 5% 的提升,我们希望在 100 次测试里,能有 80 次能准确地抓住这个提升,而不是因为样本不够,错过了这个好机会。
如果你希望更有把握,比如要 90% 的把握抓住它,那样本量也得跟着涨。
一张表看懂:你的测试需要多少人?
光说理论有点干,咱们来点实在的。假设你现在白底图的转化率是 3%,你设定的显著性水平是 5%,统计功效是 80%。我们来看看,你期望的提升幅度不同,需要的样本量有多大差别。
(注意:这里的样本量是指“每个版本”需要的独立访客数,不是总和。)
| 期望提升幅度 (相对值) | 场景图预期转化率 | 每个版本需要的样本量 (约) | 测试总样本量 (约) |
|---|---|---|---|
| 5% | 3.15% | 约 62,000 人 | 124,000 人 |
| 10% | 3.30% | 约 15,200 人 | 30,400 人 |
| 20% | 3.60% | 约 3,600 人 | 7,200 人 |
| 50% | 4.50% | 约 560 人 | 1,120 人 |
看到这张表,你是不是有点惊了?
如果你想检测一个 5% 的细微提升,竟然需要超过 6 万人的样本!这在很多业务场景下,可能意味着你要测试好几周甚至几个月。而如果你觉得 20% 的提升才值得庆祝,那几千个样本就够了,几天就能测完。
这就是为什么很多小公司做 A/B 测试总感觉“测了个寂寞”,因为他们可能只测了几百个人就下结论了,这对于大多数指标变化来说,样本量远远不够,结果自然不可信。
白底图 vs 场景图,具体怎么选?
回到我们最初的问题。白底图和场景图,它们的特点决定了测试的难度和可能的结果。
- 白底图: 信息纯粹,用户注意力集中在产品本身。适合功能性、标准化的产品,比如螺丝钉、数据线。转化率可能比较稳定,但提升空间可能不大。
- 场景图: 有氛围,有故事,能激发用户的想象和情感。适合有设计感、需要展示生活方式的产品,比如家具、服装、咖啡机。它可能带来惊喜,也可能因为“干扰项”太多而让用户分心。
所以,你的测试到底要测多久,取决于你的“野心”有多大。
如果你只是想看看,换个图会不会让点击率有那么一点点变化,那你得做好打持久战的准备,因为小提升需要大样本。
如果你是想验证一个“大招”,比如你觉得场景图能带来颠覆性的体验,那你的预期提升幅度就很大,样本量要求反而没那么夸张。但问题是,这种“大招”真的存在吗?大多数时候,变化都是微小的。
别只盯着样本量,这些“坑”也得绕开
知道了样本量怎么算,只是第一步。实际操作中,还有很多细节会影响你的判断。
首先,测试时间要足够长,覆盖多个周期。千万别只测一个周一,就下结论。周一上班摸鱼的用户和周末逛街的用户,行为模式完全不一样。至少要跑满一个完整的星期,覆盖工作日和周末,这样数据才有代表性。
其次,流量要均匀分配。确保你的 A 组和 B 组用户,是从同一个池子里随机捞出来的,属性分布要基本一致。不然,一组全是新用户,一组全是老用户,那测出来的结果就不是图的差别,而是用户的差别了。
最后,别急着“杀掉”测试。有时候你看到一个版本刚开始数据领先,就兴冲冲地宣布胜利,然后关掉另一个版本。这非常危险!很可能只是初期的随机波动。一定要让测试跑到预设的样本量,或者跑到统计显著,再做决定。
聊到最后
所以,回到最初的问题:“白底图与场景图 A/B 测试的样本量最低要求是什么?”
答案是:没有一个放之四海而皆准的“最低要求”。它取决于你对“提升”的期望有多高,你现有的“基础”有多稳,以及你愿意承担多大的“风险”。
但记住一个原则:永远不要凭感觉做决定。在你开始测试之前,先用那些在线的计算器(搜索“A/B test sample size calculator”),把你的基准转化率、期望提升幅度、显著性水平和统计功效这四个参数填进去,让它帮你算出一个靠谱的数字。
这会让你对整个测试的规模和时间有一个清醒的认识。是准备打一场三天的闪电战,还是一场持续数周的持久战,心里就有底了。
做数据驱动的决策,最忌讳的就是心急。给你的测试足够的时间和样本,让数据自己说话,而不是你替它说话。这样,白底图和场景图谁更好,答案自然会浮出水面。









