【ガチャ系の確率検証】11/13の鈴木けんぞう氏の動画についての補足

 

今回の記事は、要は「くじをn回引いてm回当たりが出た時、くじの当選確率pは幾らであるか」という問題で「p=m/n」と断定するのは早計であるという事実がもっと認知されて欲しいというものです。

 

 

 

執筆経緯

ポケモン以外のコンテンツも含めたあらゆる確率検証系の動画でこのような検証結果が下されており、その度にコメント欄にすら指摘が見当たらない事にモヤモヤしていたのですが、近日中に下の「RSEのロープーウェイ登山客」に関する鈴木けんぞうさんの動画を観た事を切っ掛けとして、この動画を検証材料として記事を書く事にしました。

 

煩雑になるのでnとmの値は序盤から代入していますが、これらはその度に代入すれば良いだけなので、あらゆる確率検証に役立つ思考過程をお届け出来ていると思います。 

 

 

youtu.be

 

 

 

具体的検証

 

今回は、「n(=8120)回中m(=100)回登山客が出現した際の登山客出現確率p」について検証します。

まず、pは現段階では未知数なので、x(0≦x≦1)と置き直して考えます。

 

関数式の導出

「m回当たりを引き、n-m回外れを引く確率」をf(x)とすると、

f(x)= xm(1-x)n-m nCm

 

上式にn=8120、m=100を代入して、

f(x)= x100(1-x)80208120C100   …(*)

 

8120C100= 5.2452081726022×10232とした上でこの関数式 (*)をツールに代入すると、各xの確率分布は下のような関数グラフで表される事が分かります。

 

 

※ (a)~(c)の画像は全て1つの関数グラフを徐々に拡大していったもの

(a)

f:id:Yugery:20201122214935p:plain

(b)

f:id:Yugery:20201122215130p:plain

(c)

f:id:Yugery:20201122215204p:plain

 

 

p=m/nの不確実性の証明

(c)の画像から、頂点のx座標は確かに100/8120(≒0.012315%)となっており正しい確率である確率は(今回の試行においては)最も高いのですが、それでも丁度この出現確率である確率は(今回の試行においては)(頂点のy座標より)4%程度に止まっている事が分かります。

 

これはつまり(今回の試行においては)p=100/8120となる確率が4%程度であるという事なので、やはりp=m/nという検証結果には問題があるということです。

 

 

pの割り出し

それではどのように出現確率を割り出すのかというと、y=0とf(x)に囲まれるグラフの面積を用いることで大まかに当たりを付ける事が出来ます。

 

まずは、全体の面積を求めてそれを100%とします。(先程の関数式 (*)をx=0~1の範囲で積分しただけです。)

 

f:id:Yugery:20201122215632j:plain(100%)

 

 

次に、(b)の画像からx=0.008~0.017以外は殆ど0であると目測し、実際にその範囲の面積を求めると、やはりこの範囲にpが存在している確率がほぼ100%である事が分かります。

断言出来ると言って良いのは、この0.8~1.7%という範囲までになります。

 

f:id:Yugery:20201122223734j:plain(99.996%)

 

 

最後に、ここからより絞るために全体に対して95%程度の面積となる範囲を目分量で探し、幾つかの範囲を適当に代入してみます。

 

今回のグラフ面積で95%となる範囲はx=0.01~0.015であり、あくまでも信頼区間ですが最終的には1.0%~1.5%という非常に狭い範囲までpを絞ることが出来ます。

 

f:id:Yugery:20201122223543j:plain(約95.854%)

 

 

(参考)

因みに、何故95%なのかというと、今回のような正規分布グラフの信頼区間が95%と言われているからです。(その辺りの詳細な理論については適宜ご自身でお調べ下さい。)

 

尚、これは「95%でpがこの範囲に収まる」という意味ではなく「100回この検証を試行すれば95回はこの範囲に収まる」という意味になります。

この検証を複数回行った際に毎度同じ結果になれば確かに前者の解釈で良いのですが、そのような奇跡が起こらない限りは基本的に後者の解釈が正解となります。

 

ただ、これはあくまでも統計学的な一般論であり、今回に関して言うと、既にある程度グラフの山の①幅が狭い、②高さが高い、③左右対称性が高いという特徴があるので、あとはnの値が大きくなる程この3つの傾向が増していき、より範囲を絞れるはずです。

 

 



以上になります。ここまで目を通して頂き、ありがとうございました。

何かご意見・ご質問等御座いましたら、下部のコメント欄までお願い致します。(ログイン済みはてなユーザー様のみを対象とさせて頂きます)