掲示板

No. 537

投稿日時: 05/12 システム管理者

3⃣回目は,確率と統計に関する話題です.(引用)30-second MATHS

■ ジローラモ・カルダーノ
1501年9月24日,イタリア,パヴィアで生まれる.
1520年パヴィア大学に入学.1525年パヴィア大学で医学博士号を取得;
ミラノの医師大学に入学を志願するが,1539年まで不合格.
1526年,Liber de ludo aleae『さいころあそびについて』を著す.
死後1663年に出版.これは,確率に関する最初の数学書.ブレーズ・パスカルやピエール・ド・フェルマーより1世紀も先んずる.【出典・ブリタニカ】
1536年,De malo recentiorum medicorum usu libellus『現代の医師による治療間違い100事例』を著す.
1545年,Artis magnoe, sive de regulis algebraicis『アルス・マグナ』を著す.この本には,ヴェネツィアの数学者ニコロ・タルタリアに負う三次方程式の解と,カルダーノの元従者ルドヴィーコ・フェラーリが発見した四次方程式の解が含まれる.【出典・ブリタニカ】
1576年9月21日,ローマで死去.


医師,数学者,地質学者,自然科学者,錬金術師,占星術師,天文学者,発明家であるカルダーノは,ルネサンス人(多方面に一流の能力を示す)の化身であり,レオナルド・ダ・ヴィンチの暗い鏡である.ダ・ヴィンチと家族ぐるみの付き合いもあった.レオナルド・ダ・ヴィンチは名声と栄光を手にしたが,カルダーノは不愉快な性格と超批判的な態度で,その才能を無にしてしまった.その知性は大いに求められたにもかかわらず,行く先々で嫌われることになった.
彼は,父の下で学んだ数学に転向し,2冊の本を書いた.そのうちの一冊『アルス・マグナ』(1545年)は,3次方程式と4次方程式の解法に取り組んだルネサンスの重要なテキストである.
彼はニッコロ・タルターリアから3次方程式の解法証明を引き出し,カルダーノは6年間は出版しないと約束したのだった.しかし,タルターリアが真実を略していたことを知り,カルダーノは出版に踏み切り,タルターリアや多くの敵から非難された.
カルダーノはギャンブルにはまっていた.ギャンブルは得意で,『Liber de Iudo aleae(さいころあそびについて)』という本を書いた.この本はギャンブラーやカジノのオーナーには大変人気がある.
カルダーノは,長く多作だが混沌とした生涯を送った後,1576年9月21日に死去した.彼は自分の死を時間まで予言していたと言われている.また,自分の予言が外れたことが証明されないように,約束の時刻に自殺したとも言われている.********************************************************

■ オッズと確率
●オッズとは,何かが起こる可能性を,それが起こらない可能性に対して測定して表す.
ある事象が起こる確率を 

pp 
,起こらない確率を 

1−p1−p 
とすると,起こるオッズは 

p/(1−p)p/(1−p) 

起こらないオッズは 

(1−p)/p(1−p)/p 
である.例えば,標準的なダイスで4が出る確率は1/6,4が出ない確率は5/6である.4が出るオッズは 

(1/6)/(5/6)=1/5(1/6)/(5/6)=1/5 
,通常の方法で表現なら,4が出るオッズは1:5となる.反対に4が出ないオッズは5:1である.これは,「勝つ1つの方法に対して負ける5つの方法」があることを意味する.
●確率とは,特定の事象が起こる可能性を,起こりうるすべての結果と比較する ことによって表現する方法である.
可能な結果の数に対する望ましい結果の数の比であり,0(可能性ゼロ)から1(確実)の間の数で表される.
例えば,フルデック(トランプの全カード)からカードを選ぶとき,ハートを選ぶ確率は13/52 または 1/4 である.
つまり,ハートを選ぶ確率は0.25である.

ブックメーカーは,起こりそうもない出来事(ロングオッズ)に対して,より良いオッズ(そしてより多くのお金)を提供するが,確率は低い.
40対1の馬に賭けるのは要注意,可能性はあるが,勝つ確率は1/41だ.
一方,2対3のようなショートオッズは,人気馬(勝つ確率は3/5)であり,勝つ確率は高いが配当は少ない.

■ ゲーム理論
何千年もの間,人々は三目並べからチェスやチェッカーに至るまで,戦略ゲームを楽しんできた.ジャンケンを例にすると,相手の行動にパターンを見いだせない限り,長期的な戦略としては,3つの選択肢から毎回ランダムに選ぶのがベストである.この方法でプレイすると,勝ったり負けたり引き分けたりが均等に起こる.これはゲームの「均衡」と呼ばれるもので,両プレイヤーがこの戦略を使っているかぎり,どちらかが戦術を変えて勝利数を増やすことはできない.
ゲーム理論の中心は,ジョン・フォン・ノイマンによって証明され,ジョン・ナッシュによって拡張された,膨大な種類のゲームが均衡を持つことが保証されているという有名な事実である.

ゲーム理論はゲームの研究を超え,政治学から人工知能にまで応用されている.しかし,ゲームにはまだ課題がある.2007年,カナダのジョナサン・シェーファー教授らは,チェッカーゲームにおける無謬の戦略を開発した.彼らのプログラムは絶対に負けない.しかし,コンピューターはチェスでは人間を打ち負かすことができるものの,このような完璧な戦略はまだ遠い夢である.障害となっているのは,チェスのゲーム展開の仕方が,宇宙に存在する原子の数をはるかに凌ぐためだ.

■ ベイズの定理
ある病気の検査の精度が90%だとする.ここで,無作為に選ばれた人ボブが,陽性と判定されたとする.
ボブが実際にその病気にかかっている確率は?
この質問は答えられない!もう一つ追加情報が必要だ.
すなわち,その病気がどのくらい一般的な病気なのかという情報で,
ランダムに選ばれた人がその病気に罹患している確率を知る必要がある.
仮に人口の1% がその病気に罹患しているとしよう.ベイズの定理は,検査が陽性であった場合に,その人がその病気に罹患している確率を求める方法を教えてくれる.1,000人の集団で,平均10人が病気を持っている(1%)として,そのうち9人が検査陽性(「真陽性」)となる.残りの990人は病気を持っておらず,そのうちの10%,つまり99人が検査陽性(「偽陽性」)である.偽陽性は真陽性より多く99対9で,ボブが病気である確率は11対1である.

ベイズの定理における事前確率の出現は,試行を繰り返して事象の頻度を決定しなければ,事象に意味のある確率を割り当てることはできないことを示唆している.

●ベイズの定理は,18世紀のイギリスに住んでいた長老派の牧師,トーマス・ベイズ(1702頃-1761)にちなんで名づけられた.
●偽陽性
医学的検査において,様々な要因により,実際には陰性であるはずの検査結果が陽性となってしまうこと.多くの検査環境において偽陽性が発生するため,陽性と判定される確率を正確に判断することは,事前確率を計算するのに十分なデータが揃うまで不可能である.
●真陽性
真陽性は真に正確な陽性結果であるが,偽陽性は検査の不正確さや失敗によって生じる不正確な陽性結果である.
●事前確率
統計学において,新しいデータや証拠が他の確率を計算する前に設定される事象の確率.事前確率は,確率のベイズの定理において重要な役割を果たす.

■中心極限定理
コイン投げなどの同じ条件で何度でも繰り返すことができる偶然の結果を伴う(ランダム)実験は,十分な試行回数があれば,出来事の頻度はそれが起こる確率に非常に近くなる.
大きな母集団を研究する場合も同様で,サンプル・サイズが大きければ大きいほど,出来事の頻度は,それが起こる確率に非常に近くなる.サンプルの平均は母集団の平均をよりよく表す.
平均値の推定精度は,標本サイズの平方根で良くなる.そして,測定対象のばらつきが大きい場合,良い推定値を得るにはより大きな標本が必要になる.この法則は,十分なデータがあれば,常に必要なだけ良い推定値が得られることを保証している.

確率と頻度の関係を示す最初の重要なステップは,1713年にヤコブ・ベルヌーイによってなされた.その150年後,イレーヌ=ジュール・ビエナイムとパフヌティ・チェビチェフの研究によって,これはさらに強化され,1909年,エミール・ボレルによって,推定値が最終的にわれわれの望むとおりになることの証明が完成した.
●中心極限定理
確率論で,サイコロ投げのような同等なランダム変数は,十分な試行回数を重ねると,その平均値は正規分布に向かうというのが中心極限定理である.その結果をグラフにプロットすると釣鐘型曲線を描く.

■ ランダム性のチェック
表(H)と裏(T)が連なる2つの長い列があり,それぞれがHHTHTHで始まるとしよう.一方は本当にランダムで,偏りのないコインを繰り返し投げた結果であるが,もう一方はそうではなく,人間が注意深く選んだものである.
どちらがどちらかを見分ける方法はあるのだろうか?
真にランダムならば,長期的には表と裏が同じ頻度で現れるはずである.
しかし,これだけでは十分ではない.すべての結果のペア(HH,HT,TH,TT)は,平均して,他のすべてのペアと同じ頻度で出現するはずである.すべての3連,4連,さらに長い配列についても同様である.
しかし,人為的にこれらの条件を満たすことは可能なので,これらすべてでも十分ではない.

最も単純な配列はHHHHHHH...で,これは明らかにランダムではない.他にもまだある.これは簡単に圧縮できるのだ.「100万の表」という表現は,この配列順序を非常に簡潔に表しており,誰でも完璧な精度で伝達し,再現することができる.
しかし,真にランダムな配列順序を圧縮することはできない.ランダムな配列順序を誰かに伝える唯一の方法は,それを全部書き出すことである.ランダム性と非圧縮性は本質的に同じものなのである.
ランダム性を数学的に検出するのは非常に難しい.

インターネットはバイナリ・シークエンス(0と1の長い文字列)で動いている.これをコンピュータが,私たちの使いたいプログラムやファイルに変換できる.最大限の効率を得るためには,これらの文字列はファイル圧縮ソフトを使って可能な限り圧縮する必要がある.
文字列が圧縮されると,予測可能なパターンや繰り返しパターンが取り除かれ,純粋にランダムなシークエンスと見分けがつかなくなる.したがって,完全に 圧縮された情報は,数学的には ランダムと同じである.
どの配列がランダムなのか?数学者でさえわからない。

■ ギャンブラーの誤謬 - 平均値の法則
コインを10回投げてすべて表が出たとき,次は裏の可能性が高いと主張したくなる.人々はこう言う.「表と裏が同じ確率であるという平均値の法則に従えば,裏が追いつき始めるに違いない」
ナンセンスである.いかさまなコインでなければ,前回の結果がどうであれ,次回に表か裏が出る確率は,表50%,裏50%と決まっている.ルーレットや宝くじも同様で,100回まわしてゼロが出なかったからといって,次にゼロが出る確率が上がるわけではない.イタリアで,53という数字が2年以上も宝くじに当たらなかった.その結果,多数の破産者と自殺者が出した.

コイン,ルーレット,宝くじの玉は無生物であり,以前の結果を記憶し,その頻度を調整する能力はない.
確率は,長い目で見れば,それぞれの確率に落ち着くだろう.いかし,それには本当に長い時間がかかる!
「平均値の法則」は,厳密には「大数の法則」の言い換えであり,過去の結果が直近の結果に影響を及ぼすと主張するために使うことはできない.

■ 確率の感じ方

人間の時間感覚の問題で,このような錯覚に陥り易い.イタリアの宝くじで,53という当たり番号が出ていないので,今度は絶対でると思い込み,破産者や自殺者を出した事例の紹介がありました.
十分大きな試行回数を重ねれば,それぞれの固有の確率に収束していく.これが、「大数の法則」ですが,この「十分に大きい」というのが曲者で人間の時間間隔とは合いません(試行回数の平方根に比例する速度で平均値に近づくのですが).

「まれな出来事は良く起こる」という逆説的なことも良く経験します.「まれな出来事」の起こる確率は小さいはずですが,「まれな出来事」の種類は非常に多いので,そのうちのいくつかは必ず起こる(どれが起こるかわらないが)ので,そのように感じるのでしょう.

地震の起こる確率は発生まで増加し続ける
地震調査委員会は,主要な活断層や海溝型地震(プレートの沈み込みに伴う地震)の活動間隔や次の地震の発生可能性を評価し公表しています.
南海トラフ地震について,マグニチュード8~9クラスの地震が30年以内に発生する確率が70~80%といわれます.これは南海トラフでは過去1,400年間に約90~150年の間隔で大地震が発生していることから,次の地震までの間隔を88.2年と予測したのが根拠です.1944年の昭和東南海地震や1946年の昭和南海地震が発生してから,2020年は約75年を経過しており,南海トラフにおける大地震発生の可能性が高まっていると言われます.太平洋やフィリピン海プレートが日本の下に沈み込むとき,引き込まれた日本列島が時々(周期的に)戻るのが海溝型の地震なので発生に周期ができます.
今年地震の起きる確率は1/88,この何十年も巨大地震が起きていないといっても,今年起きる確率はいつもと変わらず1/88と言っていいでしょうか.そうではありません.この場合の確率は一定ではないはずです.
地震は,地層にたまり続けたひずみが地層を破壊して放出される現象です.放出されるエネルギは,地層の強度や生じた断層の大きさなどから推定できます.結局,たまり続けた歪に耐え切れなくなって地層が割れるのですから,地震が発生する直前まで地層の歪は増加し続け,地震が起きる確率は,地震発生まで時々刻々増加して行くはずです.
その場所で地震の起きない年月が続いた後は,地震の発生確率は高まっているというのは本当でしょう.