ビッグデータによる参院選予測

━━━━━━━━━━━━━━━━━━━━
数学月間SGK通信 [2016.07.05] No.122
<<数学と社会の架け橋=数学月間>>
━━━━━━━━━━━━━━━━━━━━
■現代は,衛星からスマートフォンまで大小のソースから,さまざまなデータが絶えまなく集められています.
検索サイトのgoogleやyahooにはビッグデータが蓄積しています.
ビッグデータの様々な利用法やそのための解析法も急速に発展しつつあります.
世論調査は従来から,RDD(無作為抽出)の電話によるアンケート形式で実施されているのだが,
先日,yahooのビッグデータを用いた参院選挙当選予測が発表された.
http://docs.yahoo.co.jp/info/bigdata/election/2016/01/
それによると改憲勢力が2/3に達しそうな情勢という.

■webサイトを渡り歩き,あるサイトで買い物をしたとする.そこに導いた各webサイトの貢献率は如何様なものだろうか?
googleの各webサイトのレイティングはどのように計算しているのだろうか?
サイト間の遷移確率を成分とする遷移行列*)を作り,この行列を各サイトの状態に作用させた結果,
各サイトの状態は新しい状態になる.何度も遷移が繰り返されると,状態が収束するとして,
各webサイトの状態(貢献度,ランキング)を求めることができる.
*)各webサイトを頂点とし,頂点間の遷移を矢印で表すと,有向グラフができる.
サイト間の遷移確率をこれに書き込むと遷移行列になる.

■さて,選挙の当選予想に戻るが,Amazonの「これを買った顧客はこれも買う」のような推薦システムや,
企業が集めたデータから,顧客の行動を予測をしている.これにはクラスタリングと最隣接クラス分けのツールが用いられる.
投票行動の予測もこれに類似したものであろう.
ビッグデータをどのように解析したのかわからないので,何とも言えないが,
過去に実績のある推測法らしいので当たるかもしれない.
http://searchblog.yahoo.co.jp/2012/12/yahoobigdata_senkyo.html
例えば,ある本の購入数,あるワードの検索数など,関係のなさそうな事柄と各政党の得票との相関を重ね合わせ予測がなされる
(投影法という).定義した注目度という量を各候補の当落の評価関数に用いている.
なぜ各事柄と得票に相関があるのか,各相関を重ね合わせる時のウエイト付の意味など説明できないことだらけだが,
予測結果が実際と合うように決める.因果関係の筋が通っていないものは,私には信用できないが,
絡み合った因果関係の“複雑系の世界”とはそういうものなのでしょう.
地球のどこかで起きた蝶の羽ばたきが,後日離れた地でハリケーンの進路を変える原因になる
かもしれないという“バタフライ・エフェクト”の世界ですから.

そして,思いもよらぬ事柄の些細な変化で結果の逆転も起こり得ます.
予測は不安定ですので信じるのはほどほどにしないと誘導され易い運命論者になってしまいます.