予測の未来(米国MAMより)

━━━━━━━━━━━━━━━━━━━━
数学月間SGK通信 [2016.04.26] No.112
<<数学と社会の架け橋=数学月間>>
━━━━━━━━━━━━━━━━━━━━
レイティング(評価)とランキングの数理
Amy Langville(ラングビル)
Professor, Mathematics Department, Operations Research Analyst,
College of Charleston

2012年にCarl Meyerとの共著 “No.1は誰か:レイティング(評価)とランキングの数理” が出版
[訳註:共立出版より同名の訳書あり]されると,企業,法律事務所,同僚,学生などから,
彼らのデータを解析支援する要棲を定期的に受けるようになった.
最近の興味深いプロジェクトのいくつかと,今年の数学月間のテーマ”予測の未来”
にふさわしいツールを説明しようと思う.
まず,タイムリーな応用[MAMは4月]は,3月の狂気(March Madness)です.
毎年恒例のNCAAカレッジ・バスケット・トーナメント.数百万人のファンが
この一月続くトーナメントの各試合の勝者を当てようとします.
[訳者より:ブラケット・チャレンジというのは,インターネットで行う
CBS sports serviceが提供する各試合の勝者を当てポイントを競うことらしいが,
よく知りません.米国事情に詳しい方,米国バスケットの3月の狂気と
ブラケット・チャレンジについて教えてください].

まず,同僚Tim Chartier(Davidson College)と一緒に,数学モデルのみに基づき
ブラケットを提出する方法を学生に教えます.
そのときの2つのモデル(Colley and Masseyモデル)は,チームの評価に線形システムを用い,
もう一つのモデル(Eloモデル)は,反復更新を使います.
長年にわたって,学生のモデルはよい結果を出し,ある年などは提出された
すべてのブラケットの99のパーセントを得点しました.
毎年,モデルに洗練を加えるために,学生たちは質問をしデータを集めます.
例えば,コーチ,チーム団結,トーナメント経験のような因子をどのように導入したら良いのか?
怪我は因子にどのように入れることができるか?
我々は、今年のシンデレラ・チームを予測することができるだろうか?

もう一つのスポーツ応用:オリンピック・アスリートのデータ分析で,
私の学生と私は米国オリンピック委員会を支援しました.資源の効率利用の観点から,
委員会はどのアスリートがメダルをとるか予測したい.この問題を解くためには,
回帰とシミュレーションを用います.他の問題は,国の資金がどうであれ,
アスリートにより多くのメダルを獲得する動機を与えなければならない.
この第2の問題に関する適切なデータを得ることは困難だった.
それで,英国を含む他国の促進プログラムがうまくいったかどうかに調査を広げました.

次に,Amazonの「これを買った顧客はこれも買う」のような推薦システムを議論します.
また,どの映画を顧客に推薦するべきか,どの歌が特定のリスナーのプレイリストを満たすか,
どのスポーツ用品を顧客に推薦するべきかなどを予測したい小規模の新興企業からの要請に答えるために,
私は同僚Tim Chartierとチームを組みました.共通のテーマは,企業が集めたデータを,
顧客の行動に影響する役立つ予測のために,どのように使用するかということです.
この問題を解くために,典型的にはクラスタリング(クラス分け)と最隣接クラス分けのツールを用います.

昨年,Rootmetricsから,携帯電話を評価する現在の彼らのシステムの改良の依頼がありました.
学生Tyler Periniは,うまく接続し伝達できる物理過程をエレガントにモデルしたマルコフ連鎖を立て,
現在の評価システムのもつ多くのタイがある曖昧さをなくすことができました.
Charleston大の同僚,哲学教授と心理学教授,からは,
彼らの謙譲プロジェクトで集めたテキストデータの解析の要請がありました.
ゴールは,書かれたサンプルを解析して謙譲の個人レベルを決定することです.
学生 Tyler Perini は,テキストを混合するツールを開発しました.
それは,与えられた短いテキストサンプル(ツイートやfacebook今何してるより長くない)で,
著者が謙譲か謙譲でないか予測する.
謙譲な著者は,"and”,”we”,”all”,”each other”を含み,
謙譲でない著者は,"they", "people","them", 排除的"or"などの距離を取る言葉を使う.
次のステップで,人文科学教授が研究するのは,自己抑制である.
スピーチに基づき自己抑制の低さを予測する我々のツールが,
子供たちの行動訓練を提供することを願っています.

もう一つのテキスト・マイニング・プロジェクトでは,Charleston大の大学院生は,
今年の大統領選挙戦で候補のテキストを分析しています.
彼らは,若干の面白い傾向を見つけました.
たとえば,Donald Trumpの辞書(彼の使う語彙)は,Hillary Clintonのおよそ3分の1です.
フィールドが狭くなって,有権者がどのように1人の候補から他方の候補者へ支持を移すかを予測するために,
彼らは測度の同一性とマルコフ連鎖を使います.

最後に,同僚の妻は私に非常に難しい問題ー卒業の後の医学実習生と病院との安定結合問題ーを提案しました.

データが至る所にあることは,上述の問題の多様性から明白です.
衛星からスマートフォンまで,大小のソースから,データは絶えまなく集められています.
将来は,指数関数的に多くの予測解析法を持つことになり容易に予測ができるようになります.
現在は,数学,コンピューター・サイエンス,データ科学,統計学を専攻するには素晴らしい時代です.
これらの組み合わせはさらにうまく行きます.

ここまでは,MAMのエッセイ http://www.mathaware.org/mam/2016/essay/ からの翻訳でした.

選挙の開票で,まだ開票率が35%なのに当確が出たりします.これはレイティングの予測で
トーナメントの勝ち数の推移から1番を予測するのと同じようなものです.
また,webサイトのページを渡り歩き,あるサイトで買い物をしたとすると,
それに導いたwebサイトの貢献率はどのようなものでしょうか.
googleのweb各ページのレイティングはどのように計算するのでしょうか.
サイト間の遷移行列を作り,この行列を作用させた結果新しい状態になると考えると
何度も遷移が繰り返された結果収束する状態が各ページのランキングになります.
つまり,遷移行列のn乗の固有ベクトルを求めることになります.
ここに線形代数が使われるし,現在の状態だけで次の状態が決まるというマルコフ連鎖にもとづき
遷移行列を決めることができます.