数学月間企画講演(第14回;2024.10.12)で,以下の講演が行われた。
説明可能な機械学習== 統計的学習によるハイパフォーマンスモデル ==
徐 良為;SLW代表、(株)NTTデータ数理システム 顧問
e-mail: liangweixu2205@gmail.com
youtube: https://www.youtube.com/@ai_dentaku
1.機械学習の役割と課題
データセット$${x}$$と$${y}$$が与えられたとき,最良の関数$${f(x)=y}$$を求める。$${x}$$は説明変数;$${y}$$は目的変数と呼ばれる。$${f}$$はモデルと呼ばれる。①関数モデル$${f}$$の形を仮定し,②評価すべき誤差関数の定義をし,③誤差関数の最小化(最小2乗法など)を行う。
$${f}$$の形は無数に存在し,現実世界でのこのモデルによる予測が正当かどうかの検証が必要である。モデルで予測できるのは,データの連続性に基づいている。
線形モデルでは検証は容易であるが,ニューラルネットワークは,多段の隠れ層を経由しており,非線形関数も含まれるので,検証は難しい。
機械学習の抱えるジレンマは,予測精度を向上させるためにモデルが複雑になるのだが,複雑になるほど説明力が失われることである。
そこで,限られたデータ範囲の中で,説明可能なシンプルな近似モデルを探すことになる。説明可能とは,予測対象の目的変数に対して,説明変数の寄与条件と寄与度合が明確であることである。
線形モデル,決定木に従うモデルなら,説明は容易だが,現実問題に対しこれらのモデルは予測精度が対応しきれない場合がある。
2. 説明可能な機械学習、「AI電卓」の技術概要
予測精度の高いモデル構築を,電卓を扱うように簡単に実現できるのが「AI電卓」である。AI電卓モデルは,ルールに関する線形結合である。
これらの各対応する条件(ルール)を満たすと,$${r_i}$$は1となる。それぞれに対応する係数$${\beta_i}$$はそのルールの寄与である。
多数のルールの線形結合であるモデルで,誤差が小さくなるようにフィッティングし,多くの$${\beta_i}$$が0となるものを見つける。つまり$${\beta_i}$$に対応するルールを取り除くことができて,説明可能なモデルが得られる。ルールを絞り込むことが知識の発見につながる。
3.Kaggleで検証
Kaggleとはデータ分析コンテストで,特定のテーマに対し予測精度を競う。分析専門家のモデルに対し開発しているAI電卓(機械的自動化)モデルの性能比較をするために参加している。AI電卓の現状は,大規模学習データ(数百万件)から,トップ予測精度モデルになるまでの機械学習の時間は1週間程度かかっている。参加チーム4728中で上位2%以内に入る成績を達成している。
(講演録作成/文責)谷