私たちが生きている世界には、
身近なことから人類全体に関わることまで、
さまざまな問題が溢れています。
意外に知られていない現状や真相を、
本学が誇る教員たちが興味深い視点から
解き明かします。
データサイエンスの本質は、データ分析を通して目の前にある問題を解決することです。問題解決とは、具体的には次にとるべき行動を決めることと言えるでしょう。ビジネスで売り上げが伸びないのが問題であれば、費用をかけて広告を出す、営業の人員を増やす、などの施策を決めて行動することになります。その際、どのような選択をすべきか適切な意思決定をするためにデータサイエンスが役立ちます。重要な意思決定であるほど「本当にこれでいいのだろうか」という迷いがつきものです。また、協議では意見がなかなかまとまらないケースも珍しくありません。こうした中で客観的なデータがあれば「確かにこれを選ぶのが妥当である」ということを可視化・共有しやすくなります。問題解決に向けて決断する勇気をもたらし、合意形成の助けとなる点もデータサイエンスの価値だと考えます。
私の研究はデータ分析に用いる手法の開発で、統計的モデリングと呼ばれる分野です。統計的モデリングはあらゆるデータ分析の場面で用いられます。ある現象から取得されたデータの背後には、どのような構造があるのか。その構造を数式=数理モデルに置き換えれば、次に出てくる値、つまり将来の予測が可能です。より予測精度が高く汎用性のある統計モデルを構築するために、スパースモデリングやベイズモデリングという既存の理論を応用した新しい手法の開発に取り組んでいます。実際の現象を予測するのではなく、その予測に使える妥当なモデルはどのようなものか推定する手法であり、理論研究となります。そのため、今私が取り組んでいる研究はこんなことに役立つ、あるいは役立っているという実感は得にくいです。しかし、新しく開発した手法では、モデルの重要な構成要素を選び出す精度等が向上している事実が実験によって判明しました。これはモデル改良という研究成果の一つと言えるでしょう。
データの背景にある現象を表現する数式(数理モデル)を、データから求める
私たちが得られるのはデータだけであり、実際には現象を完璧に正しく認識することはできません。
そのような中では、予測精度が高く汎用性のある数理モデルをデータから求める手法
(統計的モデリング)が重要になります。
研究のおもしろさは多面的ですが、その中でも「世界の仕組み」のヒントが見える点に楽しさを感じます。統計学は簡単に言うと「データから知見を獲得する」ものですが、実は誰もが頭の中で行っていることを数式やデータを使って再現することとも言い換えられます。何らかの画像を見たとき、私たちはそこに人間の顔が写っているのか、それとも風景や物なのかを瞬時に判断できますが、それは「人間の顔はこういうものだ」ということを過去の経験=データから学んでいるからです。データ分析によって人の顔が写っているかどうかを判定するときも同じようなメカニズムでモデルを構築します。データ分析の手法を学んだり、改良したり、新しく開発する中で「この現象はこのようにして起こるのか」と気付いたとき、世界の仕組みに少しだけ触れられた手応えを感じます。余談ですが、統計的モデリングによって説明することができた現象のうち、最も楽しかったのは「年齢を重ねれば頭が固くなる」ことでした。
最近では、開発した新しい手法を用いてバスケットボール選手のパフォーマンス評価を行いました。バスケットボールは5人対5人のゲームで、プロリーグになると各チーム常時10人程度が試合中、選手交代を繰り返しながら戦います。例えばAチームの特定の5人が、Bチームの特定の5人とコート上で対峙し、10回の攻撃を行い6点入ったとします。通常、バスケットボールは100回の攻撃あたり何点入ったかで評価するため、評価は60点です。そこで、この5人の組み合わせ=平均60点、のように原因と結果を数式で表します。こうして得失点を変数とし、選手の組み合わせや、ホームでの試合かアウェイかといったフルシーズンのデータを当てはめて、各選手の攻撃と守備における貢献度を測りました。
A, B, C, D, E, F, G の7人のチームから5人と、a, b, c, d, e, f, g の7人のチームから5人がコートに立った時の
100攻撃回数あたりの得点を表現した数式(数理モデル)
上記の図のように、数理モデルで現象を表現することで、どのようなモデルの係数を推定すれば
各選手の攻撃や守備の能力を評価することに繋がるのかを明らかにすることができ、
データからその評価が可能になります。
統計的モデリングの重要なポイントは、今ある限られたデータから、いかにその現象の全体的な傾向を掴めるかどうか。本研究は、今コートにいる選手と得失点との関係について全体的な傾向をとらえることで、選手の平均的なパフォーマンスを評価したものです。もしかするとここで挙げた要素より、運・不運や選手の体調などの方が試合の得失点に大きく影響するかもしれません。しかし、今手元にあるデータから、より客観的な判断材料を得られることは、チームのマネジメント層が選手の年俸を決めたり、他チームから選手をスカウトしたりする際に有用でしょう。
理論研究だけでなく、企業のビジネス上の課題をデータ分析で解決する共同プロジェクトにも携わっています。一事例として、ガソリンスタンドの地下にある巨大なタンクの中にどれくらいの燃料が残っているかを、データから正しく推定する取り組みを行いました。通常、地下タンクは底面から液面の高さによって残量を評価しますが、タンクが巨大なため、わずかな傾きや凹みがあるだけで評価値に狂いが生じます。そこで、過去にタンクから燃料を使用したり、補給したりした際に評価値がどのように変化したか、その傾向からタンク内の燃料の量を統計モデリングの手法を用いて量りました。この研究では、地下タンクにどの程度の燃料が本当に残っているのかが不明だったため、私の考案した手法によって問題が解決できるのかはずっとわからない状態でした。しかし、共同研究先の企業様に検証実験を行ってもらうことができ、私の手法に一定の精度があることが判明しました。担当者の方から感謝の言葉をいただくこともでき、それまでの理論研究とは一味違った達成感がありました。
企業との共同プロジェクトでは、私の専門分野ではカバーできない問題にも多く直面しますが、ふと問題を見る角度を変えると、思いのほか統計的モデリングの考え方で解決できる場合もあります。現在も企業が保有するデータの分析に携わっており、珍しいところでは、企業の従業員がデータ分析で問題を解決するための方法を開発しています。開発した手法を実際に一般の方に教える中で、より伝わりやすいアプローチを模索し続けています。研究で培ってきた知見を生かして目の前の人に喜んでもらうプロセスに、大きなやりがいを感じます。
研究では自分がおもしろいと感じ、価値があると信じられるテーマを追究しています。理論研究はゴールが見えないうえ、ある程度検討が進んでもスタート地点に戻ってしまったり、他の研究者に先を越されたりする場合があります。そのため、研究をしている時間は研究をすること自体が楽しいと思えるように心がけています。統計科学の研究の醍醐味の一つは世の中の役に立つことであり、自身の幸せと社会への貢献が一致するのはこの分野を志して良かったと思える点です。一方、企業との共同プロジェクトでは、相手の問題を解決するために何が必要なのか、そして解決の先に何が実現するのかを徹底的に考えます。どれほど高度なデータ分析を駆使しても、問題が生じている実際の現場を無視して解決に結びつくことはほとんどないからです。相手の問題を自身の問題としてとらえ、主体的に取り組める状況をつくることを大切にしています。
青山学院大学の経営学部でデータサイエンスを教えることには、大きな意義があります。今、社会ではデータサイエンティストの育成に注目が集まっていますが、私は専門的な知見を社会の利益として還元する役割が最も求められるようになるだろうと考えています。ビジネストランスレーターやデータストラテジストと呼ばれる職種です。特に重要なのがデータの分析結果を正しく理解できる能力。例えば、あるデータサイエンティストが、数あるデータ分析手法の中から私が開発したものを選び、それを用いて結果が出たとします。その分析結果はまだ単なる数字の羅列であり、そこから意味を読み取る作業が必要です。どのような手法なのか、なぜその手法なのか、ある程度理解ができないと解釈を誤る可能性が高くなります。私が育成しているのは、「この手法を用いているから、この数値はこうした解釈ができるだろう」という翻訳ができ、さらに次の打ち手を提案できる人材です。
経営学部の今年のゼミ生はデータ分析のコンペティションに出場するなど、すでに高度な手法を扱えるようになっています。従来の経営学部生のイメージからは想像できないレベルでデータ分析に精通した上で、経営学という専門性を有しています。こうしたデータサイエンスの専門家とコラボレーションできる土台を持った学生が、近い将来、社会で活躍してくれるだろうと確信しています。
いわゆる文系と言われる経営学部の学生たちですが、統計学やデータ分析手法についてゼミで勉強し、
データサイエンスによってどうやって企業の経営活動の問題を解決するのかについて研究を進めています。