私たちが生きている世界には、
身近なことから人類全体に関わることまで、
さまざまな問題が溢れています。
意外に知られていない現状や真相を、
本学が誇る教員たちが興味深い視点から
解き明かします。
私が専門とする数理統計学や多変量解析は、データサイエンスにも用いられ、現在非常に社会的関心が高まっている学問領域です。海外では10年ほど前から「データサイエンティストは21世紀で最もセクシーな職業だ」と紹介される(*)ほど注目が高まっていましたが、日本でも、特に近年企業の方が統計関連の学会に数多く参加されるようにもなり、データ分析を経営戦略等に生かしたいと考える層が急速に広がってきたように感じます。その背景には『統計学が最強の学問である』といったビジネス書や一般の方でも手に取りやすいような入門書が増えたこと、PythonやRなどデータ解析に用いることができる言語のアプリケーションが充実して、一般的なPCでも手軽に扱えるようになったことなどがあると思います。
統計学は、ビジネスや公共にとって非常に強力な武器であることは間違いないといえます。けれども、データの取り扱いや解析結果の解釈には細心の注意を払わなければ非常に危ういものにもなり得ます。データを正しく解析していけば、それまで見えていなかった視点が見えてくることもありますが、一方で、適切な手法でデータを処理し解析しなければ、誤った結果を導き出してしまうこともあります。そのためには各手法を正しく理解することも必要で、それぞれの仮定を満たした解析となっているか等を見極める力も大切です。不十分な理解のまま安易に扱ってしまえば、本来導き出されたはずの結論から離れてしまい、歩むべき道を間違えてしまうこともあるでしょう。
現在、経済的な側面からも非常に高い注目を集めている学問領域ですが、こうしたリスクを伴う分野でもあります。それだけに、経済学的視点を持った上で、必要となる数学的知識や思考を兼ね備え、適切な解析を行える人材の育成が重要視されています。数理統計学と経済学に通じて、両者を高度に結びつけることができるデータサイエンティストは、間違いなくこれからの社会に必要となる人材です。私たち大学教員は学術的発展を目指していくと同時に、そうした新しい人材を育成していかなければならない責任も持っています。私は現在、統計学の中でも「欠測値」に関する研究にも注力していますが、統計学やデータサイエンスがさらなる発展をしていく上で不可欠なこの研究を通じて、新たな解析手法の確立を目指すと同時に、多くの後進を育てていきたいと考えています。
*Harvard Business Review October 2012:「Data Scientist: The Sexiest Job of the 21st Century」 Thomas H. Davenport and DJ Patil
データサイエンスでは、複数の変数を同時に解析して解釈する「多変量解析」という統計的手法も用いられます。例えば人の健康に関する調査で、体調とともに「年代・性別・身長・体重・視力……」などのさまざまな項目を集めたとします。これらの一つ一つの項目が変数として扱われていくのですが、もし他の変数に目を向けず「身長だけ」をデータとして解析した場合、本来目的としていた人々の健康に関する解析結果を取得するのは難しくなります。多変量解析では変数を複合的に解析し、どのような性質の人にはどういった傾向を見出すことができるかなどの解析結果を導き出すことができます。
しかし、スムーズにデータがすべて集まれば良いのですが、例えば回答し忘れのようにデータが抜け落ちるものが出てきます。これを「欠測値」と言うのですが、どのように欠測値が発生するのかについては、Roderick J. A. LittleとDonald B. Rubinによって大きく以下3つのメカニズムがあると提唱されています。
1つ目の「MCAR」は例えばアンケート調査において、設問に対してうっかりミスの見落としで回答しなかったというようなケースです。この場合、欠測値が生じる確率はその変数も含め他の変数にも依存することなく、完全にランダムに抜け落ちていることになります。2つ目の「MAR」は完全にランダムに発生しているわけではないですが、データの欠測が他の変数と依存しており、その変数から欠測を説明できるもののことです。例えば収入に関するデータで、年齢が上がるにつれて収入について回答しなくなる確率が高くなるとして、このデータに年齢に関する変数が含まれているケースです。この場合、収入のデータの欠測は、年齢を条件としてランダムに生じていると説明することができます。そして3つ目の「MNAR」は先程の収入の例で言うと、今回は収入と年齢は依存しておらず、収入の高い人は収入について回答しなくなる確率が高いとします。つまり、データ内に収入の欠測を説明できる変数が含まれていないケースです。
こうした欠測値がある場合、それが「MNAR」だったとしても、どうにかして欠測値に対処しないとデータ解析が行えず、データの価値を見出せなくなります。もちろん欠測値を含む部分をまるごと捨てるという選択肢もありますが、それではデータの集計のために費やした時間やコストがもったいないですし、何度もデータを取り直すわけにもいきませんので、欠測値をどのように補っていくか、あるいは欠測値を含むデータをどのように扱っていくかということが、現代のデータサイエンスでは大きな問題となっています。下にあるグラフは、欠測値を含むデータに対しても統計的手法を用いることができるように提案したもので、より近似精度が高くなるよう数理的アプローチを加えることによって、近似精度を改善することもできます。
医薬品の臨床試験に関する現場では、参加している患者が疾患の影響や何かしらの理由で治験を継続できなくなるなど欠測値の発生は不可避のため、欠測データの取り扱いがガイドラインにも記載されています。今後は医薬の現場に限らず、データを扱っていく方は欠測値の扱い方に対して知識を持っている必要があるでしょう。
欠測値を含むデータに対するシミュレーション結果の図
サンプルサイズが十分大きくなれば赤の曲線に近づく。提案した手法(青)に数理的アプローチによる修正(ピンク)を加えることで、サンプルサイズが十分大きくない場合でも近似精度を高めることができる。
データサイエンスへのニーズが大きく拡大している今日、欠測値の問題も重要性が増しています。私自身、国土交通省の統計調査の処理に関する検討委員会に委員として参加しましたが、その中でも欠測値の処理に対する関心は一層高まっていると感じました。やはり統計学の重要性や有用性に社会が気付き始めたという点が大きいかもしれません。それは統計学を用いて導き出される解析結果やその解釈に価値があるということももちろんですが、それだけではなく、データを生かすためにはデータと向き合うことが大切だということが認識され始めたことでもあります。
統計学は数学を応用しているので、そこに感情や主観が入り込む余地は本来ありません。データサイエンスでは、データの収集から解析結果の解釈に至るまで、その姿勢を貫くことが大切です。もしかしたら頑張ってデータを収集し、苦労して複雑な解析をした結果、「何も言えませんでした」という結論に至ることもあるかもしれません。しかし、それは今回のデータからは言えなかったということもある。データを扱ううえでの統計学や数学の知識、素養を有していれば、調査計画やサンプルの集め方、解析方法の変更などの見直しもできるでしょう。思うような結果が出なかったからといって主観に走って強引な解釈をすることは、あってはならないのです。
統計学への期待が高まり、急速に利用する機会が増大している中、そうした「統計リテラシー」が必要になってきていると感じています。また、解析に主観を持ち込まないことはもちろんですが、個人情報を含むデータの収集や管理方法などを意識して統計に向き合わないと、法律上・倫理上の問題へと発展することもあります。データ解析の手法や結果に対して強い関心を持つだけではなく、その先にあるさまざまなことへの知識や感性、想像力を持つことが大切で、それがなければデータ解析はただの処理作業になってしまいかねません。
統計学は学問ではありますが、行き着く先は世の中で使ってもらうことだと思います。統計理論を中心に研究を行ってきた私が、現在、経済学部で教鞭をとらせていただいているのも、数理的な追究にとどまらず、社会における統計学のあり方に強い関心を抱いたからです。数理からの理論的アプローチと社会への経済学的アプローチ。そして客観性や倫理に基づく統計リテラシー。こうした素養を身に付けることで、統計学によるデータ解析を、社会で役立てられるものとして活用できるようになります。
欠測値の取り扱いや多変量解析の手法はあくまでもひとつの”ツール”に過ぎません。データを数理的に解析し、社会的・経済学的に解釈した上で、統計リテラシーをもって解析結果を何にどのように生かしていくのか。その一連の流れがすべて「データサイエンス」だと考えています。細かな手法の理解や追究とともに、そうした大きな視点も失うことなく、統計学を社会に役立てていければと思っています。(2022年11月公開)