AGU RESEARCH

世界を解き明かすコラム
ー 研究者に迫る ー

私たちが生きている世界には、
身近なことから人類全体に関わることまで、
さまざまな問題が溢れています。
意外に知られていない現状や真相を、
本学が誇る教員たちが興味深い視点から
解き明かします。

  • 経済学部 経済学科
  • 現代社会に急速に広がる統計学と今日のデータサイエンスに
    求められる統計リテラシー
  • 川崎 玉恵 准教授
  • 経済学部 経済学科
  • 現代社会に急速に広がる統計学と今日のデータサイエンスに
    求められる統計リテラシー
  • 川崎 玉恵 准教授

利用シーンが拡大していく中で求められる新しい人材

私が専門とする数理統計学や多変量解析は、データサイエンスにも用いられ、現在非常に社会的関心が高まっている学問領域です。海外では10年ほど前から「データサイエンティストは21世紀で最もセクシーな職業だ」と紹介される(*)ほど注目が高まっていましたが、日本でも、特に近年企業の方が統計関連の学会に数多く参加されるようにもなり、データ分析を経営戦略等に生かしたいと考える層が急速に広がってきたように感じます。その背景には『統計学が最強の学問である』といったビジネス書や一般の方でも手に取りやすいような入門書が増えたこと、PythonやRなどデータ解析に用いることができる言語のアプリケーションが充実して、一般的なPCでも手軽に扱えるようになったことなどがあると思います。

 

統計学は、ビジネスや公共にとって非常に強力な武器であることは間違いないといえます。けれども、データの取り扱いや解析結果の解釈には細心の注意を払わなければ非常に危ういものにもなり得ます。データを正しく解析していけば、それまで見えていなかった視点が見えてくることもありますが、一方で、適切な手法でデータを処理し解析しなければ、誤った結果を導き出してしまうこともあります。そのためには各手法を正しく理解することも必要で、それぞれの仮定を満たした解析となっているか等を見極める力も大切です。不十分な理解のまま安易に扱ってしまえば、本来導き出されたはずの結論から離れてしまい、歩むべき道を間違えてしまうこともあるでしょう。

現在、経済的な側面からも非常に高い注目を集めている学問領域ですが、こうしたリスクを伴う分野でもあります。それだけに、経済学的視点を持った上で、必要となる数学的知識や思考を兼ね備え、適切な解析を行える人材の育成が重要視されています。数理統計学と経済学に通じて、両者を高度に結びつけることができるデータサイエンティストは、間違いなくこれからの社会に必要となる人材です。私たち大学教員は学術的発展を目指していくと同時に、そうした新しい人材を育成していかなければならない責任も持っています。私は現在、統計学の中でも「欠測値」に関する研究にも注力していますが、統計学やデータサイエンスがさらなる発展をしていく上で不可欠なこの研究を通じて、新たな解析手法の確立を目指すと同時に、多くの後進を育てていきたいと考えています。

*Harvard Business Review October 2012:「Data Scientist: The Sexiest Job of the 21st Century」 Thomas H. Davenport and DJ Patil

近年、重要性が高まる「欠測値」処理技術

データサイエンスでは、複数の変数を同時に解析して解釈する「多変量解析」という統計的手法も用いられます。例えば人の健康に関する調査で、体調とともに「年代・性別・身長・体重・視力……」などのさまざまな項目を集めたとします。これらの一つ一つの項目が変数として扱われていくのですが、もし他の変数に目を向けず「身長だけ」をデータとして解析した場合、本来目的としていた人々の健康に関する解析結果を取得するのは難しくなります。多変量解析では変数を複合的に解析し、どのような性質の人にはどういった傾向を見出すことができるかなどの解析結果を導き出すことができます。

しかし、スムーズにデータがすべて集まれば良いのですが、例えば回答し忘れのようにデータが抜け落ちるものが出てきます。これを「欠測値」と言うのですが、どのように欠測値が発生するのかについては、Roderick J. A. LittleとDonald B. Rubinによって大きく以下3つのメカニズムがあると提唱されています。

1つ目の「MCAR」は例えばアンケート調査において、設問に対してうっかりミスの見落としで回答しなかったというようなケースです。この場合、欠測値が生じる確率はその変数も含め他の変数にも依存することなく、完全にランダムに抜け落ちていることになります。2つ目の「MAR」は完全にランダムに発生しているわけではないですが、データの欠測が他の変数と依存しており、その変数から欠測を説明できるもののことです。例えば収入に関するデータで、年齢が上がるにつれて収入について回答しなくなる確率が高くなるとして、このデータに年齢に関する変数が含まれているケースです。この場合、収入のデータの欠測は、年齢を条件としてランダムに生じていると説明することができます。そして3つ目の「MNAR」は先程の収入の例で言うと、今回は収入と年齢は依存しておらず、収入の高い人は収入について回答しなくなる確率が高いとします。つまり、データ内に収入の欠測を説明できる変数が含まれていないケースです。

こうした欠測値がある場合、それが「MNAR」だったとしても、どうにかして欠測値に対処しないとデータ解析が行えず、データの価値を見出せなくなります。もちろん欠測値を含む部分をまるごと捨てるという選択肢もありますが、それではデータの集計のために費やした時間やコストがもったいないですし、何度もデータを取り直すわけにもいきませんので、欠測値をどのように補っていくか、あるいは欠測値を含むデータをどのように扱っていくかということが、現代のデータサイエンスでは大きな問題となっています。下にあるグラフは、欠測値を含むデータに対しても統計的手法を用いることができるように提案したもので、より近似精度が高くなるよう数理的アプローチを加えることによって、近似精度を改善することもできます。

医薬品の臨床試験に関する現場では、参加している患者が疾患の影響や何かしらの理由で治験を継続できなくなるなど欠測値の発生は不可避のため、欠測データの取り扱いがガイドラインにも記載されています。今後は医薬の現場に限らず、データを扱っていく方は欠測値の扱い方に対して知識を持っている必要があるでしょう。

 

欠測値を含むデータに対するシミュレーション結果の図

サンプルサイズが十分大きくなれば赤の曲線に近づく。提案した手法(青)に数理的アプローチによる修正(ピンク)を加えることで、サンプルサイズが十分大きくない場合でも近似精度を高めることができる。

数理と経済、そして倫理観で築く「統計リテラシー」の重要性

データサイエンスへのニーズが大きく拡大している今日、欠測値の問題も重要性が増しています。私自身、国土交通省の統計調査の処理に関する検討委員会に委員として参加しましたが、その中でも欠測値の処理に対する関心は一層高まっていると感じました。やはり統計学の重要性や有用性に社会が気付き始めたという点が大きいかもしれません。それは統計学を用いて導き出される解析結果やその解釈に価値があるということももちろんですが、それだけではなく、データを生かすためにはデータと向き合うことが大切だということが認識され始めたことでもあります。

統計学は数学を応用しているので、そこに感情や主観が入り込む余地は本来ありません。データサイエンスでは、データの収集から解析結果の解釈に至るまで、その姿勢を貫くことが大切です。もしかしたら頑張ってデータを収集し、苦労して複雑な解析をした結果、「何も言えませんでした」という結論に至ることもあるかもしれません。しかし、それは今回のデータからは言えなかったということもある。データを扱ううえでの統計学や数学の知識、素養を有していれば、調査計画やサンプルの集め方、解析方法の変更などの見直しもできるでしょう。思うような結果が出なかったからといって主観に走って強引な解釈をすることは、あってはならないのです。

統計学への期待が高まり、急速に利用する機会が増大している中、そうした「統計リテラシー」が必要になってきていると感じています。また、解析に主観を持ち込まないことはもちろんですが、個人情報を含むデータの収集や管理方法などを意識して統計に向き合わないと、法律上・倫理上の問題へと発展することもあります。データ解析の手法や結果に対して強い関心を持つだけではなく、その先にあるさまざまなことへの知識や感性、想像力を持つことが大切で、それがなければデータ解析はただの処理作業になってしまいかねません。

統計学は学問ではありますが、行き着く先は世の中で使ってもらうことだと思います。統計理論を中心に研究を行ってきた私が、現在、経済学部で教鞭をとらせていただいているのも、数理的な追究にとどまらず、社会における統計学のあり方に強い関心を抱いたからです。数理からの理論的アプローチと社会への経済学的アプローチ。そして客観性や倫理に基づく統計リテラシー。こうした素養を身に付けることで、統計学によるデータ解析を、社会で役立てられるものとして活用できるようになります。

欠測値の取り扱いや多変量解析の手法はあくまでもひとつの”ツール”に過ぎません。データを数理的に解析し、社会的・経済学的に解釈した上で、統計リテラシーをもって解析結果を何にどのように生かしていくのか。その一連の流れがすべて「データサイエンス」だと考えています。細かな手法の理解や追究とともに、そうした大きな視点も失うことなく、統計学を社会に役立てていければと思っています。(2022年11月公開)

あわせて読みたい

  • 『教養としてのデータサイエンス』内田 誠一、川崎 能典、孝忠 大輔、佐久間 淳、椎名 洋、中川 裕志、樋口 知之、丸山 宏 著、北川 源四郎、竹村 彰通 編(講談社:2021)
  • 『入門・演習 数理統計』野田一雄、宮岡悦良 著(共立出版:1990)
  • 『多変量解析序論』道家 暎幸、今田 恒久 著(東海大学出版会:2001)

青山学院大学でこのテーマを学ぶ

経済学部 経済学科

  • 経済学部 経済学科
  • 川崎 玉恵 准教授
研究者情報へリンク

関連キーワード

関連コンテンツ

  • 経済学部
  • アベノミクスは日本経済の救世主なのか
  • 中村 まづる 教授
  • 最近毎日のようにきかれる言葉「アベノミクス」。これは、第2次安倍内閣の経済政策を示す「通称」であるが、「アベノミクス」とは何かを説くとともに、日本経済が再生するためには何が必要なのか、救世主となりうるものは何かを明らかにする。(2013年掲載)

  • 経済学部
  • 数十年先の人口分布を町丁・字単位で予測し
    都市計画や防災計画の
    基礎となるデータを提供する
  • 井上 孝 教授
  • 人口構造の変化を長期的に見通すことは、国や自治体の政策立案において欠かせない。人口減少に拍車がかかる日本ではなおさらだ。しかし、詳細な人口推計は技術的な壁により、困難を極めた。推計エリアが狭いほど生じる数値の「ぶれ」をいかに抑えるか。井上教授はある古典的な理論を応用して画期的な方程式を編み出し、全国小地域別将来人口推計を実現させた。本コラムでは研究者の人となりに迫りながら、新手法の内容を解説する。 (2021年掲載)

  • 経済学部
  • 「ふるさと納税」が地方自治体を救う?
  • 堀場 勇夫 名誉教授
  • 任意の地方自治体(都道府県・市区町村)に対し、個人が2,000円を超える寄付をすると住民・所得税控除を受けることができ、かつ豪華な特典がついてくることから、「お得」「節税対策」としてメディアでさかんに紹介されている「ふるさと納税」。しかし「ふるさと納税」は果たしてメリットだけなのだろうか?本コラムでは、ふるさと納税のしくみを説くと同時にテレビや雑誌ではあまり語られないふるさと納税の負の側面を洗い出し、改めて「ふるさと納税制度」について考察する。(2015年掲載)

関連コンテンツ

  • 国際政治経済学部
  • 健康のための課税は、どれだけ効果があるのか
  • 内田 達也 教授

  • 社会情報学部
  • 観光の経済効果を景気回復につなげよう
  • 長橋 透 教授

  • 会計プロフェッション研究科
  • 経済活動あるところ「会計」あり
  • 八田 進二 教授