先端的なコンピューター技術を駆使した データサイエンスで読み解く 謎に満ちた古典語の世界

文学部日本文学科
先端的なコンピューター技術を駆使した
データサイエンスで読み解く
謎に満ちた古典語の世界
近藤泰弘教授

文学部日本文学科
先端的なコンピューター技術を駆使した
データサイエンスで読み解く
謎に満ちた古典語の世界
近藤泰弘教授

1970年代からコンピューターによる日本語学の研究に着手

私が東京大学の文学部に入学して日本語学の勉強を始めたのは1973年のことです。この時点で、海外の動向などから「これからの日本語学の研究にはコンピューターが必須になるだろう」と考え、今でいうデータサイエンスによる日本語学の研究に大いなる可能性を感じていました。当時、日本ではまだパソコンは一般的ではありませんでしたが、大型の電子計算機が大学内にあって、2年次にはコンピューターによる人文科学の授業がすでに開講されていました。日本におけるコンピューターの黎明期で、かなりの部分を独学で学びながら、大学院でもコンピューターを使った日本語学の研究を続けました。コンピューターの世界は日進月歩ですから、古い知識は常にアップデートしていく必要があります。1991年に本学の文学部の教員として勤めるようになってからも、最新のコンピューター技術の勉強と日本語学の研究を並行して行いながら、現在に至ります。

私が関心を持って研究しているテーマの一つが、『古今集』や『源氏物語』など、古典語で書かれた歌や文学を、コンピューター技術を駆使したデータサイエンスで読み解くことです。元来、日本語の持つ意味は膨大で、個々の言葉の持つニュアンスは非常に多様かつ複雑です。例えば、「寒い」と「涼しい」はどちらも温度が低い状態を表していますが、寒いはどちらかといえば負のイメージで、涼しいは快適なイメージです。意味としては同じ温度が低い状態を表していても、その言葉から受け取る印象やニュアンスは大きく異なります。「美し（い）」は、今は「美的である」という意味ですが、昔は、「かわいらしい」という意味でした。それらの差異を言語学として明確に、形式的に捉える手法は今までありませんでした。国語辞典に記されている言葉の意味が正解なのかといえば、そこに書かれている語句の説明はあくまでも編者の一つの解釈であり、一例に過ぎないのです。

そこで、コンピューターを使うことによって、何千万もの言葉のサンプルを積み重ねて検証していけば、その言葉がある文脈の中でどのような意味を持って機能しているのか、その言葉の持つ本来の意味が見えてくるのではないかという技法が発明されたのです。（図1）コンピューターを使うことによって、一つの言葉が、どのような文脈の中で、他の言葉と「共起」しているのかが簡単にわかるようになります。これを「単語の意味の分散表現」といいますが、この分散表現を一つ一つの単語に割り当てて(埋め込んで)いくと、数字の羅列のようなデータになります。こうして単語を数値化（ベクトル化）することによって、ある単語とある単語が似ているかどうかが数字を比較することで明確になるのです。

さらに、これによって、単語の意味を「計算する」こともできるようになります。たとえば、「王」という単語の数字に「女」と「男」の差に当たる数字を足すと「女王」という数字が出るというように、足し算が可能になったり、より複雑な言語体系の理解に役立てることが可能になったりします。近年、人が自然に行っている処理をコンピューターに学習させる「深層学習(ディープラーニング)」を用いた「Word2vec」というソフトウェアが開発されたことで、こうした数値を簡単に求めることが技術的に可能になりました。このような作業を従来の言語学のように人力でやろうしても、参照すべき単語の数やその関係があまりにも膨大過ぎてとても不可能なのです。

図1

コンピューターで作成した平安時代の「シク活用形容詞」の分類図。

左が主観的、右がやや客観的な形容詞となる

コンピューター技術で平安時代の文化の謎に迫る

私は、こうした最新のコンピューター技術を古典語の研究に使うことによって、古典語の持つ本質の理解につながるのでは、と考えました。というのも、現代人が古典語の意味を知ろうとしても、極めて狭小な範囲しか理解できません。現代語であれば、例えば「呑みに行こう」という場合の「呑み」を例にすると、「呑む」という動詞の連用形というだけでなく、「（みんなで楽しく）お酒を呑むこと」だとすぐにわかります。「水を呑む」わけではないことは誰にもわかりますが、それはその単語が使われる文脈や背景を私たちが共有しているからです。しかし、『源氏物語』の中に登場する人物たちの生活や文化について、残念ながら私たちはそのほとんどを共有することができませんし、微細な差異についても正しく理解することができません。私たち自身の持つ五感などの感覚によって形づくられる精神のありようを「内省」といいますが、この感覚は現代語には働いても、古典語には働かないのです。ところが、先のように、膨大な数の古典語をコンピューターによって解析、検証していくことで、その言葉の持つ本質が見えてくる。最先端のコンピューター技術を用いることで、私たちは古典語における内省に代わるものを獲得することができるといえるわけなのです。

古典語に関しては、今でいうジェンダー差による言葉の使い分けの方法も実はよくわかっていません。例えば『古今集』における男性歌・女性歌のように、男性と女性によって使う言葉に違いがあることは確かなのですが、それがどのような法則や約束事によってなされているのか、そのメカニズムはいまだ謎に包まれています。あるいは、和歌には敬語がないのですが、なぜないのかについても、明確な答えがありません。もちろん、当時の人たちの中では明確な理由があったはずで、例えば紫式部に直接聞くことができれば即答してくれると思いますが、現代の私たちにはそれを知るすべがないのです。しかし、こうした数々の謎の解明について、コンピューターができることは膨大にあります。今はまだ、その奥深き研究の扉の前に立っている段階に過ぎないと思います。

明治期の和訳聖書をコンピューターで解析してみると

もう一つ、私が関心を持って研究しているテーマが、明治期につくられた和訳聖書についてです。アメリカ人の宣教師ジェームス・カーティス・ヘボンらが中心となって聖書の日本語訳に携わりましたが、ギリシャ語で書かれた原典の聖書をどのように日本語に訳していったのか、そのプロセスを、コンピューター技術を使って解き明かそうと考えました。私は2019年度まで本学の図書館長を務めていたのですが、その時、本学の聖書コレクションの充実ぶりをあらためて知り、これを文献として活用しない手はないと感じたことも一つのきっかけでした。

明治期に和訳聖書がどのように作られたのかを調べるために、原典であるギリシャ語はもちろん、英語版や中国語(漢語)版ではどのように翻訳され、日本語訳にどのような影響を与えているのかを検証していきました。こうした研究はこれまで各文献を照らし合わせながら手作業で行われてきましたが、コンピューターを使うことによって一つの単語が各言語でどのように表現されているのかが一目瞭然になります。明治の和訳聖書はルビ（ふりがな）が付き、中国語版には訓点が付くなど複雑な形をしていますが、これらすべてのテキストを国立国語研究所が開発した形態素解析ツールに入力すると、品詞が瞬時にわかります。ギリシャ語や英語でも同様のソフトウェアがあるので、同じように解析をしながら、「コーパス」と呼ばれるテキストや発話を集積したデータベースを作っていくわけです。これによって、単語レベルでの比較検証が容易に可能になり、ある単語がどのくらい使われているのかといったことも詳細にわかります。

使徒行伝

明治17年に橫浜で刊行された「使徒行伝」の漢文聖書。

韓国語の「吐」という訓点が印字されている

こうした手法で明治期の和訳聖書を調べていくと、敬語に特徴があることがわかりました。神様の言葉を記した聖書なのだから敬語があるのは当たり前だと思うかもしれませんが、明治期の小説的な文章には基本的に敬語は使われていません。そもそもギリシャ語で書かれた聖書に敬語はないので、原典に則って翻訳するのであれば敬語は必要ないのですが、ではなぜヘボンたちは和訳する際に敬語を用いたのでしょう。実は、他に、明治期の文章で敬語が使われていたのは教科書、いわゆる国語読本でした。教科書は先生が教室で読み上げるものだから敬語がなければ具合が悪い。聖書もまた教会で牧師の先生が読み上げるものだからある程度敬語が必要だと考えたのではないか、というのが私の仮説です。こうしたことがわかってきたのも、コンピューターによってすべての単語を品詞分析して解析することが可能になったからです。つまり、コンピューターがなければこうした研究はそもそも成り立たないのです。ツール自体は既にあるわけですから、それを使って、例えば「和訳聖書の研究をしてみよう」と発想するかどうかが重要になります。これを夏目漱石や芥川龍之介に当てはめれば近代文学の研究になる。語学史的にも文学史的にも興味深いテーマは他にも山ほどあります。何をテーマとして取り上げるのか、その目の付けどころがポイントなのです。

ヘボンたちが使ったと思われるギリシャ語聖書の「マタイによる福音書」冒頭

（1822年アメリカで刊行）

文系・理系の領域を横断する研究者の必要性

現代は、言語の研究が果たして何を目指すべきなのかが曖昧になっている時代といえます。かつては、言語の研究をすれば自動翻訳の技術に役立つ、日本語教育の役に立つといわれていましたが、機械翻訳の世界は言語学とは無関係に進化を遂げ、日本語教育も近頃ではあまり文法が重視されなくなり、英語と同様、体験の中で多くの言葉に触れていく方向性が主流になっています。では、言語の研究が不要なのかといえば、決してそんなことはありません。言語の研究は、すぐに役に立つかどうかではなく、人間の文化のあり方をより広い立場から研究する学問になっていくのだろうと私は考えます。そのためには、学問の体系をつくり換えて、より深く人間の文化を知るための学問にしていかなければならないと思っています。

自動翻訳機が普及すれば外国語の勉強は不要になるという人もいますし、今では海外のウェブサイトの文章も翻訳ソフトの精度の向上によって、かなりスムーズに読むことができるようになりました。自分の書いた日本語を校正してくれるアプリもあります。しかし、自分の頭で考え、自分の言葉で話すことの本質的部分、これだけはコンピューターは絶対に助けてくれません。その人の母語をその人の言葉で話す、あるいは書く時、その人の持っている教養や言葉に対する考え方や思いがおのずから表出されるのです。むしろコンピューター時代には、その人の本質を言葉で表現することが極めて重要になってくるだろうと思います。そのとき、「言葉ってなんだろう」「敬語ってどういうものだろう？」という本質的なことを教養として知っているかどうかがとても重要です。例えば、「させていただく」という敬語はどのような文法からできていて、どのように使うのかを知っていれば、納得して正しく使うことができますが、そうでなければ、どんな時でも適当に「させていただく」になってしまいます。そうした例を日常でもよく目にするでしょう。

これからの日本語学の研究は情報工学の専門家とも協同しながら行っていく必要性を痛感していますが、昨今、教育の現場では、文系・理系の境界を超え、お互いの学問領域を横断しながら学ぶ「文理融合」の考え方が生まれています。しかし、これはなかなか課題が多いのも事実です。私の研究領域でいえば、日本語学の専門家がコンピューターに何ができるのかを知っていなければ情報工学の専門家に頼むことができませんし、逆に情報工学の専門家は言語学的な知識がなければ何をすべきなのかがわからないため、さながら異なる言語を話す者同士のように会話が成立しなくなってしまいます。そこで、両者の間をつなぐインタープリター(通訳者)が要るのです。その人は、両方の言語に同レベルで通じている必要があります。つまり、例えば、『源氏物語』のエキスパートであり、深層学習のエキスパートであるべきなのですが、現時点でそのような人は日本にはなかなかいません。

しかし、これからの若い研究者のかなりの部分はそうした存在でなければならない、というのが私の考えです。ヨーロッパの人文科学の分野では、こうした機械学習や深層学習の手法が取り入れられ、既にかなり一般的になりつつあるといっていいでしょう。日本でも今まで情報科学に縁がなかった理系の世界でも、例えば天文学の分野で深層学習を研究に取り入れる若手研究者も出ています。情報的手法はあらゆる分野で応用が可能なのですが、とりわけ文系の研究に関わる人にとっては手つかずのブルーオーシャン(競合相手のいない未開拓の領域)が目の前に無限に広がっているといえます。これから人文科学の若い研究者たちは、情報工学的な知識があればすぐにでも世界のトップに立てるのではないでしょうか。

現在、高校ではプログラミングが必須科目になりましたが、それによって、これからは文系であっても基本的なプログラミングの技術が必要になります。しかし、これには向き不向きがあるのも事実です。例えば、私は運動が苦手なので、無理に運動することを強いられるのは苦痛でしかありません。苦手な学生に無理に押し付けるのではなく、興味を持って学ぶことができるような多様な、複線的なカリキュラムづくりが大切だろうと考えています。また、文系的な優れた能力のある学生が、理系的な知識がないという理由で勉強の門戸が閉ざされるようなことがあれば、教育現場としても大きな損失になります。そのようなことがないよう、私たちも研究の多様性について、さまざまな工夫をしていく必要があると考えているところです。

（2022年10月掲載）

青山学院大学でこのテーマを学ぶ

文学部日本文学科

文学部日本文学科
近藤泰弘教授

研究者情報へリンク

文学部日本文学科
近藤泰弘教授
研究者情報へリンク

世界を解き明かすコラム
ー研究者に迫るー

1970年代からコンピューターによる日本語学の研究に着手

コンピューター技術で平安時代の文化の謎に迫る

明治期の和訳聖書をコンピューターで解析してみると

文系・理系の領域を横断する研究者の必要性

あわせて読みたい

青山学院大学でこのテーマを学ぶ

関連キーワード

関連キーワード

関連コンテンツ

関連コンテンツ

世界を解き明かすコラムー 研究者に迫る ー

1970年代からコンピューターによる日本語学の研究に着手

コンピューター技術で平安時代の文化の謎に迫る

明治期の和訳聖書をコンピューターで解析してみると

文系・理系の領域を横断する研究者の必要性

あわせて読みたい

青山学院大学でこのテーマを学ぶ

関連キーワード

関連キーワード

関連コンテンツ

関連コンテンツ

世界を解き明かすコラム
ー研究者に迫るー