ミニ特集「知能システム学の博士論文」Coordination Analysis and Term Correction for Statutory Sentences using Machine Learning(機械学習による法令文の並列構造解析及び用語校正)(YAMAKOSHI Takahiro)
知能システム学専攻協力研究員 山腰 貴大・知能システム学専攻教授 外山 勝彦
法令は人間社会を維持、改良するための重要な基盤です。法令は自然言語で記述され、社会の変化に応じて改正されます。法令は人々の権利と義務を規定しているため、法令文にはエラーや矛盾が含まれてはいけません。高い一貫性を保つため、法令文は特定の語句、専門用語、文構造に従って書かれています。そのため、法令文を適切に記述し、理解するためには十分な知識と経験が必要です。
日本では、明治時代に法制執務(法令を新たに作ったり、改正したりするときの事務作業)を通じて、多くの記述規則や慣習が確立されました(図1)。さらに、日本政府には、法案が規則に従って書かれているかどうかを厳密に検査する法制局があります。これらの二つの理由から、法令文を扱うときには記述規則を遵守することが非常に重要であり、法制執務担当者にとって重荷となります。
図1 法令文の記述規則の体系
日本の法令文において注意すべきもう一つの点は、文が非常に長く、複雑になる傾向があることです。この特徴を引き起こす大きな要因の一つは、法令文における並列構造です。並列構造とは、複数の事項を並列に列挙する文構造です。日本の法令文では、このような並列構造がしばしば階層をもって現れます(図2)。つまり、一つの並列構造の中に他の並列構造が含まれるわけです。なお、法令文の記述規則は並列構造の階層関係も規定しているため、法令文中の並列構造を理解するときには、その記述規則を頭に入れておく必要があります。ここまでで、日本の法令文を扱う上での二つの課題を特定しました。それは、記述規則の厳格な遵守と複雑な階層的並列構造です。
図2 法令文に出現する階層的並列構造
この論文では、これら二つの課題に対する解決策を提供するために、二つのテーマについて研究しました。それは「並列構造解析」と「法令用語校正」です。
「並列構造解析」は、与えられた文の中で、並列句(並列構造を構成する語句)の範囲を特定することです。この情報により、長くて複雑な法令文中の並列構造を視覚的な形(図3)で簡潔に表すことができ、法令文の理解に苦労する人やシステムを支援することができます。したがって、私たちはこの研究をさらなる法令文処理のための基礎的なものと位置づけています。
図3 並列構造解析の活用
二つ目のテーマである「法令用語校正」は、法令文の作成支援に特化した実用的な研究です。
法令文の記述規則は、類似した意味を持つ数々の法令用語の組に対して特定の使い方を定義しており(図4)、法令文を作成する際にはその定義に従う必要があります。法令用語校正は、誤用された法令用語を見つけ、それを訂正する案を提供します。つまり、これは特定の使用法を持つ法令用語に特化した校正手法です(図5)。
図4 使い分けが定まっている法令用語の例
図5 法令用語校正
この論文で提案するアプローチは、法令文記述規則と機械学習技術の組み合わせです。法令文記述規則は、法制局によって厳格に運用されています。そのため、法令文記述規則を確定的なルールとしてアプローチに取り込むことは合理的です。そして、文脈に基づいた判断は機械学習手法に任せます。並列構造の構成も法令用語の使用も、それらの周囲の文脈に依存します。文脈のパターン数は決定的なルールで対応するには膨大であるため、訓練データから自動的に文脈を学習する機械学習の手法を用いるわけです(図6、図7)。
図6 並列構造解析のアプローチ
図7 法令用語校正のアプローチ
この論文は7つの章から構成されています。第1章はこの論文の導入部で、法制執務と法令文の解説から始まります。法令文を扱う際の問題点を説明し、本論文で研究する解決策を述べた後、関連研究と比較します。
第2章では、本論文で提案する手法の基礎となる知識と技術について説明します。まず、日本の法令文記述規則を概観し、次に、この論文の主題である並列構造と法令用語について深く探ります。その次に、アプローチの中心となる機械学習技術、言語モデルと分類器について見ていきます。
第3章では、日本の法令文に対する並列構造解析について説明します。まず、並列構造解析の背景、現状の問題点をまとめます。そして、法令文のための並列構造解析方法を既存方法と比較しながら提案します。本論文で提案する方法は、階層的並列構造に関する法令文の記述規則に基づいて、法令文中の並列構造の階層関係を決定的に特定します。一方、並列句の範囲はニューラル言語モデルを利用して特定します。ここで、並列句候補の妥当性を保証する二つの仮定を導入します。一つ目の仮定は並列句の類似性、つまり、ペアになった二つの並列句は似た文脈を持つというものです。二つ目の仮定は並列句の可換性、つまり、並列構造の中でペアになった二つの並列句を入れ替えても、文の流暢性は保たれるというものです。これら二つの仮定に基づくスコアは、文全体の文脈を意識したニューラル言語モデルによって計算されます。さらに、モデルの訓練に用いるものは、単語分割された法令文のみです。つまり、訓練に並列情報は必要ありません。これにより、訓練データが限られている日本の法令文に対して、ニューラルベースの並列構造解析方法を実現することができます。
第4章では、日本の法令文に対する法令用語校正について説明します。第3章と同様に、まず法令用語校正の背景と必要性を見直します。法令用語校正タスクは、私たちが知る限りまだ研究されていないため、まずこのタスクを定義し、その特性を考えます。次に、法令用語校正タスクに対する二つのアプローチを提案します。第一のアプローチはランダムフォレスト分類器を使用します。これは、使い分けのある法令用語の組ごとに訓練済みのランダムフォレスト分類器を割り当てるものです。ここで、各分類器はそれに対応する法令用語の組に対して最適化されているため、高い予測性能が期待されます。さらに、訓練中に計算された最適化パラメータと特徴の重要度から、法令用語校正に関する知識を得ることができます。第二のアプローチはBERT分類器を使用します。BERTが持つアテンション機構による文脈処理能力と事前訓練によって得られた膨大な知識を利用して、さらに良い予測性能を達成することを目指します。さらに、法令用語の出現頻度に関する二段階の問題とそれに対する解決策を紹介します。
第5章では、第4章で確立した法令用語校正の方法論を外国の法令、具体的にはタイの法令に適用することを試みます。法令文が適切に書かれるべきであることは、世界共通の問題です。ここで、タイの法制執務では日本と同様に、似た法令用語の使用法についてのルールを持っています。一方で、タイの法令用語の使用は、ジャンルや年代などの文書外の文脈に影響される傾向があります。また、タイの法令用語は、ごく短い文中で現れることがあります。そこで、前章のランダムフォレストのアプローチに、タイの法令用語校正のための追加の特徴を適用します。
第6章では、本研究と実世界データ循環との関係について議論します。本研究におけるデータ循環の存在と、本研究がデータ循環にもたらす貢献の観点から議論します。
最終章では、この論文をまとめます。まず、ここまでの議論を整理し、その後、研究の展望と進行中の作業について議論します。