情報玉手箱

  • ホーム
  • 特集
    • AIとどう付き合っていますか
    • 非機械学習AI –論理によるAI–
    • 知能システム学の博士論文
    • 高校生,あるいは高校生の心をもった人へのメッセージ
    • サイエンス・ウィズ・情報
    • 弱きを助ける情報学
    • 情報システム学とセキュリティ
    • 情報学の研究者たちの喜怒哀楽
    • 最適化技術の応用・実践
    • 見えない現象を見える化する
    • 身体の情報処理がこころをつくる
    • 情報学と名大スパコン不老
    • 情報学と自然言語処理
    • 新型コロナと情報
  • 情報玉手箱とは
  • Menu

  • Sidebar

  • Prev

  • Next

  • Search

  1. ホーム>
  2. 知能システム学専攻

ミニ特集「知能システム学の博士論文」Coordination Analysis and Term Correction for Statutory Sentences using Machine Learning(機械学習による法令文の並列構造解析及び用語校正)(YAMAKOSHI Takahiro)

知能システム学専攻協力研究員 山腰 貴大・知能システム学専攻教授 外山 勝彦

法令は人間社会を維持、改良するための重要な基盤です。法令は自然言語で記述され、社会の変化に応じて改正されます。法令は人々の権利と義務を規定しているため、法令文にはエラーや矛盾が含まれてはいけません。高い一貫性を保つため、法令文は特定の語句、専門用語、文構造に従って書かれています。そのため、法令文を適切に記述し、理解するためには十分な知識と経験が必要です。

日本では、明治時代に法制執務(法令を新たに作ったり、改正したりするときの事務作業)を通じて、多くの記述規則や慣習が確立されました(図1)。さらに、日本政府には、法案が規則に従って書かれているかどうかを厳密に検査する法制局があります。これらの二つの理由から、法令文を扱うときには記述規則を遵守することが非常に重要であり、法制執務担当者にとって重荷となります。

図1 法令文の記述規則の体系

日本の法令文において注意すべきもう一つの点は、文が非常に長く、複雑になる傾向があることです。この特徴を引き起こす大きな要因の一つは、法令文における並列構造です。並列構造とは、複数の事項を並列に列挙する文構造です。日本の法令文では、このような並列構造がしばしば階層をもって現れます(図2)。つまり、一つの並列構造の中に他の並列構造が含まれるわけです。なお、法令文の記述規則は並列構造の階層関係も規定しているため、法令文中の並列構造を理解するときには、その記述規則を頭に入れておく必要があります。ここまでで、日本の法令文を扱う上での二つの課題を特定しました。それは、記述規則の厳格な遵守と複雑な階層的並列構造です。

図2 法令文に出現する階層的並列構造

この論文では、これら二つの課題に対する解決策を提供するために、二つのテーマについて研究しました。それは「並列構造解析」と「法令用語校正」です。

「並列構造解析」は、与えられた文の中で、並列句(並列構造を構成する語句)の範囲を特定することです。この情報により、長くて複雑な法令文中の並列構造を視覚的な形(図3)で簡潔に表すことができ、法令文の理解に苦労する人やシステムを支援することができます。したがって、私たちはこの研究をさらなる法令文処理のための基礎的なものと位置づけています。

図3 並列構造解析の活用

二つ目のテーマである「法令用語校正」は、法令文の作成支援に特化した実用的な研究です。

法令文の記述規則は、類似した意味を持つ数々の法令用語の組に対して特定の使い方を定義しており(図4)、法令文を作成する際にはその定義に従う必要があります。法令用語校正は、誤用された法令用語を見つけ、それを訂正する案を提供します。つまり、これは特定の使用法を持つ法令用語に特化した校正手法です(図5)。

図4 使い分けが定まっている法令用語の例

図5 法令用語校正

この論文で提案するアプローチは、法令文記述規則と機械学習技術の組み合わせです。法令文記述規則は、法制局によって厳格に運用されています。そのため、法令文記述規則を確定的なルールとしてアプローチに取り込むことは合理的です。そして、文脈に基づいた判断は機械学習手法に任せます。並列構造の構成も法令用語の使用も、それらの周囲の文脈に依存します。文脈のパターン数は決定的なルールで対応するには膨大であるため、訓練データから自動的に文脈を学習する機械学習の手法を用いるわけです(図6、図7)。

図6 並列構造解析のアプローチ

図7 法令用語校正のアプローチ

この論文は7つの章から構成されています。第1章はこの論文の導入部で、法制執務と法令文の解説から始まります。法令文を扱う際の問題点を説明し、本論文で研究する解決策を述べた後、関連研究と比較します。

第2章では、本論文で提案する手法の基礎となる知識と技術について説明します。まず、日本の法令文記述規則を概観し、次に、この論文の主題である並列構造と法令用語について深く探ります。その次に、アプローチの中心となる機械学習技術、言語モデルと分類器について見ていきます。

第3章では、日本の法令文に対する並列構造解析について説明します。まず、並列構造解析の背景、現状の問題点をまとめます。そして、法令文のための並列構造解析方法を既存方法と比較しながら提案します。本論文で提案する方法は、階層的並列構造に関する法令文の記述規則に基づいて、法令文中の並列構造の階層関係を決定的に特定します。一方、並列句の範囲はニューラル言語モデルを利用して特定します。ここで、並列句候補の妥当性を保証する二つの仮定を導入します。一つ目の仮定は並列句の類似性、つまり、ペアになった二つの並列句は似た文脈を持つというものです。二つ目の仮定は並列句の可換性、つまり、並列構造の中でペアになった二つの並列句を入れ替えても、文の流暢性は保たれるというものです。これら二つの仮定に基づくスコアは、文全体の文脈を意識したニューラル言語モデルによって計算されます。さらに、モデルの訓練に用いるものは、単語分割された法令文のみです。つまり、訓練に並列情報は必要ありません。これにより、訓練データが限られている日本の法令文に対して、ニューラルベースの並列構造解析方法を実現することができます。

第4章では、日本の法令文に対する法令用語校正について説明します。第3章と同様に、まず法令用語校正の背景と必要性を見直します。法令用語校正タスクは、私たちが知る限りまだ研究されていないため、まずこのタスクを定義し、その特性を考えます。次に、法令用語校正タスクに対する二つのアプローチを提案します。第一のアプローチはランダムフォレスト分類器を使用します。これは、使い分けのある法令用語の組ごとに訓練済みのランダムフォレスト分類器を割り当てるものです。ここで、各分類器はそれに対応する法令用語の組に対して最適化されているため、高い予測性能が期待されます。さらに、訓練中に計算された最適化パラメータと特徴の重要度から、法令用語校正に関する知識を得ることができます。第二のアプローチはBERT分類器を使用します。BERTが持つアテンション機構による文脈処理能力と事前訓練によって得られた膨大な知識を利用して、さらに良い予測性能を達成することを目指します。さらに、法令用語の出現頻度に関する二段階の問題とそれに対する解決策を紹介します。

第5章では、第4章で確立した法令用語校正の方法論を外国の法令、具体的にはタイの法令に適用することを試みます。法令文が適切に書かれるべきであることは、世界共通の問題です。ここで、タイの法制執務では日本と同様に、似た法令用語の使用法についてのルールを持っています。一方で、タイの法令用語の使用は、ジャンルや年代などの文書外の文脈に影響される傾向があります。また、タイの法令用語は、ごく短い文中で現れることがあります。そこで、前章のランダムフォレストのアプローチに、タイの法令用語校正のための追加の特徴を適用します。

第6章では、本研究と実世界データ循環との関係について議論します。本研究におけるデータ循環の存在と、本研究がデータ循環にもたらす貢献の観点から議論します。

最終章では、この論文をまとめます。まず、ここまでの議論を整理し、その後、研究の展望と進行中の作業について議論します。

2023年7月5日知能システム学専攻ミニ特集, 博士論文

Posted by 長尾 確

Model Counting Competition 2023よりProjected Weighted Model Counting 部門 第1位を受賞しました。(情報システム学専攻 橋本健二 助教)
Next
ミニ特集「知能システム学の博士論文」Attribute-Aware Semantic Segmentation from an In-vehicle Camera(車載カメラ映像からの属性付きセマンティックセグメンテーション)(Mahmud Dwi Sulistiyo)
Prev

関連記事

No Image

ミニ特集「知能システム学の博士論文」A Study on Recognition of Students’ Multiple Mental States during Discussion Using Multimodal Data(マルチモーダルデータを用いた議論中の学生の心的状態の認識に関する研究)(Shimeng Peng)

知能システム学専攻教授 長尾 確 ディスカッション活動中、学生たちは複雑な精神状 ...

No Image

ミニ特集「知能システム学の博士論文」Speech Emotion Recognition in Real Environments using Characteristics of Emotional Expression and Perception(感情の表出・知覚特性を利用した実環境における音声感情認識)(Atsushi Ando)

情報基盤センター/知能システム学専攻教授 戸田 智基 人間のコミュニケーションの ...

No Image

ミニ特集「知能システム学の博士論文」Development of a 3D LiDAR Database and Knowledge-base for Improving Autonomous Driving Perception(自動運転の認識機能の改善のための3D LiDARデータベースおよび知識ベースの開発)(Jacob Lambert)

未来社会創造機構/知能システム学専攻教授 武田 一哉 自動運転技術は、交通事故の ...

No Image

ミニ特集「知能システム学の博士論文」 編集にあたって

知能システム学専攻教授 長尾 確 博士論文は、大学(厳密には大学院)から社会への ...

No Image

ミニ特集「身体の情報処理がこころをつくる」:社会的認知発達における身体の役割を探る:身体の外側と内側の視点から

心理・認知科学専攻 平井真洋 私たちは日常生活で,日々多くのヒトに囲まれ,多くの ...

タグ

アルゴリズム イベント案内・報告 グローバルメディア研究センター ゲノム コンピュータ科学科 プログラム検証 プログラム逆化 メタヒューリスティクス 人間・社会情報学科 仮想生物 価値創造研究センター 可逆計算 学会発表 心理・認知科学専攻 心理・認知科学系 情報システム学専攻 情報システム系 教員紹介 数理情報学専攻 数理情報系 海外派遣助成 海外渡航 生物リズム 知能システム学専攻 知能システム系 研究グループ紹介 社会情報学専攻 社会情報系 組合せ最適化 組込みシステム研究センター 自然情報学科 著作物紹介 複雑システム系 複雑系科学 複雑系科学専攻 複雑系計算論 複雑系計算論講座 触覚のVR 触覚センサ 触覚ロボット 計算モデル 認知科学 進化 項書換え系 鳥の歌

Copyright © 2025 情報玉手箱 All Rights Reserved.

WordPress Luxeritas Theme is provided by "Thought is free".

PAGE TOP