ミニ特集「情報学と自然言語処理」:LegalTechにおける自然言語処理の適用
はじめに
情報学で研究される技術を現実社会に適用し,今までにない新たな価値や仕組みを作ることをX-Tech(クロステック)呼びます.その中でも,法律に情報学の技術を適用することをLegalTech(リーガルテック)と呼びます.我々,名古屋大学大学院情報学研究科外山研究室では,法律に自然言語処理の技術を適用することで,立法・行政・司法のIT化に取り組んできました.本稿では,その中でも法律の起草・改正・公開・翻訳を支援する最先端の研究成果について紹介します.
LegalTechとは?
LegalTechは,法律に情報学の技術を用いて,専門家や市民を支援するものです.なお,狭い意味では,法律とは国会で制定されるものを指し,それ以外の政令や省令,また地方自治体で制定される条例などを含めたものを法令と呼びます.
法令に対して情報学の技術を適用するアプローチには,大きく分けて二つあります.一つは,法令の内容を基に推論を進め,究極的には判決をコンピュータが記述するといった法的推論の自動化です.もう一つは,法令に対し自然言語処理を適用し,人間が法令に関わる業務を支援するというアプローチです.
我々の研究室では,後者のアプローチをとり,これまでに法令翻訳支援,法制執務支援,法令自動要約,法令文書の校正支援といった研究を進めてきました.ここでは,そのうちの二つについて紹介します.
法令翻訳支援
日本の法令は当然日本語で記述されています.しかし,国際社会のグローバル化により,法令を外国語訳することが求められています.外国企業が日本に進出する場合,日本の法令を理解する必要があります.また,開発途上国での法整備を支援する際,日本の法令がどうなっているかを示すことが必要になってきます.もちろん,日本に在住する外国人のためにも,外国語訳された法令は必要です.
そうした要求に応えるために,日本政府は法令の英訳を進めてきました.我々の研究室は当初からこの英訳事業に参画し,自然言語処理技術を用いてこれを支援してきました.
標準対訳辞書の構築と公開
それまでの法令翻訳は関連省庁で個別に進められてきたため,翻訳の品質に問題があり,特に同じ日本語の法令用語を,異なる英語に翻訳する事例がありました.例えば,「法律」の訳語についても“act”,“law”,“legislation”などの種類があり,統一した基準がありませんでした.
そこで,最初に標準対訳辞書を作りました.それまでに各省庁で個別に翻訳されていた法令153本から,対訳語を自動抽出し,それを専門家がチェックするという作業を行いました.結果的に,日本語見出し語3,315語からなる標準対訳辞書を2006年に公開しました.また,辞書の公開と同時に,法律10の辞書に準拠した英訳も公開しました.
ただ,この公開の際には問題もありました.デジタルトランスフォーメーション(DX)が推進される現在では考えられないことですが,当時の政府のウェブサイトにおいては,PDF版しか公開できないという制限がありました. しかし,対訳辞書をPDF版で公開しても使いにくいですし,テキストデータをPDFファイルから抽出して使うのも面倒です.そのため,我々は自分たちの研究室のウェブサイトで,元のデータを公開しました.
日本法令外国語訳データベースの設計と構築
もちろん,そうした状況をいつまでも続ける訳にはいきませんから,我々は日本語法令の英訳を支援するシステムの開発を進めるとともに,英訳を管理・公開するための日本法令外国語訳データベース(以下,JLT)の設計と構築を行いました.
このJLTは2009年に公開された法務省によって運営されるサイトですが,その設計・構築は一般競争入札で行われました.ちなみに,昔の国立大学は政府の入札に参加することができませんでしたが,独立行政法人となって以降,入札が可能になりました.よって,我々の研究室がこれを落札したのですが,恐らく,国立大学として最初に落札したケースだと思います.
JLTでは,我々の研究成果が実際に利用されています.例えば,上記の標準対訳辞書では,Bilingual KWIC というシステムにより訳語選択を支援しましたが,これもJLT上に実装されています.また,データの管理のために,XMLを用いて法令の文書構造化を実施し,そのための文書スキーマも我々が設計しました.これは,日本政府によるデータオープン化の先駆けとなっています. JLTは,一日当たりのページビューは約10万件を数え,在外公館のウェブサイトからもリンクされるなど,我が国の法情報の国際的発信のために不可欠な情報基盤となっています.
法制執務支援
法制執務とは,法令文書の起草・改正・公開などに関わる作業のことです.上記の法令翻訳も法制執務の一環と言えます.
法律は社会情勢の変化に伴い,しばしば改正されます.法律が改正される場合,改正された新しい法律が直接制定されるのではなく,変更部分をだけを明示した法律が制定される場合が多く,こうした法律は一部改正法と呼ばれます.そうした法律の中では,「第七条中、『理容師』を『理容師又は美容師』に改める。」のような条文が書かれています.制定時の法律のテキストに,現在までの一部改正法を順次適用することで,現時点で有効な法律,いわゆる現行法律ができあがります.
制定時の法律は政府が出版する官報に掲載されます.一部改正法も法律ですので,同様に官報に掲載されます.では,現行法律はどこで公開されるのでしょうか?
実は,以前は政府が現行法律を公開することがありませんでした.そのため民間の出版社が自分達で現行法律を作成し,定期的に出版してきました.これが『六法全書』です.
法令テキストの公開と問題
もちろん,IT化が進めばこうした法令に関する情報もウェブで公開されるようになります.しかし,ここでも問題がありました.それは,法令の情報をウェブサイトで公開する機関が複数あり,しかも内容が微妙に異なるという問題です.官報を発行する国立印刷局は官報のテキスト,衆議院では制定された法律のテキスト,国立国会図書館では公布日やどの法令によって改正されたかのデータが掲載されています.このように,せっかく法令のデータが公開されても,それぞれが異なる目的で公開しているため,利用しづらい面がありました.
こうした法令データの分離は,そもそも,法律を作る段階から発生していました.法律は多くの場合,政府が法案を起草し(議員立法の場合は議員が起草する),国会で審議され,成立すると国立印刷局に送られて官報に掲載されます.しかし,この間のデータのやり取りが,全部紙で行われていました.そのため,法制執務を一環して支援する総務省・法制執務業務支援システム(e-LAWS)が2016年に運用開始されました.その設計・開発に我々の研究室が取り組みました.
e-LAWS
e-LAWSでは,それまで別々に行われていた,法案の起草・審議・公布・ウェブでの公開を,すべて同じデータベースを通じて行います.さらに,e-LAWSでは,一部改正法令の自動生成が可能になっています.例えば,人手で法律第七条中の「理容師」を「理容師又は美容師」に修正した場合,自動的に「第七条中、『理容師』を『理容師又は美容師』に改める。」という条文が生成されます.この結果,従来では人手で数十時間が必要だった作業が,わずか10秒で済むようになりました.
また,システムの核となる法令データベースに蓄積する法令データは,オープンデータに対応できるよう,XML形式になっています.この法令データのための文書スキーマ「法令標準XMLスキーマ」も我々が設計しました.このXMLスキーマは,現行法令約8,500件を記述でき,日本法令用文書スキーマとしては事実上の標準となっています.こうした現行法令は,総務省が運営する「e-Gov法令検索」から検索が可能になっています.これにより,日本で始めて政府が責任をもって現行法令の電子データを提供できるようになりました.
おわりに
現在,オープンデータやDX化が広く謳われるようになりましたが,我々はそれ以前から法令データのオープン化,DX化に取り組んできました.今後も,法令文書に自然言語処理を適用し社会の役に立つ研究を進めていきます.
小川 泰弘(情報基盤センター/知能システム学専攻)