ミニ特集「情報学と自然言語処理」:オープンサイエンスと自然言語処理
はじめに
オープンサイエンスは、あらゆる研究分野に関わる学際的活動であり、その推進において情報学の技術や技法の活用が求められてます。本稿では、我々、名古屋大学大学院情報学研究科松原研究室にて取り組む、オープンサイエンス推進の現状とその深化に向けた自然言語処理技術の貢献について述べます。
オープンサイエンス
オープンサイエンスとは,論文や研究データなど研究成果の共有や利活用を促進する活動を意味します。研究データとは、研究活動の過程で収集・生成されたデータをいいます。観測データ、試験データ、調査データ、実験ノート、メディアコンテンツ、プログラム、ツールなどが含まれます。
オープンサイエンスの背景として以下の国際的な動向が挙げられます。
- 2013年6月G8科学大臣会合において、研究データのオープン化に関する共同声明が出されました。これにより世界の動きが加速しました。
- 英国・エディンバラ大学で2011年に研究データ管理ポリシーが制定されるなど、欧州において先進的な取り組みが展開されています。米国や豪州でも大学等でデータ科学に関する組織やデータ基盤が設定されるなど、オープンサイエンスの活動が進められています。
国内においてもオープンサイエンスの動きが進んでいます。
- 内閣府では、「国際的動向を踏まえたオープンサイエンスに関する検討会」が2014年3月に国の基本方針をまとめています。 2016年1月に閣議決定された第5期科学技術基本計画において、イノベーション創出に向けオープンサイエンスを推進することが掲げられました。
- 文部科学省の科学技術・学術審議会では、2016年2月に「学術情報のオープン化推進について」をとりまとめ、研究データ等の公開と利活用の方策を提示しています。
- 日本学術会議からは、「オープンイノベーションに資するオープンサイエンスのあり方に関する提言」が2016年7月に示されています。
研究データの管理・公開・利活用
オープンサイエンスを推進するために、研究者または研究機関による研究データの管理・公開・利活用を促進することが重要となります。
- 研究データ管理とは、研究データの収集、生成、整理、解析、加工、共有 、保存、破棄など、学術活動の開始から終了までの学術データの取扱いを定め、これを実践することを言います。
- 研究データの公開とは、研究データを他の者が利用できる状態にすることです。
- 研究データの利活用とは、公開した学術データから、より多くの知的成果等が生み出されるよう、研究データの価値を高めることを意味します。
研究データの管理に関して以下のような動きがあります。
- 「国立研究開発法人におけるデータポリシー策定のためのガイドライン」が2018年に内閣府で定められました。データポリシーとは、研究データの管理・利活用についての組織としての方針を示すものです。国立研究開発法人において、データポリシーの制定が進められています。
- JST,NEDO,AMEDなどの研究助成機関において、研究データの管理、共有、公開等をまとめたデータ管理計画(DMP)の提出を、プロジェクト推進者に義務付けるようになってきています。
- 学術雑誌の出版では、論文に記載された研究データが、リポジトリなどで公開されていることを掲載の条件とする事例が増えてきています。
- 大学ICT推進協議会(AXIES)の研究データマネジメント(RDM)部会では、「学術機関における研究データ管理に関する提言」を公表しています。大学において、執行部、情報基盤、図書館、研究推進、産学連携などのステークホルダーが連携して推進する際の理念や考え方の観点をまとめています。
名古屋大学でも「学術機関による研究データ管理」の活動が進行しています。
- 研究データ保存に関する学内規程が設けられ、学術論文の発表後10年間という保存期間が定められています。また、執筆した学術論文をできる限り無償で公開するという「名古屋大学オープンアクセスポリシー」を制定しています。
- 研究データの管理・公開・利活用の様式は、分野やコミュニティによって様々です。本学の実態を集約するため、研究データ管理に関する全学的な調査が行われています。この調査は、AXIES/RDM部会でとりまとめられ、北大、東北大、京大、大阪府立大、広島大などでも展開されています。
- 研究データを保管・共有するための「研究データ管理基盤」を運用しています。大学のストレージに研究データを保存し管理することができます。本学の教職員や学生が、個人またはグループで利用することができます。
- 2020年10月に「名古屋大学 学術データポリシー」が策定されました。学術データとは、研究データや教育コンテンツを含む、学術活動を通じて取り扱うデータをいいます。本ポリシーで、学術データの管理・公開・利活用に関する大学構成員ならびに大学の責務が示されました。
- 大学構成員による学術論文を無償で公開する場として、名古屋大学学術機関リポジトリが活用されています。研究データの公開についても、学術機関リポジトリを活用する動きが広がることが見込まれます。
言語資源の構築と利用
自然言語処理の分野で用いられる研究データを言語資源と言います。コーパスや辞書、シソーラスなどが含まれ、言語処理研究で欠かせない研究資源となっています。
言語資源の利活用を促進し、研究を活性化する活動が進められてきました。
- 一般に、研究データが保管されたデータ基盤をデータリポジトリと言います。研究データ自体でなく、そのメタデータ(保存先や種類など研究データに関する情報)のみから構成される場合もあります。
- 言語資源の共有と利活用の促進のために、言語資源のデータリポジトリを整備する動きが進められてきました。海外では、LDC, ELRAなどのコンソーシアムが言語資源を大規模に収集し配布しています。OLACは、言語資源のメタデータを整備しています。国内でもいくつかの機関が同様の役割を担っています。言語資源データベースSHACHIは、世界標準のメタデータ仕様を採用し、国内外の言語資源メタデータを体系的に整備しており、言語資源の流通に活用されています。
研究データリポジトリ
オープンサイエンス推進の方策として,論文や研究データのリポジトリを整備することが挙げられます。
- よく知られているように、論文リポジトリについては,学術機関や学協会,出版社等により構築され,論文へのアクセス性の向上に貢献しています。
- 研究データリポジトリについては,特定の分野を対象に作成の試みはあるものの,世の中に散在する研究データを広範に集積したデータリポジトリの構築と普及が望まれています。
- 研究データリポジトリを整備するために、研究データを登録することとメタデータを作成することが必要です。これらの作業は、現在、研究データの作成者、あるいは、リポジトリの管理者が人手で行っています。作業が機械化されれば、リポジトリの拡充が格段に効率化します。
研究データリポジトリの整備に関わる課題の解決に自然言語処理技術を用いることができます。
- 世界中で膨大な数の論文が日々生産され、流通してます。データ中心科学が広まり、論文には、研究データに関する情報(種類、内容、作成者、場所、用途など)が溢れています。それらの情報は、研究データの作成者が提供する情報に留まらず、利用者の視点からの価値ある情報も含まれます。
- 大規模なテキストデータを解析し必要な情報を獲得する技法は「テキストアナリティクス」と呼ばれます。自然言語処理の重要な応用技術です。大量の論文テキストから研究データに関する情報を獲得し整理することにより,データリポジトリの構築や拡充が加速化します。自然言語処理がオープンサイエンスの深化に寄与します。
松原 茂樹(まつばら しげき)
知能システム情報学専攻