分子と情報
吉田紀生(複雑系科学専攻)
はじめに
私たちの身の回りは分子であふれています。最も身近なものとして、私たちの体自体が分子の集合体としてできていますし、コップ1杯の水は、膨大な数の水分子によって構成されています。高校化学でも学ぶように、分子はほんの一カ所、結合が変化したり、異なる元素に置換したりするだけで、まったく違う性質を示すことがありますし、逆に、それらに共通な普遍的な性質を持つ場合もあります。このような分子が持つ多様性と普遍性を明らかにすることは、化学の中心的課題となっています。これまでの歴史上、人類は膨大な分子の構造を解明し、その情報を蓄積してきています。本稿では、これら分子が持つ多様な情報の利用について、そして分子情報を得るための情報技術について解説します。
データベース
上述の通り、人類はこれまでに膨大な種類の分子についての情報を得ています。これらの情報をまとめた化学データベースが公開されています。もっとも有名なものの一つにPubChemがあります。[1] PubChemはアメリカ国立生物工学情報センター(National Center for Biotechnology Information)によって管理されているデータベースで、2022年12月時点で3億近い化学物質情報および1億以上の化合物構造情報が収録されています。収録されているデータにはウェブページを通じて簡単に誰でもアクセスすることが可能であり、化合物名だけでなく、組成式や部分的な構造情報、そして関連キーワードなどで化合物を検索することが可能です。例えば、Covid-19で検索すると、1709件の化合物構造情報や547件のタンパク質情報を得ることができます。それぞれの化合物情報として、化学構造、分子量、融点や沸点、蒸気圧、溶解度、分配係数などなどのさまざまな情報が収録されています。
その他に、タンパク質に特化したデータベースとして、PDB(protein data bank)があります。[2] PDBには約20万個のタンパク質構造情報が収録されています。各タンパク質に対して、アミノ酸配列、その構造がどのように決定されたのか、構造の信頼度(解像度)はどれくらいなのか、など詳細な情報を得ることができます。また、PDBには日本にも拠点があり、大阪大学蛋白質研究所がPDBjとして運営しています。[3]
これらの化合物やタンパク質の分子情報は、新しい分子・タンパク質の設計や調査に役立てられ、さらなる分子情報の蓄積に役立っています。
計算化学
膨大な分子情報を蓄積する以外にも、未知の分子情報を得るために情報技術が活躍しています。コンピュータを用いて分子の情報を予測・調査する方法として、計算化学と呼ばれる分野があります。計算化学で用いられる手法で主要なものとして、量子化学計算と分子シミュレーションが挙げられます。
量子化学計算は、主に分子・原子の支配方程式であるシュレーディンガー方程式をコンピュータを用いて解いて、そこに含まれる電子の状態を明らかにするものです。分子の構造・性質は分子の中の電子がどのように振る舞うかによって決定されているため、量子化学計算で電子状態を知ることで分子が持つ性質を計算によって予測・解明することができるようになります。(余談ですが、日本で初めての(そしてアジアでも初めての)ノーベル化学賞となった福井謙一博士の「フロンティア軌道理論」も、この量子化学計算に関係したもので、化学反応過程を予測・記述する理論として知られています。)
もう一つの分子シミュレーションは、コンピュータの中で分子の運動を数値計算により再現し、構造や状態の変化を解析することを目的としています。分子シミュレーションにはいくつかの方法がありますが、例えば分子動力学シミュレーション(Molecular dynamics simulation)では、分子一つ一つについて数値計算により運動方程式を解き、その運動を追跡します。近年のコンピュータの発展により年々より大きく複雑な系のシミュレーションが可能となっており、スーパーコンピュータ富岳を用いることでウイルスのまるごとシミュレーションも可能となってきています。(図)[4]
これら以外にもさまざまな計算化学手法が提案されています。そのようなさまざまな計算化学手法を組み合わせたハイブリッド法を構築することより複雑な現象の解明に向けた取り組みも盛んに行われています。[5] 名古屋大学・情報学部でも量子化学計算や分子シミュレーションを組み合わせた手法を開発して、複雑な化学現象の解明に挑んでいます。図に示すのはその一例で、物質情報論講座では、リチウムイオン電池の負極表面への固体電解質間化合物(SEI)膜の形成過程[6]、溶液中での遷移金属錯体の励起状態ダイナミックス[7]、液体の統計力学理論によるタンパク質の分子認識過程と水和の研究などに取り組んでいます。[8]
人工知能の利用
近年脚光を浴びている人工知能(機械学習・深層学習)も利用が進んでいます。
上述の通りこれまでに膨大な分子情報が蓄積されています。このため大量のデータを有効活用できる人工知能は大変強力なツールとなります。ケモ・インフォマティクスと呼ばれる分野では、分子情報をもとに深層学習を用いることで、狙った性質・機能を持つ新しい分子をデザインするという試みがなされています。また、同様の試みが材料分子設計(マテリアルズ・インフォマティクス)や薬剤分子の設計(コンピュータ・エイデッド・ドラッグ・デザイン)といった分野でも行われています。
また、計算化学分野でも計算効率の向上や計算精度の向上などさまざまに機械学習・深層学習が用いられていています。そのうちの一つに量子化学計算手法の一つである密度汎関数法(Density functional theory, DFT法)での利用があります。DFT法では電子間の相互作用を記述する電子密度汎関数に近似を用いる必要があり、どのような近似を用いるかがDFT法の適用範囲・精度に大きな影響を与えています。現在、機械学習・深層学習を用いて、より精度の高い近似汎関数を求めようという取り組みが世界中の計算化学者によって行われています。[9]
機械学習・深層学習を利用するためには、学習するための膨大なデータセット(教師データ)が必要となりますが、そのデータセットを得るための実験を人工知能を搭載したロボットに行わせよう、といった取り組みも行われています。[10] ロボットによる実験で膨大なデータを収集、機械学習・深層学習により評価、実験を最適化、そして分子設計を加速していく、このような取り組みが今後主流になっていくかも知れません。
おわりに
ここで触れた分子と情報のつながり極々一部のもので、現在、情報は分子科学分野でさまざまな方法で幅広く利用されています。名古屋大学情報学部自然情報学科でも新しい情報技術を開発・利用してこれまでにない分子科学分野を切り開くための研究が行われています。
参考文献
[1] PubChem. https://pubchem.ncbi.nlm.nih.gov/
[2] PDB. https://www.rcsb.org/
[3] PDBj. https://pdbj.org/
[4] All-atom molecular dynamics study of hepatitis B virus containing pregenome RNA in solution, Fujimoto et al., J. Chem. Phys., 155, 145101, 2021
[5] 巨大分子系の計算化学 超大型計算機時代の理論化学の新展開 日本化学会・編 化学同人 2012
[6] Microscopic Formation Mechanism of Solid Electrolyte Interphase Film in Lithium-Ion Batteries with Highly Concentrated Electrolyte, Takenaka et al., J. Phys. Chem. C 122, 2564-2571, 2018
[7] Insight into the light-induced spin crossover of [Fe(bpy)3]2+ in aqueous solution from molecular dynamics simulation of d-d excited states, Iuchi and Koga, Phys. Chem. Chem. Phys., 18, 4789, 2016
[8] Role of Solvation in Drug Design as Revealed by the Statistical Mechanics Integral Equation Theory of Liquids, Yoshida, J. Chem. Info. Model., 57, 2646-2656, 2017
[9] 機械学習が理論化学・計算化学に与えるインパクト 藤波美起登,中井浩巳 現代化学 2022年6月
[10] Data-driven automated robotic experiments accelerate discovery of multi-components electrolyte for rechargeable lithium–oxygen batteries, Matsuda et al., Cell Reports Physical Science, 3, 100832, 2022.