ぴろりのくせになまいきだ。

世間に平和はおとずれなぁい

材料屋から見たインフォマティクス2021(後編)

前回の記事はこちらです。
piroriblog.hatenablog.com

前回の記事では、以下のテーマを掲げ、そのうち、「MIは何が難しいのか」「MIでは何ができるか?」について取り上げました。

MIは何が難しいのか

MIでは何ができるか?

データはどこから?

インフォマティクスが当たり前になった場合の研究開発

後編では、「データはどこから?」「インフォマティクスが当たり前になった場合の研究開発」について書いていきたいと思います。
前回の記事に引き続いて、マテリアルズインフォマティクスのことは「MI」と省略します。

データはどこから?

まず、大前提として、MIをはじめとしたインフォマティクスの類は、データを必要とします。
そしてそのデータは解析可能でなければならず、そのデータが意味のあるものである必要があります。

何を言っているかというと、MIは優れた結果が勝手に出てくる打ち出の小槌のようなツールではない、ということであって、優れた結果を出すためには優れたインプットが必要である、ということです。
さらに言えば、データがあっても、形式がまちまちであったり、電子データでなかったり、適用しようとしている分野に全く関係がなかったりするものは、(少なくともそのままでは)データとしての価値がありません。
もし、うちは長くやってるからデータが蓄積されているはずで、MIのツールを導入すれば効率が上がる、と思っている人は考えを改めてください。

以下、インプットに用いられるデータと、その使われ方について説明します。
また、インプットに用いられるデータは、「実験データ」、「計算データ」、および、「文献データ」の3種類に分類し、説明します。

  • 実験データ

この記事では、「実験データ」は、実際に実験を行って得られたデータを指すものとします。さらに、「実験データ」はその組織内でのみ扱われるクローズドなデータを指すこととします。したがって、実験データについては、実験条件などが比較的詳細に記録されているものとします。

MIのインプットに用いるデータは、当然、実験データであることができます。
前回も述べたように、MIは材料開発を加速するツールであると考えています。MIの一つの側面として、適切な実験を行い、得られたデータについて分析を行い、さらに次の実験を行う、またさらに得られたデータについて分析を行い……という実験のループを素早く、また、効率よく回していくツールであると言ってしまっても良いかもしれません。
また、様々な説明変数(実験条件など)を絡めて解析することができますので、小さな差によって大きな結果の違いを生んでいることに気づいたり、工程の改善に用いたりすることができると考えています。
後述する計算データを用いるものよりは、どちらかというとプロセス寄りな手法になるかもしれません。

ただし、上述したように、解析可能な形でデータが記録されていないと意味がありません。
過去のデータがあっても、形式が全然違うとか、エクセルで管理しているけど1つのセルに複数の情報が入っているとか、人によって書き方が違うとか、そもそも紙であるとか、そういったものは、少なくともそのままでは実験データとしては解析できません。
そのあたりのリテラシーをどうしていくか、ということも課題になってくると思います。このあたりについては、後段のテーマで詳述します。

データの必要数については、どのような解析をするかによって変化すると考えています。
場合によっては十数個でもよいかもしれませんし、数百個が必要な場合もあると思います。解析の手法等に関しては正直詳しくないので、他を参照ください。

ここで、実験をロボット等で完全に自動で行うことができれば、実験のにおける人間の出番は、試薬の補充とロボットのメンテナンスくらいになるかもしれません。
ただ、前回も述べたように、実験の範囲そのものや実験の思想は、人間が考えて決めなければならないと思っています。これについても後段のテーマで詳述します。

  • 計算データ

「計算データ」とは、実験を直接的に行わず、計算によって得られたデータを指します。
実験の代わりに計算でデータを生成してしまおう、という考え方になります。
この方法は、材料探索時に使用されることが多い印象です。
例えば、特定の用途において既に研究されている材料のパラメータを計算し、特定の用途において必要なパラメータと、材料のパラメータとの相関関係を見出し、適切な材料を選択する、というものがあると思っています。
もちろん、適切な材料を導き出した後は、実際に実験してみて、主に相関関係を見出す段におけるパラメータを修正するようなフィードバックを行う流れになると思います。

計算の手法は、何であっても良いと思いますが、第一原理計算で物性を予測するパターンを多く見かける気がします。
ただし、例えば第一原理計算のように計算コストが大きいと、そもそも計算に時間がかかるので、その計算を行っていく順番も統計的に最適にしてやろう、という話もあります*1

ただ、この計算データは、世の中に入手可能で、統一的なデータベースがないので計算しているに過ぎないことは注意が必要かと思います。
つまり、材料に関するデータがすでに計算されていて、データベース化されているならば、それを利用すればよいわけです。
利益が絡んできたりもするので何とも言えませんが、もしある範囲(例えば、企業、業界、国など)で協力してデータベースをこしらえるようなことができるのであれば、それに越したことはないと思います。もし、実験データも紐づけられるならば、より価値があると思います*2

  • 文献データ

「文献データ」は、文字通り、文献から収集したデータを指します。
既にやってる人たちはいるのだからそこからデータを収集してしまおう、という考え方になります。
この手法も、材料探索時に用いられることが多い印象です。
文献は、主に論文になると思います。
例えば、論文から、願わくば自動で、場合によっては手動で*3データを抽出し、記載されているパラメータとの関係性をもとに、材料を探索していきます。
機械学習の進歩により、論文から自動でデータを収集できるようになる日はそう遠くないとは思っています。

ここで、「実験データ」および「計算データ」と性格の異なる点は、自分で方向性を決めて取得したデータでないものがもとになる、という点です。
論文のデータは、もちろん自分のものが含まれていても良いですが、他人のものが大半になると思います。
そうなると、データの取得状況が異なるので、同一のデータベースにそのまま突っ込んでよいのか、という懸念が生じます。そもそもそのデータは信頼できるのかという話もあり、うまく選別する必要もありそうです。
また、各論文おいて、特定の用途の性能以外のデータが同じである、ということもほぼないでしょう。したがって得られるのは歯抜けのデータとなるため、解析にはひと工夫が必要となるかもしれません。

ここで、種々の材料パラメータは計算で、実際の実験コストは高いので既報のデータを用いるという方式もありうると思います。
逆に、既に文献にある材料パラメータを抽出し、特定の用途における特性は実験する、という手もありうると思います。

ただし、文献データを収集する際は、材料開発において、どの材料を用いるかという点以外に、その材料の状態が物性に大きな影響を及ぼしうることで、材料の状態は工程によって変化する、ということに留意しなければなりません。
この点は、そもそもMIを難しくしている要因であることは前回の記事でも述べましたが、データ収集の際にも、この点は意識されなければなりません。さもないと、不適切な文献に記載されたデータを参照する可能性があるためです。


以上、3つのデータに関することを述べました。
冒頭でも述べたように、MIはデータがないと始まりません。
いかに質の良いデータを集めてくるかが、MIではじき出される結果のクオリティを左右します。
そして、少なくとも現状ではデータから内挿的に結果をはじき出すので、データを収集する範囲を見誤ると目的の材料はいつまでたっても得られないことになります。

また、解析についてはあまり触れませんでしたが、万能な解析方法はなく、ケースバイケースである、という認識を持っています。
どういったデータを収集し、どのように解析すればよいかについては、材料の知識とともに情報科学の知識も必要になってくるので、どちらかの専門家が、もう一方を習得する必要があるでしょう。これについては次のテーマで述べます。

インフォマティクスが当たり前になった場合の研究開発

研究開発は、もはやインフォマティクスが当たり前と言っても過言ではない時代に突入していると考えています。
おそらく、ケモ・インフォマティクスの範疇と思われる製薬についてはもうインフォマティクスが当たり前であると認識しています*4。その流れは間違いなく材料の分野にも来ることでしょう。
材料分野の研究開発者、またその関係者は、まずその認識を持つ必要があると考えます。
ここでは、インフォマティクスを適用した研究開発が当たり前になった場合の心構えについて述べます。
私は材料屋なので、情報屋の方々に偉そうなことは言えませんが、情報科学の立場の人がMIをやろうと思ったときの心構えについても、お願いの形で言及します。

インフォマティクスが当たり前になったときの研究開発者の心構え(理解すべきこと)としては、以下の3つがあると考えています。

  • MIのスキームの理解
  • 材料が性能を発現する機序の理解
  • 誰でも材料が開発できることに対する理解

以下、それぞれの項目について説明していきます。

  • MIのスキームの理解

MIのスキームを理解していないと、どのようなデータが必要か、どのような形式でデータを残せばよいか、どのような実験を行うのが効率が良いか、などについて効果的な案を出すことができません。当たり前ですが、仮にツールが導入されたとしても、使いこなすことができません。
MIのスキームの理解には、少なくとも統計学の知識が必要になるでしょう。そもそも研究開発はデータを扱うのですから、統計学の知識は必須級です。

また、スキームの理解には、できることとできないことの理解も含まれると考えています。できないことをやろうとしても原理上できるわけがなく、どうしたらMIができることに持っていけるか、という課題設定を行えるようになるべきではないかと考えます。
さらに、スキームの理解は、いわゆる(?)「手段の目的化」を防ぐために有効であると考えています。つまり、MIを導入することが目的とならないようにしつつ、何を達成したいからMIを導入するのだ、という思考のためにスキームの理解が有効であると思います。
もっとも、これはMIの導入に限った話ではないのですが。

もっと言えば、これはMIの導入初期にも関係する話ですが、MIを適用した研究開発を円滑に進めるための土壌を醸成するためにも、スキームの理解は必要であると思っています。
なぜならば、実際にデータを取得する人は自分だけではなく、ほかの人に何かをお願いすることが多々あり、その際になぜそのようなお願いをしてるか、を説明する必要があると考えているためです。何かやり方を変える場合、たいていの人は嫌がるため、その説得にはもっともらしい理由が必要でしょう。
もっとも、これもMIの導入に限った話ではなく、人に何かをやってもらう上で、意図を伝えるのは当然行われるべきだとは思うのですが。

  • 材料が性能を発現する機序の理解

実際にMIを用いて開発を行っていく上では、開発者が機能を発現する機序を理解していることが重要と考えます。
これは今もそうかもしれませんが、要するにお勉強しなさいよ、ということです。雰囲気で材料開発をやっているじゃあありません。

原理上、こうすればうまくいくとは思うんだけど、あまりにパラメータの組み合わせが多すぎてとても実験できない、というパターンにおいては、MIは非常に有効でしょう。
一方、所望の性能は決まっているのだけど、どうやって達成したらよいか見当もつかない、という場合はMIもお手上げです。前回も述べたように、MIはあくまで開発を加速するツールですので、筋の悪い開発からは筋の悪いものしか出てきません。ローカルミニマムに落ちるだけです*5
少なくとも、所望の物性に関連する材料側のパラメータを列挙できるようにしておかないと、有効な実験もできませんし、データの解析も難しくなります。データの解析まで自分でやるならばまだしも、ほかの人にお願いするのであれば、少なくともどういう機序が想定されるかについては説明できるべきと考えます。
全体としては、方向性は人間が決めてあげて、最適化をMIにやってもらう、という流れになるでしょう。

また、上で述べたお勉強には、材料そのものに関するものだけでなく、その使われ方なども含まれます。材料はどこかで使う人がいて初めて価値が生まれますので、誰も使わない材料を開発しても仕方がありません。

逆に、情報科学側の方々に対するお願いとしては、材料の物性に関係するパラメータは多くあり、同じ配合でも作り方によっても物性は左右されうることを頭に入れておいてほしい、ということです。
そのうえで、モデルを構築したり、データの収集を行ったりする際には、適切なフレームワークで行われているかを都度確認してほしい、と考えています。
ただ、何らかの理由があって物性が変化していることは間違いないので、それを解明することは可能であると信じています。そういった部分に興味がある方は、ぜひ材料の世界にも足を踏み入れてみていただけると幸いです。

  • 誰でも材料が開発できることに対する理解

この「誰でも」には二つの意味が含まれます。
一つは「正しいアイデアを持つ人なら」という意味で、もう一方は「どの企業でも」という意味です。

「正しいアイデアを持つ人なら」というのは、例えば若い人があり得ます。職級は高くないけど現場にいる目利きの人、であっても良いでしょう。
仮に、全自動で実験をしてくれる環境があるならば、その設定が全てであるといえます。多くの人を動かせなかったとしても、アイデアさえ正しければ、良いアウトプットが出てくるはずです。
逆に言えば、研究開発において管理だけしてるような人は不要になるでしょう。その分野における専門知識がより重要になっていくはずで、勉強をしない人は研究開発の現場から退場するほうが皆のためになる、と言われても不思議ではありません*6

「どの企業でも」というのは、例えば、競合他社が自社の材料を簡単に模倣できるようになるかもしれないし、取引先が内製するようになるかもしれない、ということが挙げられます。
仮に、とある材料の製造に際して、ノウハウとして製造方法や鼻薬のようなものを秘匿していたとして、その材料が入手可能であれば、MIを用いて同じ材料を製造できる可能性がある、ということです。設備投資云々のバランスが許せば、これは誰でも行いうることになります。
そうなってくると、材料を作る立場としては、完成品に近いものを作っている立場のメーカーと共同して市場の開拓をし、そこに必要な材料を供給するという姿勢をとるか、または、設備投資の面で他には作らせないだけの規模にしてしまうか、といったものが挙げられます。

また、どの企業でも比較的短期間で材料が開発できるとなれば、知財戦略もそれに適応したものにしなければならないでしょう。
ノウハウとして秘匿できるものであるのか、特許出願して参入障壁を築くのか、その判断をより厳密にしていくべきと考えます。
また、特許化するとしても、どのような権利範囲を取得しにいくかはよく考えねばなりません。発明の本質が何であって、同じ特性を達成しようと思ったらどのような方法がありうるか、ということを今まで以上によく考えねばならないでしょう。

小括

MIではデータが必要であり、質の良いデータを集める必要性があることを述べました。集めるデータは、目的に応じて適切な範囲のものを収集する必要があることも言及しました。
また、材料の研究開発においてMIが当たり前になったとき、MIのスキームと、研究開発対象となる材料に対する理解が重要であることを述べました。
ここで、MIが当たり前となると、ビジネスの考え方、知財戦略の考え方にも変化が起こりうること指摘しました。

まとめ

MIについて、何ができるか、何に気を付けるべきか、何をしていくべきか、どのような変化をもたらしうるか、について書いたつもりです。
簡単にまとめるなら、MIは材料開発をアシストするツールであり、開発そのものの方向性は開発者が決めなければならず、開発者はMIの特性を理解したうえでデータの収集と実験を行う必要がある、となると思います。

本来であれば、出典をきちんと書いて言及すべき内容が多いですが、諸般の事情によりできない部分が多くあり、このような形となっていること、ご容赦ください。
また、必ずしも正確でない内容がありますので、実際に何かを進めていく際には、成書等を参考にされることを強くお勧めします。

前後編にわたってずいぶん長くなってしまいましたが、以上としたいと思います。
皆様のMIに関する解像度が少しでも向上したならば幸いです。

*1:マシンパワーの増強でこういう話は徐々になくなっていくかもしれませんが……

*2:材料立国を目指すのであればうまいことやってほしいものですが……

*3:学生がやってくれた旨の話を何回も聞きました

*4:その業界の方がいたら詳しく教えてください

*5:とはいえ、失敗からの発見はもちろんありますので、いろいろ試してみるのは悪いことではないと思っています

*6:でも結局若手にチャンスはそうそうめぐってこないんだろうなあという諦念があります