ぴろりのくせになまいきだ。

世間に平和はおとずれなぁい

材料屋から見たデータサイエンス

最近その類の講演会を聴講してきたので忘れないうちに残しておこうと思います。


ちなみにわたしはデータサイエンスの類に関してど素人です。
間違ってるよ〜というものがありましたら、プークスクスしていただいたあとにご指摘いただけると幸いです。
細かい用語に関してもご指摘いただけると嬉しいです。



〇〇サイエンスがデータサイエンスと融合して〇〇・インフォマティクスという学術分野が形成されてきたということらしいですが、材料科学との融合分野は「マテリアルズ・インフォマティクス」と呼ばれます。

バイオ・インフォマティクスは目的変数として形質等をとり、ゲノム解析から得られた塩基配列を説明変数にすることで、情報学的に解析ができていたそうです。
遺伝子は設計図そのものですから、多変量解析からどの部分がどこの・どういった形質に影響するか、といったことがわかるのはある程度容易に想像できます。
話を聞いていて門外漢のわたしでも想像できるくらいです。

それもあってか、比較的早い時期からバイオ・インフォマティクスが立ち上がっていたそうです。


次に立ち上がったのがケモ・インフォマティクスです。
(最初聞いたときに、おっとそういう性癖のアレか?と思ってしまいましたが、化学のことです。念の為。)

ケモ・インフォマティクスおいては分子を取り扱うわけですが、この官能基があると〜、結合はこれで〜、主鎖はこれくらいで〜、側鎖はこれで〜、みたいなものを表記する手法があるらしいです。
(SMILESなるものがあるらしいです。他にもあったのですが失念してしまいました。)

このような表記を説明変数とすれば、なんか解析できそうなのはなんとなくわかります。
一意に構造さえ決めてしまえば、それが発現する特性等もほぼ決まるはずです。


さあ次はマテリアルズ・インフォマティクスだ!というわけなのですが、『新規材料探索をしようと思うと』こいつには大きな問題二つあると認識しています。
まずは説明変数には何が適切なの?問題です。

化学のデータベースはめっちゃ充実してるらしいのですが、材料科学だってないわけではありません。
データベースから種々の情報を拾ってきて説明変数にすればいいじゃん、というのはその通りなのですが、データベースが非常に不均質らしいのです。
というのも、とある材料は〇〇の特性が良さそう!となると、それに関連するパラメータは丹念に調べられますが、そうでないものはわりと切り捨てられます。
はたまたこの材料は××の特性が、となった場合、〇〇の特性に重要なパラメータが調べられるとは限りません。
そうなっていくと、とある分野では均質なデータだけど、ちょっとでも分野や用途が変わると取られているデータがかなり異なる、という状況になります。

ランダムに抜けているとかいうのではないところが大変に問題であると認識しています。
地域ごとで統計を取る際に、この地域は人口に関してね、ここは産業だけでいいよ、ここは気候のデータをとりあえずちょうだい、みたいなことになってるわけです。
そんなものがデータベースとして機能するのかという話です。

したがって、データベースから説明変数となるものを拾ってくるときにある程度の制限をかける等のことをしなければならないそうです。
しかしそうなるとそもそも多くないデータの数は減ってしまうわけです。
そもそも多くないデータ数に対して、わけのわからない数の説明変数が並んでいる(次元の呪いというらしいです)よりマシなのはそうかもしれませんが。


そして更にここで問題となるのが、「材料のつくりかた」です。
狙い通りのモノができてるできていない、ということはもちろん確かめるのですが、細かいところが特性にきいてくることがよくあるのです。
結晶の度合いはこれくらいです、表面はこんな感じです、熱履歴はこんなです、コンタミがこれです、特性の計測条件・装置はこれです、やった人の熟練度はこんなもんです、といった具合です。
(実験なので上手い下手があることにはあるものです。)

一つの材料に対してこれらのプロセス等をデータサイエンスを用いて、最も良い条件を検討することはもちろんできると思います。
しかし実際にはこれらの細かい条件はデータベースには乗らず、出てきた特性が目的変数としてデータベースに格納されます。
つまり、この物質の特性の値が確からしいのか、ということになってしまいます。
(どことは申し上げませんがよく考えるとおかしい値になっていることがあるらしいです。)


もう一つの問題は、機械学習の際の数理モデルは適切なの?というものです。

磁石の例を取るとわかりやすいので例にとると、磁石はアルニコ系、フェライト系、Sm-Co系、Nd-Fe-B系、(次はSm-Fe-N系?)といった具合に手を変え品を変えながら磁力(正確な表現ではないです)が大きくなっています。
(参照; 磁石の歴史【株式会社マグエバー】 https://www.magever.net/magnet-knowledge/magnet-history.html)

超伝導材料の転移温度も似たようなことになりますし、電池の類の容量も似たようなことになります。

何が言いたいかというと、それぞれ別の材料系で特性を伸ばそうとしており、その特性の発現機構が異なる場合が往々にしてある、ということです。
乱暴な例えですが、美味しいものが欲しいといわれたときに、ラーメンと寿司とピザとケーキをみんなで別々に献上しているようなものです。

ということで、Sm-Co系の磁石から、別の機構で磁力が大きくなるNd-Fe-B系を予測できるのか?ということになり、対応できるような数理モデルは組めるのか?ということになるわけです。
数理モデルがちゃんと組めるまでわかっている神様のような人なら、きっと計算するまでもなくものを作ってしまったほうが速いレベルです。



ここまで問題として挙げたのは、マテリアルズ・インフォマティクスで『新規材料探索』を行う場合です。
プロセス検討をします、一つの材料の開発速度を上げます、といった使い方であれば、十分マテリアルズ・インフォマティクスを適用できると考えられます(中身はちょっと工夫をした回帰分析でしょうから)。
そのような使い方であれば、導入したほうが開発速度が上がるのは目に見えていますし、実際にそういった動きもあります。


材料の『開発』には十分適用できるけど、『研究』に適用するにはまだまだ課題が多い、というのが現在のマテリアルズ・インフォマティクスの状態なのではないでしょうか。
研究や探索に適用するには、数理モデルを全て構築したうえで、複数並行して計算しながら最適化していく、といったようなスキームが必要なのかもしれません。
数理モデルの構築がそもそもの問題になる気がするのでなかなか難しいかもしれませんが。

データサイエンティスト、マテリアルエンジニアが協業し、お互いの強みを融合できるといいのですが、今のところすぐお金になる分野ではないのでデータサイエンティストが来てくれていないような気はします。

ならばわたしがデータサイエンティストになるまでよ!という思いはあるので頑張ってみます。
とりあえず統計学のお勉強していこうと思います。


いずれにせよ材料屋としては、データサイエンスはまず開発でうまく利用していくことに加えて、研究に組み込むようなことも考えていかねばならないフェーズであるとみています。
少なくとも生産現場での利用は、していかないと遅れをとるレベルのものであるように感じます。

今は材料屋からするとデータサイエンスはあくまでツールですが、今後は学問分野の一つとして「マテリアルズ・インフォマティクス」が確立されてくるものと考えています。
メーカーとしてはマテリアルズ・インフォマティクスの流れに乗って、基礎の基礎を含めた様々な技術をデータサイエンスから導入すべきであると思います。

今後の動向を注視したいと思います。