The Mummers - Call Me a Rainbow
AlphaFold: Using AI for scientific discovery | DeepMind

DeepMindがタンパク質の折り畳み構造(フォールディング)を予測する“AlphaFold”を開発し、先日メキシコで行われたタンパク質の構造予測コンペティション(CASP13)で他の研究グループを引き離して1位を獲得*1したようだ。
タンパク質の折り畳みとは
細胞内で遺伝子情報にもどづいて翻訳(合成)されたペプチド鎖*2は、それぞれの配列に応じた3次元構造に正しく折り畳まれることによって、はじめてタンパク質としての固有の機能を持つようになる。
例えば、私たちの免疫系を構成する抗体タンパク質はY字型の構造をとり、Y字の両腕の部分が抗原(病原体など)を捕らえて、その抗原の特徴を記憶する*3。また、コラーゲンタンパク質は、軟骨、靭帯、骨、皮膚の間の張力を伝達するために紐状の構造をとる。
なぜタンパク質の折り畳みが重要なのか
アルツハイマー病、パーキンソン病、ハンチントン病、嚢胞性線維症などの疾病はタンパク質の折り畳みミスによって引き起こされると考えられている。
これらの疾患の診断、治療に加え、体内でのタンパク質の役割を理解するためには、その構造を予測する能力が必要とされる。また、折り畳みの理解はタンパク質設計を可能とし、創薬や地球環境改善(廃棄物を分解するバクテリア設計)などへの応用にも資すると期待される。
タンパク質の折り畳み形状は計算可能か
タンパク質の折り畳みは物理法則に基づいて進行するが、その法則(自由エネルギー最低状態の算出方法)が解明されていないため、アミノ酸配列から理論的に計算することができない。
一方、もしランダム探索を使ってタンパク質が取り得る3D構造を網羅的に評価する方法を採ると、必要な計算時間は宇宙の年齢(138億年)をはるかに超えてしまう*4。
過去50年の間、科学者たちは低温電子顕微鏡法、核磁気共鳴法、X線結晶構造解析法といった実験技術を使ってタンパク質の形状を追い求めてきた。が、これらの方法は多分に試行錯誤に依存する上、1回あたりの実験コストも高い。
AlphaFoldとは
DeepMindが開発したニューラル・ネットワークに基づく計算システム「AlphaFold」は、以下の手順でタンパク質の折り畳み構造を“推論”する。

- 既知のタンパク質構造を教師データとしてトレーニングされたネットワークAを用いて、未知のペプチド鎖中の各アミノ酸ペア構造について以下を推論する
a) アミノ酸ペア間の距離
b) アミノ酸ペア間の化学結合の角度 - 上で得られたアミノ酸ペアの距離分布を(何らかの評価関数を用いて)スコア化し、このスコアが最良解にどの程度近づいているかを推論するための別のネットワークBをトレーニングする
- このネットワークの推論結果(好スコア構造)と合致する構造をタンパク質ランドスケープから検索する
- 従来の構造生物学で一般的に用いられる技術(ドメイン知識)を適用し、検索したタンパク質構造の断片を推論で得られたタンパク質の断片で置換する操作を繰り返す
- 上の操作で得られたタンパク質構造を新たな教師データとしてネットワークAとBのトレーニングを繰り返し、推論精度を改善する*5
- 一定の改善が進んだネットワークAと、新たに用意した別の評価関数(最急降下法に基づくもの)を使ってさらにトレーニングを行い、ネットワークを最適化する。ここでの最適化は上の工程のような断片構造ではなく、タンパク質鎖全体に適用する
- 下図は最終的なタンパク質構造の推論結果例

緑:実際のタンパク質の構造
青:AlfaFoldが推論した構造
- CASP13に参加したのは98の研究チーム。AlphaFold(エントリG043/A7D )は43種のタンパク質のうち25種の構造を正確に予測した。2位のチームは3種であった。
- アミノ酸がペプチド結合によって並んだ分子構造
- 病原体の構造を記憶した抗体タンパク質は同じ構造の病原体を捕まえて排除する。従ってある型のインフルエンザに対する抗体が体内にできれば、以降は同型には罹患しない
- アミノ酸150個(150残基)から構成されるタンパク質を想定する。ひとつのアミノ酸が3種類の位置状態を取りうるとし、一回の状態変化に0.1ps(1x10-13秒)を要すると仮定すると、全探索に必要な時間は
3150 x 10-13 ≒ 1058秒 ≒ 1050年(宇宙の年齢は1.38 x 1010年)
しかし実際のタンパク質は1ms程度で折り畳まれる。これは上の速度で1010回の探索回数にしか過ぎない(Levinthalのパラドクス) - トレーニングのイタレーション方法はDeepMindのブログ記事に詳しく書かれていないので、この一連のフローは多分に推測を含んでいる(権利化などの事情で詳しく書けない点があるのかもしれない。追って論文で明確になることを期待したい )。既知のタンパク質構造の教師データだけでは全く足りなくて、この工程を必要とするのだと思われる。が、下手をすると逆効果(精度劣化)を生じるだろうし、ドメイン知識を援用せざるを得ない点にもAlphaZeroとは違った困難さが顔を覗かせているように感じる。とは言え、そういった危険な隘路をくぐり抜けたからこそコンペで勝つことが出来たわけで、やはり手放しでお見事という他ない
2018 CQ WW DX CW Contest
SOABL(A) 545 Qs, 60 Zn, 104 Cty, 235,996 Pts(raw)
今年はなかなかスケジュールが合わず、ずっとコンテストに参加できずにいた。このまま2018年が終わってしまうのは忍びなく、都合をつけて久しぶりにリグの前に座ってみた。
あまりに久しぶりすぎてコンディションの良し悪しがよく分からない。が、21MHz以上の落ち込みはますます酷くなっているようだ。一方、14MHzはオープンする時間は短いもののNA, EU方面がよく聞こえ、ちらほらと呼ばれる時間帯もあった。
moumoon「moonlight」
AI and Compute

しばらく前の「OpenAI Blog」に掲載された記事。
ひとつのニューラルネットワークの訓練に費やす演算量が「3.5ヶ月毎に2倍の増加傾向にある」と述べている。「この傾向はしばらく続くだろう」とも。
以下は記事の概要。
- 2012年以降、ひとつのニューラルネットワークの訓練に費やす演算量は「3.5ヶ月毎に2倍の増加傾向1」にある(ムーアの法則2は18カ月で2倍)
- ネットワークの訓練環境を大きく4つの時代に分けて捉えることができる
- ~2012年:GPU以前の時代
- 2012~2014年:1~8GPUの時代(1~8TFLOPS/GPU)
- 2014~2016年:10~100GPUの時代(5~10TFLOPS/GPU)
- 2016~2017年:大バッチサイズ、アルゴリズムレベルの並列処理とTPU等の新ハードウェアの時代
- この傾向(3.5ヶ月毎に2倍=18ヶ月で10倍)はしばらく続くと考えられる。理由は複数ある
- AI専用LSIの台頭が演算量増大と計算効率向上を後押し
- 基本的にはスケール(物量)でカバー可能
- スケールに必要な費用も確保可能(世界のITハードウェア総予算は年間1兆ドルと予想され、まだAI領域で費用確保の余裕あり)
- グラフの縦軸(Petaflop/s-day)は普段あまり見かけない単位系だが、「ひとつのニューラルネットワークの訓練に必要な延べ演算量(のようなもの)」と理解すればよいと思う。
例えばAlexNetの場合、原論文に「GTX 580 3GB GPU 2台で訓練するために5~6日かかった」と記載されていることから、以下となる。
GPU台数 x Peta-flops/GTX580 x 訓練日数 x 平均演算効率
= 2台 x 1.58 x 10-3 Peta-flops/台 x 5.5day x 0.33
= 0.0058 Peta-flops-day - ムーアの法則:
インテルの創業者であるゴードン・ムーアが1965年の論文で述べたLSIの集積度に関する予測。LSI上のトランジスタ数は「18ヶ月毎に2倍の割合で増える」というもの。一方、AI側からの要請は「18ヶ月毎に10倍の演算量」なので、この落差の埋め合わせは差し迫った課題。