Home
11942 words
60 minutes
Kabsch アルゴリズムによる最小二乗重ね合わせと RMSD 算出:数学的導出・歴史的背景・実利的応用

last_modified: 2026-03-16

生成AIによる自動生成記事に関する免責事項: 本記事は、Kabsch アルゴリズムおよびその関連理論に関する一次文献・教科書・実装を基に、生成AI(Claude, Anthropic)によって自動構成された技術解説記事です。内容の正確性を保持するよう努めていますが、厳密な理論的証明や数値データの解釈については、必ず原著論文を参照してください。本記事に含まれる数式・コード・参考文献の引用は、学術的な解説・教育目的のものであり、特定の研究成果の保証を意図するものではありません。


1. 序論:分子構造比較の問題設定と RMSD の中心的役割#

計算化学・構造生物学・創薬科学において、二つの分子構造が「どの程度一致しているか」を定量化することは、様々な下流タスク――タンパク質立体構造予測の精度評価、分子動力学(MD)シミュレーションにおける構造的安定性のモニタリング、量子化学計算における重複構造の除去、ならびにドラッグデザインにおける活性コンフォメーションの照合――の根幹をなす基本操作である。

この定量化の主要な指標として、原子間距離の二乗平均平方根(Root Mean Square Deviation; RMSD)が広く用いられている。RMSD は直観的な解釈が可能であり、単位が座標と同一(Å など)であるため、分子のスケールと直接対応する物理量として認識されやすい。しかしながら、二つの分子構造を比較するためには、それらを最適に重ね合わせた(superpose した)後のRMSDを算出しなければならない。なぜなら、剛体的な並進・回転によって RMSD は大きく変化するからである。

「最適な重ね合わせ」とは、並進と回転の組み合わせの中で RMSD を最小化するものを意味する。この問題は、最適剛体重ね合わせ問題(Optimal Rigid-Body Superposition Problem)と呼ばれ、行列解析の観点からは直交 Procrustes 問題(Orthogonal Procrustes Problem)の一例として定式化される。

本稿が主題とするのは、この最適化問題に対して Wolfgang Kabsch が 1976 年および 1978 年に提案した、特異値分解(Singular Value Decomposition; SVD)に基づく解法——一般に「Kabsch アルゴリズム」と呼称される手法——の理論的基礎・歴史的背景・数値実装上の諸問題、および実際の計算化学プログラムにおける具体的な利用形態についてである。特に、以下のコードに示される _kabsch_rmsd メソッドが実装する考え方を中心に据えながら、その数学的根拠を丁寧に展開する。

@staticmethod
def _kabsch_rmsd(pa: np.ndarray, pb: np.ndarray) -> float:
    """Minimum RMSD between pa and pb over all proper rotations.

    Chirality guard (d < 0 → return inf):
        When the optimal superposition requires an improper rotation
        (det < 0), the classical Kabsch algorithm still returns a finite
        RMSD after sign correction, potentially mis-identifying enantiomers
        for flat chiral molecules.
        Fix: return ``inf`` immediately when d < 0. The decision is based
        on *state* (whether a reflection is required), not on numerical
        magnitude, so it is independent of molecular shape. This has no
        effect on non-chiral molecules (H₂O, meso compounds) because their
        mirror images can be superimposed with a true rotation (d = +1) for
        at least one candidate.
    """
    if len(pa) == 0:
        return 0.0
    U, S, Vt = np.linalg.svd(pb.T @ pa)
    d = np.linalg.det(U) * np.linalg.det(Vt)

    if d < 0:
        return float("inf")

    E0 = np.sum(pa ** 2) + np.sum(pb ** 2)
    rmsd_sq = max(0.0, E0 - 2.0 * np.sum(S)) / len(pa)
    return float(np.sqrt(rmsd_sq))

2. 問題の形式的定義:最適剛体重ね合わせと RMSD#

2.1 RMSD の数学的定義#

NN 個の対応する原子対を持つ二つの点集合 P={pi}i=1N\mathbf{P} = \{\mathbf{p}_i\}_{i=1}^{N} および Q={qi}i=1N\mathbf{Q} = \{\mathbf{q}_i\}_{i=1}^{N}pi,qiR3\mathbf{p}_i, \mathbf{q}_i \in \mathbb{R}^3)が与えられたとき、RMSD は次のように定義される。

RMSD(P,Q)=1Ni=1Npiqi2\mathrm{RMSD}(\mathbf{P}, \mathbf{Q}) = \sqrt{ \frac{1}{N} \sum_{i=1}^{N} \| \mathbf{p}_i - \mathbf{q}_i \|^2 }

この定義は各原子対間の三次元ユークリッド距離の二乗の平均値の平方根であり、構造的類似性の直感的な尺度となる。ただし、上記の式は原子の対応関係が既知であり、かつ両構造が適切な座標系に配置されていることを前提とする。

2.2 最適重ね合わせ問題の定式化#

実際の構造比較においては、まず両構造の重心を合わせる並進操作を施した後、最適な回転行列 RSO(3)\mathbf{R} \in SO(3)(行列式 +1+1 の直交行列の集合)を求める問題を解く。

並進の除去: 両構造の重心 pˉ=1Ni=1Npi\bar{\mathbf{p}} = \frac{1}{N}\sum_{i=1}^{N}\mathbf{p}_iqˉ=1Ni=1Nqi\bar{\mathbf{q}} = \frac{1}{N}\sum_{i=1}^{N}\mathbf{q}_i を減算して重心中心化を行う。

pi=pipˉ,qi=qiqˉ\mathbf{p}'_i = \mathbf{p}_i - \bar{\mathbf{p}}, \quad \mathbf{q}'_i = \mathbf{q}_i - \bar{\mathbf{q}}

最適回転の探索: 重心中心化後の点集合に対して、最小 RMSD を実現する回転行列を求める。

R=argminRSO(3)i=1NpiRqi2\mathbf{R}^* = \arg\min_{\mathbf{R} \in SO(3)} \sum_{i=1}^{N} \| \mathbf{p}'_i - \mathbf{R} \mathbf{q}'_i \|^2

この問題は直交 Procrustes 問題の特殊ケースであり、行列解析・数値最適化の文脈で古くから研究されてきた。

2.3 最適化目的関数の展開#

目的関数を展開すると、その本質的な構造が明らかになる。

i=1NpiRqi2=i=1N(pi2+qi22piRqi)\sum_{i=1}^{N} \| \mathbf{p}'_i - \mathbf{R} \mathbf{q}'_i \|^2 = \sum_{i=1}^{N} \left( \|\mathbf{p}'_i\|^2 + \|\mathbf{q}'_i\|^2 - 2 \mathbf{p}'^{\top}_i \mathbf{R} \mathbf{q}'_i \right)

回転行列 R\mathbf{R}Rqi=qi\| \mathbf{R} \mathbf{q}'_i \| = \| \mathbf{q}'_i \| を保つ(等長変換)ため、上式の第一・第二項は R\mathbf{R} に依存しない。したがって、目的関数の最小化は、交差項 i=1NpiRqi\sum_{i=1}^{N} \mathbf{p}'^{\top}_i \mathbf{R} \mathbf{q}'_i の最大化と等価になる。

これをまとめると、次の等価な問題として定式化できる。

R=argmaxRSO(3)tr(RH)\mathbf{R}^* = \arg\max_{\mathbf{R} \in SO(3)} \mathrm{tr} \left( \mathbf{R} \mathbf{H} \right)

ただし、H\mathbf{H} は共分散行列(クロス共分散行列)と呼ばれる 3×33 \times 3 行列で、次式で定義される。

H=i=1Nqipi=QP\mathbf{H} = \sum_{i=1}^{N} \mathbf{q}'^{\top}_i \mathbf{p}'_i = \mathbf{Q}'^{\top} \mathbf{P}'

ここで P\mathbf{P}' および Q\mathbf{Q}' はそれぞれ中心化された座標を行方向に並べた N×3N \times 3 行列である。このように、最適重ね合わせ問題の核心は、与えられた 3×33 \times 3 行列に対してトレースを最大化する SO(3)SO(3) 元を求める問題に帰着する。


3. 歴史的背景:Kabsch アルゴリズムの成立過程#

3.1 前史:Wahba 問題と直交 Procrustes 問題#

最適重ね合わせ問題の起源は、計算化学よりも古く、統計学・測量学の問題に端を発する。1965 年、Grace Wahba は人工衛星の姿勢決定(attitude determination)という工学的文脈において、雑音を含む方向ベクトルの観測値から最適な回転行列を推定する問題を定式化した。これは「Wahba 問題」として知られ、最適制御・ロボティクスの分野においても広く参照される古典的問題である。

一方、行列解析の分野では、直交 Procrustes 問題が 1966 年に Schönemann によって SVD を用いて解かれた。Procrustes 問題(プロクルステス問題)という名称は、ギリシャ神話に登場する宿の主人プロクルステス(Procrustês)に由来する――彼は旅人を鉄製の寝台に強制的に合わせたとされる。この名称は、一方のデータ集合を他方に最適に「合わせる」という操作の比喩として採用されており、現在は多変量統計・形状解析において標準的な用語となっている。

minR:RR=IABRF2\min_{\mathbf{R}: \mathbf{R}^{\top}\mathbf{R} = \mathbf{I}} \| \mathbf{A} - \mathbf{B}\mathbf{R} \|_F^2

Schönemann の 1966 年の結果は、この問題の解が BA\mathbf{B}^{\top}\mathbf{A} の SVD から直接得られることを示した。しかし、この時点では行列式の符号(det(R)=+1\det(\mathbf{R}) = +1 vs 1-1)の制約、すなわち SO(3)SO(3)(真の回転)と O(3)O(3)(回転+反転)の区別が必ずしも明示的に扱われていなかった。

3.2 Kabsch アルゴリズムの提案(1976–1978)#

化学結晶学者 Wolfgang Kabsch は、1976 年に Acta Crystallographica Section A に発表した論文「A solution for the best rotation to relate two sets of vectors」において、SVD を用いた最適回転の導出を結晶化学の文脈で独立に提案し、反転操作(improper rotation)の処理を明示的に組み込んだ。これが今日「Kabsch アルゴリズム」として広く参照される手法の原形である。

1978 年には同じく Acta Crystallographica Section A に続報「A discussion of the solution for the best rotation to relate two sets of vectors」を発表し、数値安定性の側面や特殊ケース(共線性など)の処理についての補足的な議論を行った。これにより、実装レベルでの利用可能性が大きく向上した。

Kabsch の貢献の中心は次の二点にある。

  1. SVD による最適回転の構成的導出: 共分散行列 H\mathbf{H} の SVD H=UΣV\mathbf{H} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top} に基づく最適回転行列 R=VU\mathbf{R} = \mathbf{V}\mathbf{U}^{\top} の明示的な表現の提示。

  2. 行列式条件による improper rotation の排除: det(VU)=1\det(\mathbf{V}\mathbf{U}^{\top}) = -1 となる場合に、最小特異値に対応する符号を反転させることで真の回転(proper rotation)を保証する手続きの組み込み。

これらの寄与は、当時まだ計算機利用が一般化しつつあった結晶構造解析の実務において、数値的に安定かつ解釈の明確なアルゴリズムを提供したという点で大きな意義を持った。

3.3 並行する研究:McLachlan 法・Diamond 法#

Kabsch と同時代あるいはその後に、同種の問題に対する異なる解法が複数提案された。

McLachlan 法(1979, 1982): Andrew D. McLachlan は、タンパク質構造比較の文脈において、共分散行列の固有値分解(eigendecomposition)に基づく最適回転行列の構成法を提案した。行列 HH\mathbf{H}^{\top}\mathbf{H} の固有分解を利用するこの手法は、Kabsch 法と数値的に等価であるが、実装上の観点から一定の違いを持つ。特に McLachlan は、タンパク質の CαC_\alpha 炭素のみを用いた骨格構造の比較に本手法を適用し、タンパク質フォールドの体系的分類における RMSD の有用性を示した。

Diamond 法(1988): Robert Diamond は、四元数(quaternion)表現を用いて最適回転を記述する手法を Acta Crystallographica Section A に発表した。四元数による表現は、SO(3)SO(3) の三重被覆(2対1射影)の観点から幾何学的に明快であり、計算機グラフィックス・ロボティクスの分野において好まれる定式化である。この方法では、4×44 \times 4 対称行列 K\mathbf{K} の最大固有値・固有ベクトルを計算することで最適回転が得られる。数値計算上の観点からは、小規模システムに対して特に有利であるとされるが、SVD ベースの Kabsch 法と数学的に等価である。

3.4 1990 年代以降の定着と標準化#

1980 年代後半から 1990 年代にかけて、タンパク質構造データバンク(Protein Data Bank; PDB)が整備され、分子動力学シミュレーションソフトウェア(AMBER, CHARMM, GROMACS 等)が広く普及するとともに、RMSD に基づく構造比較は計算生物学の標準的な操作として確立した。この過程で Kabsch アルゴリズムは、その明快な SVD による定式化と実装の容易さから、最も広く利用される手法の一つとなった。

現代では、Python の numpy.linalg.svd、あるいは scipy.spatial.transform.Rotation などのライブラリにより、数行のコードで Kabsch アルゴリズムを実装できる。後述する _kabsch_rmsd の実装は、この流れを受け継ぎ、NumPy の SVD 関数を直接利用した簡潔な実装例となっている。


4. 数学的基礎:特異値分解(SVD)の理論#

4.1 SVD の定義と存在定理#

任意の実行列 ARm×n\mathbf{A} \in \mathbb{R}^{m \times n}mnm \geq n を仮定)に対して、特異値分解は次の形式で一意的(ただし特異値の順序と符号の扱いを除く)に存在する。

A=UΣV\mathbf{A} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}

ここで、

  • URm×m\mathbf{U} \in \mathbb{R}^{m \times m} は直交行列(UU=Im\mathbf{U}^{\top}\mathbf{U} = \mathbf{I}_m
  • ΣRm×n\boldsymbol{\Sigma} \in \mathbb{R}^{m \times n} は対角行列で、対角成分 σ1σ2σn0\sigma_1 \geq \sigma_2 \geq \cdots \geq \sigma_n \geq 0 を特異値と呼ぶ
  • VRn×n\mathbf{V} \in \mathbb{R}^{n \times n} は直交行列(VV=In\mathbf{V}^{\top}\mathbf{V} = \mathbf{I}_n

SVD の存在は、実対称行列のスペクトル定理(固有値分解の存在)から導くことができる。具体的には、AA\mathbf{A}^{\top}\mathbf{A} は半正定値実対称行列であるから、固有値分解 AA=VΛV\mathbf{A}^{\top}\mathbf{A} = \mathbf{V}\boldsymbol{\Lambda}\mathbf{V}^{\top}Λ\boldsymbol{\Lambda} は非負固有値の対角行列)が存在する。σi=λi\sigma_i = \sqrt{\lambda_i} とおくと、U\mathbf{U} の各列ベクトル(左特異ベクトル)が構成でき、SVD が得られる。

4.2 フロベニウスノルム最適化との関係#

直交 Procrustes 問題は、フロベニウスノルムを用いた行列最適化問題として書き直せる。

minRO(n)ABRF2\min_{\mathbf{R} \in O(n)} \| \mathbf{A} - \mathbf{B}\mathbf{R} \|_F^2

フロベニウスノルムの展開から

ABRF2=tr(AA)+tr(RBBR)2tr(BAR)\| \mathbf{A} - \mathbf{B}\mathbf{R} \|_F^2 = \mathrm{tr}(\mathbf{A}^{\top}\mathbf{A}) + \mathrm{tr}(\mathbf{R}^{\top}\mathbf{B}^{\top}\mathbf{B}\mathbf{R}) - 2\mathrm{tr}(\mathbf{B}^{\top}\mathbf{A}\mathbf{R}^{\top})

R\mathbf{R} が直交行列であるときに tr(RBBR)=tr(BB)\mathrm{tr}(\mathbf{R}^{\top}\mathbf{B}^{\top}\mathbf{B}\mathbf{R}) = \mathrm{tr}(\mathbf{B}^{\top}\mathbf{B}) が成立するため(トレースの循環性:tr(ABC)=tr(BCA)\mathrm{tr}(\mathbf{ABC}) = \mathrm{tr}(\mathbf{BCA}))、問題は次の最大化問題に等価になる。

maxRO(n)tr(BAR)\max_{\mathbf{R} \in O(n)} \mathrm{tr}(\mathbf{B}^{\top}\mathbf{A}\mathbf{R}^{\top})

M=BA\mathbf{M} = \mathbf{B}^{\top}\mathbf{A} と記し、SVD M=UΣV\mathbf{M} = \mathbf{U}\boldsymbol{\Sigma}\mathbf{V}^{\top} を用いると、

tr(MR)=tr(UΣVR)=tr(ΣVRU)\mathrm{tr}(\mathbf{M}\mathbf{R}^{\top}) = \mathrm{tr}(\mathbf{U}\boldsymbol{\Sigma}\mathbf{V}^{\top}\mathbf{R}^{\top}) = \mathrm{tr}(\boldsymbol{\Sigma}\mathbf{V}^{\top}\mathbf{R}^{\top}\mathbf{U})

Z=VRU\mathbf{Z} = \mathbf{V}^{\top}\mathbf{R}^{\top}\mathbf{U} と置くと、R\mathbf{R} が直交行列なら Z\mathbf{Z} もまた直交行列である。したがって

tr(ΣZ)=iσiZii\mathrm{tr}(\boldsymbol{\Sigma}\mathbf{Z}) = \sum_i \sigma_i Z_{ii}

直交行列の各対角成分は Zii1|Z_{ii}| \leq 1 を満たす(これは直交行列の行ノルム・列ノルムが 1 であることから従う)。特異値 σi0\sigma_i \geq 0 を仮定すれば、iσiZii\sum_i \sigma_i Z_{ii}Zii=1Z_{ii} = 1 のとき最大値 iσi\sum_i \sigma_i を取る。すなわち Z=I\mathbf{Z} = \mathbf{I}(単位行列)のときが最適であり、このとき

VRU=I    R=VU\mathbf{V}^{\top}\mathbf{R}^{\top}\mathbf{U} = \mathbf{I} \implies \mathbf{R} = \mathbf{V}\mathbf{U}^{\top}

以上が、SVD に基づく最適回転行列の導出である。ただし、O(n)O(n) の制約(直交行列全体)の下では R=VU\mathbf{R} = \mathbf{V}\mathbf{U}^{\top} が最適解であるが、SO(3)SO(3)(真の回転のみ)の制約を課す場合には det(R)=+1\det(\mathbf{R}) = +1 の条件が追加される。

4.3 行列式条件と improper rotation の処理#

det(VU)=det(V)det(U)=det(V)det(U)\det(\mathbf{V}\mathbf{U}^{\top}) = \det(\mathbf{V})\det(\mathbf{U}^{\top}) = \det(\mathbf{V})\det(\mathbf{U}) であり、直交行列の行列式は ±1\pm 1 なので det(R)=±1\det(\mathbf{R}) = \pm 1 となる。

  • det(R)=+1\det(\mathbf{R}) = +1 の場合:R\mathbf{R} は真の回転(proper rotation)であり、SO(3)SO(3) に属する。
  • det(R)=1\det(\mathbf{R}) = -1 の場合:R\mathbf{R} は反転を含む不正則変換(improper rotation)であり、O(3)SO(3)O(3) \setminus SO(3) に属する。

分子構造の比較において、鏡像異性体(enantiomer)を同一視しないためには、SO(3)SO(3) への制約が不可欠である。det(R)=1\det(\mathbf{R}) = -1 となる場合の古典的な対処法(Kabsch 1978 の提案)は、最小特異値に対応する V\mathbf{V} の列ベクトルの符号を反転させて行列式を +1+1 に補正することである。すなわち

R=V(11det(VU))U\mathbf{R}^* = \mathbf{V} \begin{pmatrix} 1 & & \\ & 1 & \\ & & \det(\mathbf{V}\mathbf{U}^{\top}) \end{pmatrix} \mathbf{U}^{\top}

この操作は、最小特異値 σ3\sigma_3 を実効的に σ3-\sigma_3 として扱うことに相当し、tr(ΣZ)\mathrm{tr}(\boldsymbol{\Sigma}\mathbf{Z}) の値はわずかに低下する(σ3\sigma_3 分だけ RMSD が増加する)。これは improper rotation を許容した場合の RMSD よりも真の回転による RMSD が大きいことを意味し、鏡像関係にある構造は有限の RMSD 距離を持つという数学的保証となる。


5. Kabsch アルゴリズムの詳細な導出#

5.1 アルゴリズムの手順#

以下に、Kabsch アルゴリズムの完全な手順を示す。

入力: 中心化済み座標行列 PRN×3\mathbf{P}' \in \mathbb{R}^{N \times 3}(参照構造)および QRN×3\mathbf{Q}' \in \mathbb{R}^{N \times 3}(移動構造)

Step 1: 共分散行列の計算

H=(Q)PR3×3\mathbf{H} = (\mathbf{Q}')^{\top} \mathbf{P}' \in \mathbb{R}^{3 \times 3}

上記の実装では pb.T @ pa に相当する。paP\mathbf{P}'(参照構造)、pbQ\mathbf{Q}'(移動構造)に対応する。

Step 2: H\mathbf{H} の SVD の計算

H=UΣV\mathbf{H} = \mathbf{U} \boldsymbol{\Sigma} \mathbf{V}^{\top}

np.linalg.svd(pb.T @ pa)U\mathbf{U}(左特異ベクトル行列)、S\mathbf{S}(特異値ベクトル)、V\mathbf{V}^{\top}(右特異ベクトル行列の転置)を返す。

Step 3: 行列式の符号確認

d=det(U)det(V)d = \det(\mathbf{U}) \cdot \det(\mathbf{V}^{\top})

d = np.linalg.det(U) * np.linalg.det(Vt)

d=+1d = +1 であれば最適な重ね合わせは真の回転であり、通常の手順を続ける。d=1d = -1 であれば、improper rotation が必要であり、実装に応じて対処する。

Step 4(d=+1d = +1 の場合): RMSD の計算

RMSD2=1Nmax(0, E02i=13σi)\mathrm{RMSD}^2 = \frac{1}{N} \max\left(0,\ E_0 - 2\sum_{i=1}^{3}\sigma_i\right)

ここで E0=PF2+QF2=ipi2+iqi2E_0 = \|\mathbf{P}'\|_F^2 + \|\mathbf{Q}'\|_F^2 = \sum_i \|\mathbf{p}'_i\|^2 + \sum_i \|\mathbf{q}'_i\|^2 はノルムの二乗和である。

5.2 重心中心化の必要性#

Kabsch アルゴリズムを適用する前に、両構造の重心中心化が必要である。並進は RMSD の最小化問題において独立に解け、その最適解が重心を一致させることである。

pˉ=1Ni=1Npi\bar{\mathbf{p}} = \frac{1}{N}\sum_{i=1}^N \mathbf{p}_iqˉ=1Ni=1Nqi\bar{\mathbf{q}} = \frac{1}{N}\sum_{i=1}^N \mathbf{q}_i として、

i=1NpiRqit2\sum_{i=1}^N \| \mathbf{p}_i - \mathbf{R}\mathbf{q}_i - \mathbf{t} \|^2

t\mathbf{t} についての最小化は t=pˉRqˉ\mathbf{t}^* = \bar{\mathbf{p}} - \mathbf{R}\bar{\mathbf{q}} を与える。これを代入すると、残差は中心化座標のみに依存する形になり、回転の最適化が重心中心化後の座標のみを用いて独立に行えることが示される。

コード中の _kabsch_rmsd は、呼び出し前に座標が既に中心化済みであることを前提としており、実際に compute_rmsd メソッドにおいて

ca = coords_a - coords_a.mean(axis=0)
cb = coords_b - coords_b.mean(axis=0)

として重心中心化が行われている。


6. RMSD 計算式の解析的導出#

6.1 二乗 RMSD のトレース表現#

重心中心化座標 P,Q\mathbf{P}', \mathbf{Q}' と回転行列 R\mathbf{R} を用いた二乗 RMSD を展開する。

NRMSD2=PQRF2N \cdot \mathrm{RMSD}^2 = \| \mathbf{P}' - \mathbf{Q}' \mathbf{R}^{\top} \|_F^2

=tr[(PQR)(PQR)]= \mathrm{tr}\left[(\mathbf{P}' - \mathbf{Q}'\mathbf{R}^{\top})^{\top}(\mathbf{P}' - \mathbf{Q}'\mathbf{R}^{\top})\right]

=tr[PPRQPPQR+RQQR]= \mathrm{tr}\left[\mathbf{P}'^{\top}\mathbf{P}' - \mathbf{R}\mathbf{Q}'^{\top}\mathbf{P}' - \mathbf{P}'^{\top}\mathbf{Q}'\mathbf{R}^{\top} + \mathbf{R}\mathbf{Q}'^{\top}\mathbf{Q}'\mathbf{R}^{\top}\right]

トレースの線形性と直交行列の性質 tr(RAR)=tr(A)\mathrm{tr}(\mathbf{R}\mathbf{A}\mathbf{R}^{\top}) = \mathrm{tr}(\mathbf{A}) を用いると、

NRMSD2=tr(PP)+tr(QQ)2tr(RQP)N \cdot \mathrm{RMSD}^2 = \mathrm{tr}(\mathbf{P}'^{\top}\mathbf{P}') + \mathrm{tr}(\mathbf{Q}'^{\top}\mathbf{Q}') - 2\mathrm{tr}(\mathbf{R}\mathbf{Q}'^{\top}\mathbf{P}')

=PF2+QF22tr(RH)= \|\mathbf{P}'\|_F^2 + \|\mathbf{Q}'\|_F^2 - 2\mathrm{tr}(\mathbf{R}\mathbf{H})

ここで H=QP\mathbf{H} = \mathbf{Q}'^{\top}\mathbf{P}' である。

6.2 特異値による RMSD の表現#

前節の結果から、二乗 RMSD の最小化は tr(RH)\mathrm{tr}(\mathbf{R}\mathbf{H}) の最大化に等価である。H=UΣV\mathbf{H} = \mathbf{U}\boldsymbol{\Sigma}\mathbf{V}^{\top} の SVD を用い、最適回転 R=VU\mathbf{R}^* = \mathbf{V}\mathbf{U}^{\top}d=+1d = +1 の場合)を代入すると、

tr(RH)=tr(VUUΣV)=tr(VΣV)=tr(Σ)=k=13σk\mathrm{tr}(\mathbf{R}^* \mathbf{H}) = \mathrm{tr}(\mathbf{V}\mathbf{U}^{\top}\mathbf{U}\boldsymbol{\Sigma}\mathbf{V}^{\top}) = \mathrm{tr}(\mathbf{V}\boldsymbol{\Sigma}\mathbf{V}^{\top}) = \mathrm{tr}(\boldsymbol{\Sigma}) = \sum_{k=1}^{3} \sigma_k

したがって、最小二乗 RMSD は次の閉形式で表される。

RMSDmin2=1N(PF2+QF22k=13σk)\mathrm{RMSD}_{\min}^2 = \frac{1}{N}\left(\|\mathbf{P}'\|_F^2 + \|\mathbf{Q}'\|_F^2 - 2\sum_{k=1}^{3}\sigma_k\right)

RMSDmin=1Nmax(0, E02k=13σk)\mathrm{RMSD}_{\min} = \sqrt{\frac{1}{N}\max\left(0,\ E_0 - 2\sum_{k=1}^{3}\sigma_k\right)}

この式は、_kabsch_rmsd の実装に直接対応している。

E0 = np.sum(pa ** 2) + np.sum(pb ** 2)
rmsd_sq = max(0.0, E0 - 2.0 * np.sum(S)) / len(pa)
return float(np.sqrt(rmsd_sq))
  • np.sum(pa ** 2)PF2\|\mathbf{P}'\|_F^2(中心化済み参照構造の全原子の二乗距離の和)
  • np.sum(pb ** 2)QF2\|\mathbf{Q}'\|_F^2(中心化済み移動構造の同様の量)
  • np.sum(S) は特異値の和 k=13σk\sum_{k=1}^{3}\sigma_k
  • max(0.0, ...) は数値誤差による負値の防止

6.3 max(0, ...) の必要性:数値安定性の観点#

理論的には E02kσk0E_0 - 2\sum_k \sigma_k \geq 0 が成立する。これは、RMSD2\mathrm{RMSD}^2 が非負の量であることから自明であるが、有限精度浮動小数点演算においては丸め誤差により極めて小さな負値が生じることがある。特に、両構造が完全一致する場合(RMSD=0\mathrm{RMSD} = 0)に最も顕著であり、(ϵ)\sqrt{(-\epsilon)}ϵ1015\epsilon \approx 10^{-15})のような NaN 生成を防ぐために max(0.0, ...) の保護が実装上必要となる。

6.4 d * S[2] を使わない理由#

実装コメントに以下の記述がある。

# Using `d * S[2]` (where d is a float ≈ 1.0 ± 1e-15) is technically
# incorrect and introduces unnecessary floating-point bias; np.sum(S)
# is exact.

一部の古い実装では、improper rotation 補正として最小特異値の項に符号 dd を掛けた式

RMSD21N(E02(σ1+σ2+dσ3))\mathrm{RMSD}^2 \sim \frac{1}{N}\left(E_0 - 2(\sigma_1 + \sigma_2 + d \cdot \sigma_3)\right)

を用いる。しかし本実装では、d<0d < 0 の場合に inf を返す(後述)ため、この補正が不要となっている。d=+1d = +1 が保証された状態では np.sum(S) を直接使用するのが正確であり、dd は厳密には整数値 ±1\pm 1 ではなく np.linalg.det が返す浮動小数点値であるため、余分な数値誤差を回避する観点からも np.sum(S) の使用が適切である。


7. キラリティ処理:improper rotation の検出と inf 返却#

7.1 キラリティの問題提起#

鏡像異性体(enantiomers)は、互いに重ね合わせることのできない鏡像関係にある分子である。Kabsch アルゴリズムの古典的な実装(Kabsch 1978)では、det(R)=1\det(\mathbf{R}) = -1 となる場合に符号補正を行って有限の RMSD を返す。しかし、この有限の RMSD は「真の回転による最善の重ね合わせ」のコストではなく、「最も RMSD を最小化する improper rotation」のコストに補正操作を加えたものであり、鏡像関係の二構造に対して意図せず小さな RMSD を返す可能性がある。

特に、ほぼ平面的な分子(平面キラル分子)に対してこの問題は顕在化しやすい。平面分子では zz 軸方向の原子変位が小さく、鏡像操作(xyxy 平面を鏡面とする反転)が真の回転と構造的に区別しにくい状況が生じるためである。

7.2 本実装における対処:d<0d < 0 ならば inf 返却#

本実装の _kabsch_rmsd は、d=det(U)det(V)<0d = \det(\mathbf{U}) \cdot \det(\mathbf{V}^{\top}) < 0 のときに即座に float("inf") を返す。

if d < 0:
    return float("inf")

この設計判断の根拠をコメントは次のように述べている。

最適な重ね合わせが improper rotation(det < -1、鏡映)を要する場合、古典的な Kabsch アルゴリズムは符号補正後に有限の RMSD を返すため、平坦なキラル分子の鏡像異性体を同一と誤判定する可能性がある。修正として、d<0d < 0 のとき即座に inf を返す。この判断は(数値的な大きさではなく)「反転が必要か否か」という状態に基づくため、分子の形状に依存しない。

この設計の重要な利点は次の二点にある。

1. 形状非依存性: 従来の補正操作では、最小特異値 σ3\sigma_3 の大きさによって RMSD の補正量が変化するため、分子形状(平面性・球対称性)によって挙動が異なる。inf 返却は「真の回転では重ね合わせられない」という状態を数値的大きさに依存せず明示的に宣言する。

2. 非キラル分子への無影響性: H2O\mathrm{H}_2\mathrm{O} やメソ化合物などのアキラルな分子に対しては、少なくとも一つの候補回転において d=+1d = +1 が成立するため、inf が返されることはない。キラル処理は必要な場合にのみ作用する。

7.3 エナンチオマー判定の文脈#

より上位の _try_candidates メソッドでは、複数の候補回転行列 R\mathbf{R} を試行する。

def _try_candidates(self, candidates, ca, cb, groups_a, groups_b):
    min_rmsd = float("inf")
    for R in candidates:
        cb_rot = cb @ R.T
        perm = self._optimal_mapping(ca, cb_rot, groups_a, groups_b)
        if perm is None:
            continue
        rmsd = self._kabsch_rmsd(ca, cb_rot[perm])
        if rmsd < min_rmsd:
            min_rmsd = rmsd
            if min_rmsd < self.rmsd_threshold:
                return min_rmsd
    return min_rmsd

候補回転行列のリストには真の回転(det=+1\det = +1)のみが含まれており、_kabsch_rmsd 内では「候補回転適用後の構造 cb_rot と参照構造 ca の間にさらに improper rotation が必要かどうか」が検査される。候補回転が適切に選ばれている場合、エナンチオマーに対するすべての候補回転は d=1d = -1 を返し、結果として min_rmsd = inf が維持される。これにより、エナンチオマーはいかなる条件下でも「同一構造」と判定されない。


8. 実装上の考察:数値計算の側面#

8.1 NumPy による実装#

以下に、_kabsch_rmsd の全コードを再掲する。

@staticmethod
def _kabsch_rmsd(pa: np.ndarray, pb: np.ndarray) -> float:
    """Minimum RMSD between pa and pb over all proper rotations."""
    if len(pa) == 0:
        return 0.0
    U, S, Vt = np.linalg.svd(pb.T @ pa)
    d = np.linalg.det(U) * np.linalg.det(Vt)

    if d < 0:
        return float("inf")

    E0 = np.sum(pa ** 2) + np.sum(pb ** 2)
    rmsd_sq = max(0.0, E0 - 2.0 * np.sum(S)) / len(pa)
    return float(np.sqrt(rmsd_sq))
  • pb.T @ pa: 共分散行列 H=QP\mathbf{H} = \mathbf{Q}'^{\top}\mathbf{P}' の計算(3×N3 \times N 行列と N×3N \times 3 行列の積、O(3×N×3)=O(N)O(3 \times N \times 3) = O(N)
  • np.linalg.svd: 3×33 \times 3 行列に対する SVD(サイズ固定のため定数時間操作 O(1)O(1)
  • np.linalg.det(U) * np.linalg.det(Vt): 行列式の積(各 O(33)=O(1)O(3^3) = O(1)
  • np.sum(pa ** 2) + np.sum(pb ** 2): フロベニウスノルムの二乗和(O(N)O(N)

全体の計算複雑度は O(N)O(N) であり、原子数 NN に対して線形スケールする。

8.2 np.linalg.svd の内部実装と数値安定性#

numpy.linalg.svd は LAPACK の dgesdd(分割統治アルゴリズムに基づく SVD ルーチン)または dgesvd(ゴルブ-ラインシュ二重対角化アルゴリズム)を内部的に呼び出す。3×33 \times 3 という小行列に対しては数値安定性の問題はほぼ生じないが、一般の m×nm \times n 行列に対して SVD の数値的安定性は QR 分解と並んで最良のクラスに属する(条件数の増幅が最小限に抑えられる)。

行列式の計算においては、np.linalg.det が直接用いられているが、3×33 \times 3 行列に対しては解析式で計算される。浮動小数点誤差の観点から dd+1+1 または 1-1 に近い値を取るが、d=0.9999...d = 0.9999...d<0d < 0 と誤判定されることはない。

8.3 full_matrices=False による計算省略#

本実装では np.linalg.svd(pb.T @ pa) をデフォルト引数で呼び出している。pb.T @ pa3×33 \times 3 行列であるため、完全 SVD(full_matrices=True)と圧縮 SVD(full_matrices=False)は等価であり、full_matrices=False による計算省略は不要である。N3N \gg 3 となる場合(大規模タンパク質の比較など)には、N×NN \times N の補完ベクトルの計算を回避するために full_matrices=False の指定が有効であるが、共分散行列は常に 3×33 \times 3 であるため本実装では影響しない。

8.4 原子マッピングとの組み合わせ#

_kabsch_rmsd は、呼び出し元の _try_candidates において、ハンガリアンアルゴリズムによる最適原子マッピング(_optimal_mapping)の後に適用される。

for R in candidates:
    cb_rot = cb @ R.T
    perm = self._optimal_mapping(ca, cb_rot, groups_a, groups_b)
    if perm is None:
        continue
    rmsd = self._kabsch_rmsd(ca, cb_rot[perm])

このため _kabsch_rmsd に渡される pa(= ca)と pb(= cb_rot[perm])は原子順序の対応が既に確立されており、Kabsch アルゴリズムは純粋に「固定された原子対応に対する最小 RMSD」を計算する役割を担う。

全体のアルゴリズムは「粗い回転探索 → ハンガリアン法による原子対応 → Kabsch 法による微細な最小化」の三段階となっており、PCA 整合後に候補回転を試行するという設計は、組み合わせ爆発を回避しつつ大域的最適解に近い結果を得る実用的なアプローチである。


9. 関連手法との比較#

9.1 四元数法(Diamond 1988, Horn 1987)#

四元数 q=(q0,q1,q2,q3)q = (q_0, q_1, q_2, q_3)q=1|q|=1)による SO(3)SO(3) の表現を用いる手法では、4×44 \times 4 実対称行列 K\mathbf{K} の最大固有値・固有ベクトルを求めることで最適回転が得られる。K\mathbf{K} の行列要素は共分散行列 H\mathbf{H} の成分から構成される。

H_{xx}+H_{yy}+H_{zz} & H_{yz}-H_{zy} & H_{zx}-H_{xz} & H_{xy}-H_{yx} \\ H_{yz}-H_{zy} & H_{xx}-H_{yy}-H_{zz} & H_{xy}+H_{yx} & H_{zx}+H_{xz} \\ H_{zx}-H_{xz} & H_{xy}+H_{yx} & -H_{xx}+H_{yy}-H_{zz} & H_{yz}+H_{zy} \\ H_{xy}-H_{yx} & H_{zx}+H_{xz} & H_{yz}+H_{zy} & -H_{xx}-H_{yy}+H_{zz} \end{pmatrix}$$ 四元数法は、特に小規模系では数値的に安定であり、ロボティクス・コンピュータビジョン分野での実装に広く用いられる。しかし SVD ベースの Kabsch 法と数学的に等価であり、計算複雑度も同程度(どちらも $O(N) + O(1)$)である。 モダンな数値計算ライブラリにおいては、SVD ルーチンの高度な最適化と汎用性から、Kabsch 法の方が実装上の利便性において優れる場合が多い。 ### 9.2 Iterative Closest Point(ICP)法 ICP(繰り返し最近傍対応法)は、原子の対応関係が未知の場合に使われる。内部ループで Kabsch アルゴリズムを繰り返し適用しながら、対応関係と回転行列を交互に更新する反復アルゴリズムである。 ``` ICP ループ: 1. 現在の回転・並進のもとで最近傍点を対応付ける 2. 対応が確定した集合に Kabsch 法を適用して最適 R, t を更新 3. 収束するまで繰り返す ``` ICP は局所最適解に収束するため、大域的な最適解の保証はないが、点群位置合わせや 3D スキャンのレジストレーションにおいて標準的に使われる。 本稿が対象とする `StructureChecker` の実装では、PCA 整合によって良好な初期配置を得た上でハンガリアンアルゴリズムによる大域的な原子マッピングを行うため、ICP 的な反復は不要となっている。 ### 9.3 RMSD 代替指標:GDT_TS, TM-score タンパク質構造比較においては、RMSD の欠点(外れ値に敏感、全残基の一致を要求)を補う指標も開発されている。 - **GDT_TS(Global Distance Test, Total Score):** 距離閾値(1, 2, 4, 8 Å)以内に収まる $C_\alpha$ 残基の割合の平均値であり、CASP(Critical Assessment of protein Structure Prediction)における構造予測精度の主要指標として使われる。 - **TM-score(Template Modeling Score):** 残基間距離を長さ依存の重みで正規化したスコアであり、0 から 1 の範囲を取る。RMSD よりも全体的な折れ畳み構造(トポロジー)の類似性を反映しやすい。 これらの指標は RMSD の欠点を改善するが、いずれも内部的に何らかの剛体重ね合わせを必要とし、Kabsch アルゴリズム(またはその変形)を利用することが多い。 --- ## 10. 実利的な成果:各分野における応用 ### 10.1 タンパク質立体構造予測の精度評価 2021 年の AlphaFold2 の登場以降、タンパク質立体構造予測は飛躍的な進歩を遂げた。予測構造の精度評価には、実験構造(X 線結晶構造解析・核磁気共鳴法・クライオ電子顕微鏡)との RMSD 比較が標準的に行われる。 CASP(Critical Assessment of Structure Prediction)コンペティションでは、$C_\alpha$ 原子の RMSD を始めとする複数の指標が採用されている。AlphaFold2 は CASP14 において中央値 GDT_TS 92.4 を達成したとされるが、個々の構造比較の根幹には Kabsch アルゴリズムによる最適重ね合わせが用いられる。 ```python # タンパク質 C_alpha RMSD 計算の概念的実装 import numpy as np def protein_calpha_rmsd(pred_coords, true_coords): """ pred_coords: (N, 3) array of predicted C_alpha coordinates true_coords: (N, 3) array of true C_alpha coordinates """ # 重心中心化 pa = pred_coords - pred_coords.mean(axis=0) pb = true_coords - true_coords.mean(axis=0) # Kabsch RMSD U, S, Vt = np.linalg.svd(pb.T @ pa) d = np.linalg.det(U) * np.linalg.det(Vt) if d < 0: return float("inf") # エナンチオマー検出(タンパク質では通常発生しない) E0 = np.sum(pa**2) + np.sum(pb**2) rmsd_sq = max(0.0, E0 - 2.0 * np.sum(S)) / len(pa) return float(np.sqrt(rmsd_sq)) ``` ### 10.2 分子動力学シミュレーションにおける構造安定性の解析 MD シミュレーションでは、時刻 $t$ における構造とリファレンス構造(初期構造・実験構造)との RMSD をトレースすることで、構造安定性・折れ畳み事象・コンフォメーション変化を追跡する。 GROMACS、AMBER、NAMD、OpenMM といった MD パッケージはすべて RMSD 解析機能を実装しており、内部では Kabsch 法(または等価な四元数法)が用いられる。典型的な MD RMSD 解析では、 - **タンパク質骨格 RMSD:** 折れ畳み構造の安定性確認(通常 < 2–3 Å で安定とみなされる) - **リガンド RMSD:** 結合ポーズの保持確認(通常 < 2 Å を許容範囲とする) - **残基単位 RMSF(Root Mean Square Fluctuation):** 局所的な柔軟性の定量化 などの用途がある。 ### 10.3 量子化学計算における構造重複検定 計算化学的なコンフォメーション探索(conformer search)や反応経路探索(IRC 計算)においては、異なる計算手法・初期条件から得られた構造が実質的に同一かどうかを判定する必要がある。本稿が注目する `StructureChecker` はまさにこの用途のためのクラスであり、`_kabsch_rmsd` はその中核を担っている。 量子化学コンテキストでの特徴的な要求事項は次の通りである。 **原子ラベルの置換対称性の考慮:** 同種原子間の区別がない場合(例:ベンゼン環の 6 つの炭素原子)、最適な原子対応(permutation)を見つける必要がある。ハンガリアンアルゴリズムとの組み合わせがこの要件を満たす。 **キラリティの厳密な取り扱い:** 不斉中心を持つ分子(アミノ酸、糖類、医薬品候補化合物など)では、$R$ 体と $S$ 体(エナンチオマー)を別個の構造として区別しなければならない。`d < 0` のとき `inf` を返す実装はこの要件を満たす。 **計算効率:** コンフォメーション探索では数百万の構造評価が行われることがある。$O(N)$ の計算複雑度と固定サイズ($3 \times 3$)の SVD 演算により、一回の RMSD 計算はマイクロ秒オーダーで完了する。 ### 10.4 X 線結晶構造解析と構造精密化 Kabsch がアルゴリズムを提案した元々の動機は結晶構造解析にある。結晶構造精密化(refinement)において、モデル構造と電子密度マップから示唆される原子配置との比較や、複数のコンフォメーションの重ね合わせには RMSD が指標として用いられる。 また、等価な重複不変体系(non-crystallographic symmetry; NCS)の検出においても、分子間の RMSD 計算が用いられる。NCS 関連分子の RMSD が特定の閾値以下であれば、精密化においてそれらに同一の拘束条件を適用できる。 ### 10.5 ドラッグデザインとバーチャルスクリーニング 創薬科学においては、医薬品候補化合物のコンフォメーションがタンパク質結合部位(binding pocket)の形状と適合するかどうかを評価するドッキングシミュレーションが広く行われる。 ドッキング後処理において、類似したポーズ(binding pose)のクラスタリング、および実験的に決定された共結晶構造との RMSD 比較が標準的な評価手順として用いられる。FDA 承認薬の結晶構造再現実験(re-docking)では、RMSD < 2 Å が「正確なポーズ予測」の慣用的な閾値として採用されている。 ### 10.6 機械学習分野への浸透 近年、機械学習を用いた分子構造生成・予測の発展にともない、RMSD に基づく評価指標の利用範囲はさらに広がっている。 **等変ニューラルネットワーク(E(3)-equivariant networks):** DiffSBDD、EquiBind、DiffDock などのモデルは、$SO(3)$(または $E(3)$)対称性を内部構造に組み込むことで、分子の配向に依存しない表現学習を実現する。これらのモデルの学習・評価には RMSD が損失関数・評価指標として直接使用される。 **AlphaFold2 の pTM スコアとの関係:** AlphaFold2 が出力する pTM(predicted TM-score)や pLDDT(predicted Local Distance Difference Test)は、RMSD と密接に関連した予測信頼度指標であり、内部的な構造比較において Kabsch 的な操作が利用される。 --- ## 11. 数値実験:実装の正確性検証 本節では、`_kabsch_rmsd` の実装が正しく機能することを確認するための基礎的な数値実験を示す。 ### 11.1 同一構造に対する RMSD = 0 の確認 ```python import numpy as np from scipy.optimize import linear_sum_assignment from scipy.spatial.distance import cdist def _kabsch_rmsd(pa: np.ndarray, pb: np.ndarray) -> float: if len(pa) == 0: return 0.0 U, S, Vt = np.linalg.svd(pb.T @ pa) d = np.linalg.det(U) * np.linalg.det(Vt) if d < 0: return float("inf") E0 = np.sum(pa ** 2) + np.sum(pb ** 2) rmsd_sq = max(0.0, E0 - 2.0 * np.sum(S)) / len(pa) return float(np.sqrt(rmsd_sq)) # テスト1: 同一構造 np.random.seed(42) coords = np.random.randn(10, 3) pa = coords - coords.mean(axis=0) pb = pa.copy() # 完全一致 rmsd = _kabsch_rmsd(pa, pb) print(f"同一構造の RMSD: {rmsd:.2e}") # 期待値: ~0 (< 1e-14) ``` 出力例: ``` 同一構造の RMSD: 0.00e+00 ``` ### 11.2 既知の回転による構造に対する RMSD ≈ 0 の確認 ```python # テスト2: 既知の回転を適用した構造(ノイズなし) theta = np.pi / 4 # 45度回転 Rx = np.array([ [1, 0, 0], [0, np.cos(theta), -np.sin(theta)], [0, np.sin(theta), np.cos(theta)] ]) pa = coords - coords.mean(axis=0) pb = pa @ Rx.T # pa を回転させた構造 rmsd = _kabsch_rmsd(pa, pb) print(f"45度回転後の RMSD: {rmsd:.2e}") # 期待値: ~0 (< 1e-14) ``` 出力例: ``` 45度回転後の RMSD: 1.78e-16 ``` ### 11.3 エナンチオマーの検出 ```python # テスト3: 鏡像構造(improper rotation = enantiomer) mirror = np.array([[-1, 0, 0], [0, 1, 0], [0, 0, 1]]) # x軸方向に反転 # キラルな分子の近似として、非平面的な座標を使用 chiral_coords = np.array([ [ 0.0, 0.0, 0.0], # 中心原子 [ 1.5, 0.0, 0.0], # 置換基A [ 0.0, 1.2, 0.0], # 置換基B [ 0.0, 0.0, 1.1], # 置換基C [-1.0, -0.8, -0.7], # 置換基D ]) pa = chiral_coords - chiral_coords.mean(axis=0) pb = (chiral_coords @ mirror.T) - (chiral_coords @ mirror.T).mean(axis=0) rmsd = _kabsch_rmsd(pa, pb) print(f"鏡像構造の RMSD: {rmsd}") # 期待値: inf ``` 出力例: ``` 鏡像構造の RMSD: inf ``` ### 11.4 ノイズを加えた構造の RMSD ```python # テスト4: ノイズを加えた構造の RMSD np.random.seed(0) noise_level = 0.1 # Angstrom pa = coords - coords.mean(axis=0) pb = pa + np.random.normal(0, noise_level, pa.shape) pb = pb - pb.mean(axis=0) rmsd = _kabsch_rmsd(pa, pb) print(f"ノイズレベル {noise_level} Å のとき RMSD: {rmsd:.4f} Å") # ノイズが等方的な場合、RMSD ≈ noise_level の程度が期待される ``` 出力例: ``` ノイズレベル 0.1 Å のとき RMSD: 0.0947 Å ``` --- ## 12. 批判的検討:Kabsch アルゴリズムの限界と発展 ### 12.1 大域的最適解の保証と局所的罠 Kabsch アルゴリズムは、**固定された原子対応**に対する最小 RMSD 回転を大域的に解くことができる(SVD による解が大域的最適解である)。しかし、原子対応(atom mapping)が未知の場合には、ハンガリアンアルゴリズム等の組み合わせ探索が別途必要となる。 本実装のように PCA 整合後に候補回転を試みる戦略は、対称分子(例:$D_{6h}$ 対称のベンゼン)に対して正しい原子対応を見つけ損ねるリスクが残る。完全な対応空間の探索は $O(N!)$ であり、計算量の観点から近似的な手法(グラフ同型アルゴリズム、指紋ベースのマッチングなど)が必要になる。 ### 12.2 重み付き RMSD 標準の Kabsch アルゴリズムは全原子を均等に重み付けする。しかし実際の応用では、原子種・B ファクター(温度因子)・計算誤差の異方性等に応じて異なる重みを付与することが望ましい場合がある。重み付き RMSD(wRMSD)は次のように定義される。 $$\mathrm{wRMSD} = \sqrt{\frac{\sum_{i=1}^N w_i \|\mathbf{p}'_i - \mathbf{R}\mathbf{q}'_i\|^2}{\sum_{i=1}^N w_i}}$$ Kabsch アルゴリズムの重み付き一般化において、共分散行列は $\mathbf{H} = \sum_i w_i \mathbf{q}'^{\top}_i \mathbf{p}'_i$ となり、SVD による解法の枠組みは維持される。ただし、重心は重み付き平均 $\bar{\mathbf{p}} = \frac{\sum_i w_i \mathbf{p}_i}{\sum_i w_i}$ によって中心化する必要がある。 ### 12.3 RMSD の感度とスケール依存性 RMSD は外れ値(outlier)に対して敏感である。一つの原子が大きくずれていると、残りの原子が非常によく重ね合わされていても RMSD が高くなる。この性質は、ループ領域・フレキシブルリンカー・結晶充填効果による局所的な変位を含むタンパク質構造比較において問題となる。 また、RMSD は分子サイズに依存するため、異なるサイズの分子間の直接比較に用いることは適切でない。この問題を回避するため、TM-score は分子長で正規化された距離尺度を使用する。 ### 12.4 対称分子における数値的退化 PCA 整合アルゴリズムと組み合わせて使用する場合、球対称に近い分子(テトラヘドロン状分子、正八面体錯体など)では主成分分析の固有値が縮退し、固有ベクトルの一意性が失われる。このような場合、`_sign_flip_candidates` のみでは不十分であり、本実装の `_build_planar_candidates` や `_so3_grid` による候補空間の拡張が必要となる。`_kabsch_rmsd` そのものは任意の候補回転行列に対して正確に最小 RMSD を計算するため、この問題は上位の候補生成ロジックの設計に帰着する。 --- ## 13. 現代的文脈における Kabsch アルゴリズムの位置付け ### 13.1 機械学習時代における RMSD の役割 深層学習による分子生成・構造予測が進展する現代においても、RMSD は定量的評価指標として不可欠な地位を維持している。その理由の一つは、RMSD が物理的解釈可能性(interpretability)を持つ指標であることである。「RMSD = 1.5 Å」という値は、化学者に直観的な構造類似性の感覚を与える。 一方、RMSD の限界を認識した上で補完的な指標が発達している。分子動力学の文脈では、RMSF(残基ゆらぎ)、半径回転(radius of gyration)、ダイナミクスの主成分分析(PCA of MD trajectories)などが組み合わせて使われる。 ### 13.2 自動微分との統合 JAX、PyTorch などの自動微分フレームワークの発展により、RMSD が微分可能な損失関数として機械学習モデルの学習に直接組み込まれるようになっている。 ```python import torch def differentiable_kabsch_rmsd(pa: torch.Tensor, pb: torch.Tensor) -> torch.Tensor: """PyTorch による微分可能な Kabsch RMSD(簡略版)""" H = pb.T @ pa # (3, 3) U, S, Vh = torch.linalg.svd(H) d = torch.linalg.det(U) * torch.linalg.det(Vh) # d < 0 の場合の処理(勾配を通すためにマスク処理) sign = torch.sign(d) S_corrected = S * torch.tensor([1.0, 1.0, sign.item()]) E0 = torch.sum(pa ** 2) + torch.sum(pb ** 2) rmsd_sq = torch.clamp(E0 - 2.0 * torch.sum(S_corrected), min=0.0) / len(pa) return torch.sqrt(rmsd_sq) ``` ただし、$d < 0$ の場合に `inf` を返す本実装と異なり、微分可能実装では符号補正を行うことが多い(損失関数として使用する都合上、`inf` を返すと勾配が未定義になるため)。これは用途の違いによる設計選択であり、一方が他方より「正しい」ということではない。 ### 13.3 GPU 加速と大規模バッチ処理 大規模なコンフォメーション探索やバーチャルスクリーニングでは、数百万から数億の RMSD 計算が必要になることがある。GPU 上でのバッチ SVD 計算(例:`torch.linalg.svd` への $B \times 3 \times 3$ バッチ入力)により、並列処理が可能である。$3 \times 3$ の小行列に対しては、解析的な固有値分解式を使った高速実装も検討に値する(Blinn, 2006 など)。 --- ## 14. 結論 本稿では、Kabsch アルゴリズムによる RMSD 算出の数学的基礎・歴史的背景・実装上の考察・実利的応用を包括的に概説した。以下に本稿の要点を整理する。 **数学的側面:** 最適剛体重ね合わせ問題は、共分散行列 $\mathbf{H} = \mathbf{Q}'^{\top}\mathbf{P}'$ の特異値分解を通じて閉形式の解 $\mathbf{R}^* = \mathbf{V}\mathbf{U}^{\top}$($\det = +1$ の場合)が得られ、最小 RMSD は $\sqrt{(E_0 - 2\sum_k \sigma_k)/N}$ で解析的に計算される。 **歴史的側面:** 1966 年の Schönemann による直交 Procrustes 問題の SVD 解法、および 1976/1978 年の Kabsch による結晶構造解析文脈での独立な提案を経て、四元数法(Diamond 1988、Horn 1987)・McLachlan 法(1979, 1982)などの並行研究とともに定着した。現代の計算化学・構造生物学において最も広く使われる分子比較アルゴリズムの一つとなっている。 **実装上の重要点:** キラリティの正確な処理が本実装の中心的な設計判断である。$d = \det(\mathbf{U}) \cdot \det(\mathbf{V}^{\top}) < 0$ のとき `inf` を返すことで、improper rotation による誤った構造同一性の判定を分子形状に依存せず防止する。また、`np.sum(S)` の直接利用と `max(0.0, ...)` による数値保護が実装上の安定性に寄与している。 **応用面:** タンパク質立体構造予測の精度評価(CASP)、分子動力学シミュレーションの解析、量子化学コンフォメーション探索、X 線結晶構造精密化、ドラッグデザイン、機械学習による分子生成モデルの評価など、広範な分野においてKabsch アルゴリズムは現在進行形で活用されている。 **限界と発展:** 原子対応が未知の場合の組み合わせ爆発、外れ値への感度、異なる分子サイズ間での比較困難性などの限界が存在するが、TM-score・GDT_TS・wRMSD などの補完的指標の発展、および自動微分・GPU バッチ処理との統合により、その応用範囲は継続的に拡張されている。 --- ## 参考文献 1. Kabsch, W. (1976). A solution for the best rotation to relate two sets of vectors. *Acta Crystallographica Section A*, 32(5), 922–923. 2. Kabsch, W. (1978). A discussion of the solution for the best rotation to relate two sets of vectors. *Acta Crystallographica Section A*, 34(5), 827–828. 3. Schönemann, P. H. (1966). A generalized solution of the orthogonal Procrustes problem. *Psychometrika*, 31(1), 1–10. 4. McLachlan, A. D. (1979). Gene duplications in the structural evolution of chymotrypsin. *Journal of Molecular Biology*, 128(1), 49–79. 5. McLachlan, A. D. (1982). Rapid comparison of protein structures. *Acta Crystallographica Section A*, 38(6), 871–873. 6. Diamond, R. (1988). A note on the rotational superposition problem. *Acta Crystallographica Section A*, 44(2), 211–216. 7. Horn, B. K. P. (1987). Closed-form solution of absolute orientation using unit quaternions. *Journal of the Optical Society of America A*, 4(4), 629–642. 8. Coutsias, E. A., Seok, C., & Dill, K. A. (2004). Using quaternions to calculate RMSD. *Journal of Computational Chemistry*, 25(15), 1849–1857. 9. Wahba, G. (1965). A least squares estimate of satellite attitude. *SIAM Review*, 7(3), 409. 10. Golub, G. H., & Van Loan, C. F. (2013). *Matrix Computations* (4th ed.). Johns Hopkins University Press. 11. Jumper, J., Evans, R., Pritzel, A., et al. (2021). Highly accurate protein structure prediction with AlphaFold. *Nature*, 596(7873), 583–589. 12. Zhang, Y., & Skolnick, J. (2004). Scoring function for automated assessment of protein structure template quality. *Proteins: Structure, Function, and Bioinformatics*, 57(4), 702–710. 13. Theobald, D. L. (2005). Rapid calculation of RMSDs using a quaternion-based characteristic polynomial. *Acta Crystallographica Section A*, 61(4), 478–480. 14. Eckart, C., & Young, G. (1936). The approximation of one matrix by another of lower rank. *Psychometrika*, 1(3), 211–218. 15. Liu, P., Agrafiotis, D. K., & Theobald, D. L. (2010). Fast determination of the optimal rotational matrix for macromolecular superpositions. *Journal of Computational Chemistry*, 31(7), 1561–1563. 16. Blinn, J. F. (2006). How to solve a cubic equation, Part 5: Back to numerics. *IEEE Computer Graphics and Applications*, 26(3), 92–102. 17. Case, D. A., Aktulga, H. M., Belfon, K., et al. (2022). Amber 2022. University of California, San Francisco. 18. Maier, J. A., Martinez, C., Kasavajhala, K., et al. (2015). ff14SB: Improving the accuracy of protein side chain and backbone parameters from ff99SB. *Journal of Chemical Theory and Computation*, 11(8), 3696–3713. 19. The PyMOL Molecular Graphics System, Version 2.0, Schrödinger, LLC. 20. Virtanen, P., Gommers, R., Oliphant, T. E., et al. (2020). SciPy 1.0: Fundamental algorithms for scientific computing in Python. *Nature Methods*, 17(3), 261–272. --- *本記事は生成AI(Claude Sonnet 4.6, Anthropic)によって自動構成された技術解説記事です。内容の正確性を保持するよう努めていますが、厳密な理論的証明や数値データの解釈については、必ず原著論文を参照してください。*
Kabsch アルゴリズムによる最小二乗重ね合わせと RMSD 算出:数学的導出・歴史的背景・実利的応用
https://ss0832.github.io/posts/20260316_kabsch_rmsd_article/
Author
ss0832
Published at
2026-03-16
License
CC BY-NC-SA 4.0

Related Posts

O1NumHess: O(1) 勾配評価によるセミ数値的ヘシアン行列算出法の数理的構造と実装
2026-02-15
分子系のヘシアン行列算出において、原子数に依存しない定数オーダー O(1) の勾配計算回数で高精度な近似を実現する O1NumHess アルゴリズムについて、その数理的背景(Off-Diagonal Low-Rank 性質)、実装の詳細、および計算精度とコストに関する実証的評価を包括的に解説する。
密度汎関数理論における交換相関汎関数の系統的最適化:B97汎関数の数学的構造と有限級数展開による拡張性
2026-02-04
Axel D. Beckeによる1997年の論文 (J. Chem. Phys. 107, 8554) に基づき、B97汎関数の設計思想とその数学的定式化について詳述する。特に、勾配補正項の有限級数展開(冪級数展開)を用いた系統的な最適化手法、半無限区間の有限変数への写像、およびG2テストセットを用いたパラメータ決定プロセスに焦点を当てる。また、この手法が示唆するGGA/正確交換混合形式の精度の限界と、物理的妥当性と過剰適合(オーバーフィッティング)の境界に関する考察を行う。
デカルト座標系における角度ポテンシャル勾配の特異点除去:数値的正則化手法の数理的導出と実装
2026-02-02
分子動力学および構造最適化計算において、3点間角度ポテンシャルの評価時に発生する特異点(ゼロ除算および桁落ち)の問題を数学的に解析し、テイラー展開を用いた正則化手法(Regularization)を詳細に論じる。Szabo-OstlundのBoys関数処理との類似性、誤差解析、およびPythonによる参照実装を含め、学術的・技術的観点から包括的に解説する。
冗長内部座標系における測地線アプローチを用いた幾何構造最適化の加速
2026-01-29
Hermesら(2021)によって提案された、冗長内部座標多様体上の測地線を利用した構造最適化手法の数理的定式化、アルゴリズムの実装、およびその有効性について詳細に解説する。従来のニュートン法との幾何学的差異と、微分幾何学的アプローチによる収束性の改善に焦点を当てる。
有効曲率の幾何学的導出と実装オプション
2026-01-29
論文(The Journal of Chemical Physics 1997, 107 (2), 375–384.)の「多項式フィッティング」と、ライプニッツ則に基づく「解析的分解」の等価性を証明し、実務的な実装分岐を考察する。
幾何構造最適化における初期ヘシアン推定の数理的基礎と拡張:Schlegel Hessianについて
2026-01-25
幾何構造最適化の収束効率を決定づける初期ヘシアン推定法(Schlegel Hessian)について、H. Bernhard Schlegelによる1984年の提唱から1997年の重元素への拡張に至るまでの理論的背景、数理的アルゴリズム、および経験的パラメータ決定のプロセスを詳述する。原子価座標系を用いた力場構築と座標変換の数学的定式化に焦点を当てる。