はじめに (Introduction)
Judea Pearlによる統計的因果推論の枠組みでは、介入を表す do 演算子 $do(X=x)$ が中心的な役割を果たす。$do(X=x)$ は因果モデルにおいて変数 $X$ を外部から値 $x$ に固定し、通常 $X$ に影響を与える要因(親ノード)との結合を断ち切る演算として定義される ()。例えば図1左の因果グラフでは、$A$ が $B$ の親であり $B$ が $C$ に影響しているが、$do(B=b_0)$ によって $A \to B$ の矢印が削除され、$B$ は親を持たない外生変数として値 $b_0$ に固定される(図1右)。この do 演算 により得られる介入後モデルでは、もはや $B$ は $A$ に依存せず、$A$ と $B$ の独立性が生じる。

図1: do演算による因果構造の変化。 左: 介入前の因果グラフ($A$ が $B$ と $C$ に影響を与え、$B$ が $C$ に影響)。右: $do(B)$ によって矢印 $A \to B$ が削除され、$B$ は外生的に固定された。
本論文では、この $do$ 演算を観測者の持つ意味空間から因果構造への射影と見做す圏論的モデルを提案する。観測者(データ分析者や知能)が世界を解釈する高次の意味空間 $\mathbf{M}$ を設定し、そこから因果モデルの空間 $\mathbf{C}$(因果グラフの集合)への射影関手 $\pi: \mathbf{M} \to \mathbf{C}$ を定義する。do 演算はこの射影を変換する自然変換として捉えられ、介入に伴い観測者の視点(意味空間から因果構造へのマッピング)がどのように変化するかを幾何学的に定式化する。さらに各因果構造に対して確率的因果モデルを与える関手 $P: \mathbf{C} \to \mathbf{Stoch}$($\mathbf{Stoch}$は確率過程の圏)を構築し、因果推論の計算体系を圏論的に再構成する。
本研究の新規性は、因果構造そのものを観測者の意味空間からの「射影」と見做す点にある。従来のPearlの枠組みやそれを圏論的に発展させた研究では、因果モデルは固定されたグラフ構造上で議論され、介入もそのグラフ上の操作(矢印の削除)として扱われてきた。これに対し本論文では、背後に潜む高次概念の空間(意味論的文脈)を導入し、因果関係とはその空間から射影された結果に過ぎないとする。これにより複数の観測者視点や文脈を統合した因果推論が可能となり、大規模データやAIの潜在空間における因果関係の解釈にも応用できることを示す。
以下、本論文の構成は次の通りである。まず関連研究としてPearlの因果モデル、Fong (2013) ([1301.6201] Causal Theories: A Categorical Perspective on Bayesian Networks)、Spivak (2014) (Ologs: A Categorical Framework for Knowledge Representation | PLOS One)などとの比較を行い、本研究の位置づけを明確にする。次に、意味空間 $\mathbf{M}$ と因果構造 $\mathbf{C}$ を圏論的に定義し、射影関手 $\pi: \mathbf{M}\to\mathbf{C}$ として表現する。続いて、$do$ 演算を $\pi$ の自然変換($\pi$ を $\pi’$ へ写す変換)として定式化し、$\mathbf{C}$ 上の因果モデル関手 $P: \mathbf{C}\to\mathbf{Stoch}$ と組み合わせて因果推論の計算体系を示す。さらに複数の射影(観測者ごとの視点)の存在を仮定し、介入による因果構造の更新を射影関手の更新 $\pi \mapsto \pi’$ として記述する。図式やフローチャートを交えてモデルの直感的理解を補いつつ、提案手法を大規模データやAIの潜在空間への応用可能性とともに擬似コードで示す。また、トポス理論との対応関係や文脈的真理値の変換についても簡潔に議論する。最後に本研究を総括し、今後の展望を述べる。
関連研究と差異 (Related Work)
Pearl (2009) – Pearlは著書”Causality”(2009) において、因果モデルを構造方程式モデル(SEM)で定式化し、介入を表す $do$ 演算とそれに基づくdo-calculusを提唱した。SEMでは各内生変数 $V_i$ がその親集合 $PA_i$ の関数として定義されるが、$do(X=x)$ による介入はモデルからその関数を削除し $X=x$ に固定する操作として定義される 。この操作により生成される介入後の新しいモデル $M_x$ を用いて、介入下での確率分布 $P(Y\mid do(X=x))$ を元のモデル $M$ の修正版 $M_x$ における確率として定義する。Pearlの枠組みでは因果グラフ (有向非巡回グラフ; DAG) が因果仮定の表現として用いられ、$do$ 演算はそのDAGから特定の矢印を削除するグラフ操作に対応する。Pearlのdo-calculusは3つの推論規則からなり、観察と介入下の確率の関係を代数的に導出する体系を提供している。本研究との違いは、Pearlが因果グラフ自体を前提とし操作するのに対し、我々は因果グラフをさらに高次の「意味空間」からの射影結果と見做し、介入を射影の変換として扱う点である。Pearlの手法は一つの固定された因果モデル内での操作だが、本手法では背後に無数の文脈(射影)が存在しうる点でより柔軟である。
Fong (2013) – Brendan Fongは博士論文 “Causal Theories: A Categorical Perspective on Bayesian Networks” において、ベイジアンネットワークを対称モノイダル圏によって表現する新たな代数的構造「因果理論 (causal theory)」を提案した ([1301.6201] Causal Theories: A Categorical Perspective on Bayesian Networks)。Fongの因果理論ではオブジェクトが変数を表し、射(モルフィズム)が変数間の情報伝達(因果影響の流れ)を表現する。特に各DAGに対応する圏 $\mathcal{C}_G$ を構成し、それを可測空間と確率写像の圏(確率的関数の圏)$\mathbf{Stoch}$に写す対称モノイダル関手 $F: \mathcal{C}_G \to \mathbf{Stoch}$ を因果モデルと定義した ([1301.6201] Causal Theories: A Categorical Perspective on Bayesian Networks)。この関手によって、DAG上の各矢印に対応する確率的な入出力関数(すなわち条件付き確率分布)が割り当てられる。例えば親を持たない節点には事前分布 $P(X)$、親を持つ節点には条件付き分布 $P(X\mid Parents(X))$ が対応し、関手性によってこれらが全体としてベイジアンネットワークの因数分解構造を満たす。この枠組みではDAGの持つ独立性構造(共通の先祖を持たない変数同士の独立など)が自然に確率分布へ反映されることが示されている。本研究との違いは、Fongが提案した因果理論および関手的因果モデルでは因果グラフそのものは固定されているのに対し、本研究では因果グラフ $\mathbf{C}$ は観測者の文脈に依存する射影の結果とみなされ可変である点である。また、Fongのアプローチが主に単一の圏 $\mathcal{C}_G$ 内で因果推論の計算を行うのに対し、本研究では射影関手 $\pi: \mathbf{M}\to\mathbf{C}$ やその変換を明示的に扱うことで複数モデル間の関係や文脈の移り変わりに着目している。
Spivak (2014) – Spivakは著書 “Category Theory for the Sciences” (2014) や論文 (Ologs: A Categorical Framework for Knowledge Representation | PLOS One) において、圏論を用いた知識表現およびデータ統合の枠組みを提唱している。その一例としてSpivakとKent (2012) は olog (ontology log) と呼ばれるカテゴリー理論に基づく知識表現モデルを導入した。Ologでは概念をオブジェクト、概念間の関係を射とする圏を構成し、これにより人間の持つ概念体系を形式的に記述できる 。興味深い点は、複数のolog(それぞれ異なる観測者の世界観に対応)同士を関手によって接続・整合させることで、局所的な視点と大域的な視点(世界観)の統合を可能にしていることである。言い換えれば、個々の観測者のカテゴリ的知識(ローカルな意味空間)を関手により一つの大きなネットワークにアラインし、情報の流れを統合する枠組みが提供されている。本研究への示唆として、Spivakのologは本論文の「意味空間 $\mathbf{M}$」の一つの具体例と捉えることができ、それを因果モデル圏 $\mathbf{C}$ へ射影するという本研究の発想に類似した構図が見て取れる。ただしSpivakの研究が主に静的な知識表現やデータ変換に焦点を当てるのに対し、本研究ではそれを一歩進めて介入(因果操作)に伴う射影関手の変化という動的な側面を理論化している点で差異がある。またトポス理論的な視点(後述)から、意味空間内の文脈的真理値の変化として介入を位置づける点も新規である。
以上のように、本研究はPearlの因果モデルの伝統とFongの圏論的因果モデル、およびSpivakの意味論的圏論という3方面の知見を交差させた学際的アプローチである。次節では本研究の理論的枠組みを順を追って詳述する。
理論的枠組み (Theoretical Framework)
意味空間 $\mathbf{M}$:文脈と概念の圏
我々はまず意味空間と呼ぶ圏 $\mathbf{M}$ を定義する。$\mathbf{M}$ は観測者(分析者または知能)が世界を解釈する際の概念の集合とその関係を表す圏であり、トポス的構造を持つことを想定する。トポスとは、集合の圏の性質を一般化した高階の圏で、内部に論理構造を備えたものである (Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey)。簡単に言えば、$\mathbf{M}$ の内部には観測者が持つ概念体系や文脈依存の論理(命題の真偽)が存在しており、それらは圏論的にはオブジェクト(例えば概念や命題の表象)およびそれらを結ぶ射(概念間の意味的関係や推論規則)としてモデル化される。
$\mathbf{M}$ がトポスである場合、論理命題の真理値は二値の真偽に限られず文脈ごとの値を取りうる(内部論理が直観主義的であるなど)という特徴がある。この性質は後述する介入時の「文脈的真理」の変化を記述する上で重要となる。たとえば観測者の知識体系において「$X$ が $Y$ に因果影響を持つ」という命題の真理値は、その観測文脈(背景知識や前提条件)によって変わりうる。トポス内では各文脈(オブジェクト)ごとに命題の真理値が定まるため、ある文脈で真であった命題が別の文脈では偽になる、といった状況を自然に表現できる。我々の意味空間 $\mathbf{M}$ はこのような文脈依存の真理を扱える構造として設計される。
実際の構成としては、$\mathbf{M}$ の具体例としてSpivakのologに基づくオントロジー圏を想定してもよい。例えばオブジェクトを「患者」「疾患」「治療」「回復」といった概念、射を「患者が疾患を持つ」「治療が疾患に対して施される」等の関係性で表すような有向グラフ状のカテゴリーを考えることができる。この圏には論理的制約(例えば「治療が施されれば患者は回復する」等)も存在しうる。それらは$\mathbf{M}$ 内部の論理(トポスの内部論理)によって命題として扱われ、その真偽は文脈次第で決まる。観測者によって異なる前提が採用されれば異なる論理世界(モデル)が$\mathbf{M}$内に存在することになる。
まとめると、$\mathbf{M}$ は観測者の知識・文脈・意味を包摂する圏(理想的にはトポス)であり、因果モデルの土台となる概念的構造を提供する。この意味空間から、後述する因果構造 $\mathbf{C}$ への射影が行われる。
因果構造 $\mathbf{C}$:DAGの圏化
因果関係は通常DAG (Directed Acyclic Graph) を用いて表現される。我々は因果構造の圏 $\mathbf{C}$ を、適切なDAGから構成される小さい圏と定義する。基本的には各因果グラフ $G$(ノード集合と有向非巡回辺の集合)に対し、それに対応する圏 $\mathcal{C}_G$ を次のように構成する ()。
- 圏 $\mathcal{C}_G$ のオブジェクトはグラフ $G$ のノード(変数)に対応する。また因果的解釈では各オブジェクトは確率変数あるいは出来事の型となる。
- 射(モルフィズム)はノード間の関係を表し、具体的には各辺 $A \to B$ に対応する射 $A \to B$ を生成元として持つ。また恒等射 $A \to A$ 及び射の合成は圏の公理に従って含まれる(DAGゆえ合成は非循環的)。
- 圏を単純化するため、モノイド圏とみなし複数変数の同時扱い(テンソル積による並列)も考慮できるが、ここでは主に各連結成分ごとに別個の圏と考えてもよい。
例として図1左のDAGに対応する圏 $\mathcal{C}_G$ を考えると、オブジェクトは ${A,B,C}$、射は恒等射と $A\to B$, $B\to C$, $A\to C$ およびそれらの合成(ここでは $A\to B\to C$ の合成射 $A\to C$ は既に直接辺として存在するが、圏としては二通りの $A\to C$ 射があることになる。ただし因果推論上は同一視してよい場合もある)から構成される。
重要なのは、この因果構造圏 $\mathbf{C}$ は射影の結果として得られるものである、という点である。観測者が持つリッチな意味空間 $\mathbf{M}$ から、因果に関する情報だけを抽出・簡約したものが $\mathbf{C}$ と位置付けられる。言い換えれば、観測者は自身の意味世界に存在する多様な概念や関係性から「因果的関連がある」と判断した変数だけを抜き出し、その間の因果矢印を確信度の高い因果依存として描いたものがDAGである。これはちょうど高次元の現象を低次元に射影して構造を把握することに似ている。因果構造は射影であるとはこの意味で、因果グラフ自体は観測者の主観や文脈に依存した見取り図に過ぎないという立場をとる。
本研究では、一つの意味空間 $\mathbf{M}$ から一意の因果構造 $\mathbf{C}$ が得られるとは限らないことを強調する。むしろ観測者の関心や解像度に応じて複数の異なる射影 $\pi$ がありうると考える。例えばある観測者は「教育レベル」「収入」「健康」という3変数の因果関係をモデル化するかもしれないが、別の観測者は「職業」「食生活」など他の変数を含めたモデルを射影するかもしれない。個々の $\pi: \mathbf{M} \to \mathbf{C}$ は観測者視点での「因果地図」を与えるものであり、それらの間の関係性を後述の自然変換で記述する。
射影関手 $\pi: \mathbf{M}\to\mathbf{C}$ と $do$ 演算の自然変換
以上より、観測者の意味空間 $\mathbf{M}$ と因果構造圏 $\mathbf{C}$ の間に、$\mathbf{M}$の情報を$\mathbf{C}$上に写す射影関手 $\pi: \mathbf{M} \to \mathbf{C}$ が存在すると仮定する。関手 $\pi$ は圏論における構造保存写像であり、$\mathbf{M}$ 内のオブジェクト(概念や文脈)を $\mathbf{C}$ 内のオブジェクト(因果モデル上の変数)に写し、$\mathbf{M}$ 内の射(意味的関係や含意)を $\mathbf{C}$ 内の射(因果矢印)に対応付ける。図2に模式図を示すように、$\pi$ は観測者の持つ知識からどの変数を選び出しどの因果関係を結ぶかという「見方」を形式化したものである。

図2: 意味空間から因果構造への射影関手。 観測者の意味空間 $\mathbf{M}$ に対して、因果構造 $\mathbf{C}$ への射影関手 $\pi$ が定義されている(実線矢印)。介入操作 $do$ によって射影が更新され、異なる関手 $\pi’$ に写り変わる(点線矢印)。この $\pi$ から $\pi’$ への変換が $do$ 演算に対応する。
射影関手 $\pi$ が定まれば、それを介して観測者の意味空間内の命題や知識を因果モデル上に解釈できる。例えば $\mathbf{M}$ 内に「$X$ は $Y$ に影響を及ぼす」という射が存在し、それが $\pi(X) = A$, $\pi(Y) = B$ に写されるならば、因果構造 $\mathbf{C}$ 上で $A \to B$ という因果矢印が対応する。もし $\mathbf{M}$ 内に「$Z$ を固定すれば $X$ と $Y$ の関係は変わる」というような高次の命題があれば、それも何らかの形で $\mathbf{C}$ 上の条件付き独立や介入効果に対応するかもしれない。このように $\pi$ は意味論的な情報を因果構造に投影するための写像であり、一種の「情報損失(射影)」を伴う点に注意が必要である。高次の概念的ニュアンスは因果グラフ上では単純な矢印の有無に落とし込まれてしまう。この射影の際に捨てられた情報が、しばしば因果推論における隠れた前提やモデル外要因として現れることになる。
さて、本論文の核心主張はdo 演算をこの射影関手の変換として捉え直せるという点であった。具体的には、ある介入操作 $do(X=x)$ を行うことは、もとの射影 $\pi: \mathbf{M}\to\mathbf{C}$ をある別の関手 $\pi’: \mathbf{M}\to\mathbf{C’}$($\mathbf{C’}$ は介入後の因果構造圏)に更新する操作と同一視できる。圏論的には $\pi$ と $\pi’$ の間に自然変換$\eta: \pi \Rightarrow \pi’$が存在するとみなせる。自然変換とは二つの関手間の対応をとる射であり、ここでは意味空間 $\mathbf{M}$ 内の各オブジェクト $M \in \mathbf{M}$ に対して、$\eta_M: \pi(M) \to \pi'(M)$ という $\mathbf{C}$ 内の射を対応させるものである。ただし通常の自然変換の定義では関手の始域と終域は同一の圏でなければならない。しかし介入によって因果グラフ自体が変化する場合($C$ と $C’$ が異なる場合)は、厳密には $\pi$ と $\pi’$ は異なる圏を値に持つため直接の自然変換とみなすのは形式上問題となる。この点を厳密に処理するには、$C$ の変化を含めた圏の圏や2-圏の枠組みで議論する必要があるが、本稿では概念的な理解を優先し、$\pi$ の変換と $do$ 演算を同一視することにする。直観的には、$do(X=x)$ により観測者の世界観が変化し、新たな視点 $\pi’$ に切り替わる、と理解すればよい。
例えば図1の例では、介入前の射影 $\pi$ は $A, B, C$ という3つの観測変数を $\mathbf{M}$ から射影していたとする。$do(B=b_0)$ を行うと観測者の因果構造の見方がアップデートされ、$\pi’$ では依然 $A, B, C$ の3変数を認識しているが、その関係性は $A \to B$ を欠いた新たなグラフに対応することになる。このとき意味空間 $\mathbf{M}$ 内の各対象に対し、$\eta_A: \pi(A)=A \to \pi'(A)=A$(恒等射), $\eta_B: \pi(B)=B \to \pi'(B)=B$(恒等射), $\eta_C: \pi(C)=C \to \pi'(C)=C$(恒等射)および、$\eta_{(関係)}: \pi(A\text{と}Bの関係)= (A\to B) \to (恒等)$ などが対応する。この $\eta$ は形式的には自然変換というより射影の「差分」を表現している。要するに $do(B)$ により「$A$ と $B$ の因果関係が消滅する」という事象が起きたことを、$\pi$ から $\pi’$ への写り変わりで表しているわけである。
圏論的因果推論の文脈では、Jacobsらの研究に見られるように、介入をDAG圏の射の補間やプッシュアウトとして定式化する試みもなされている。我々のアプローチも概念的にはそれらと類似し、特にSWITCH関手(ある変数の入出力を切り替える関手)やプッシュアウトによるモデル更新といった手法と同調する。しかし本研究の枠組みでは、介入は単なるグラフ操作ではなく観測者の視点の変容として表現される点が特徴である。これにより、異なる文脈間での因果モデルの比較や、因果モデルの階層的構造(例えばメタ因果モデル)を議論する道が開ける。
以上を擬似コード風に表現すると、射影と介入の関係は以下のようになる。
# 意味空間 M と因果構造 C の定義(擬コード)
M = SemanticCategory(objects=["Patient", "Disease", "Treatment", ...],
morphisms=["Patient has Disease", "Treatment targets Disease", ...])
C = DagCategory(nodes=["X", "Y", "Z"], edges=[("X","Y"), ("Y","Z")]) # 例えばX->Y->Zの因果関係
pi = Functor(domain=M, codomain=C,
object_mapping={"Patient": "X", "Disease": "Y", "Treatment": "Z", ...},
morphism_mapping={"Patient has Disease": "X->Y", ...}) # 射影関手
# C上の因果モデルを定義する関手 P: C -> Stoch
P = Functor(domain=C, codomain=Stoch,
object_mapping={"X": Ω_X, "Y": Ω_Y, ...}, # 変数を確率空間Ωに写す
morphism_mapping={"X->Y": kernel_PY_given_X, ...}) # 矢印を確率カーネルに写す
# do演算: 変数Yへの介入に対応する射影の更新
def do_intervene(pi: Functor, on: str) -> Functor:
new_pi = pi.copy()
# 'on'へのすべての流入射を遮断(対応する意味関係を恒等に写す)
for m_morphism in M.incoming(on):
new_pi.morphism_mapping[m_morphism] = Identity(on)
return new_pi
pi_prime = do_intervene(pi, on="Y") # 例: Y への介入で pi を pi' に更新
P_prime = P.update(X="Y", rule="set constant") # P も対応する部分を定数分布に置換
上記の疑似コードでは、意味空間 $\mathbf{M}$ 内の “Patient has Disease” という射が因果構造上 “X->Y” に対応付けられている例を示した。do_intervene(pi, on="Y")
関数では、介入対象 $Y$ に流れ込む射を恒等射に置き換えることで $\pi$ を更新している(すなわち $X->Y$ の対応を遮断する)。また確率的因果モデル $P$ 側も、変数 $Y$ を外生化(定数に固定)するよう P.update
で変更している。このように射影関手 $\pi$ と因果モデル $P$ の双方を同期して変化させることで、介入後の新たなモデルが得られる。
圏論的因果モデル $P: \mathbf{C}\to\mathbf{Stoch}$ と確率的構造
上述のように、Fongの研究にならい各因果構造圏 $\mathbf{C}$ 上には確率的な解釈を与える関手 $P: \mathbf{C} \to \mathbf{Stoch}$ を定義する。対象を確率変数の取り得る値の集合(あるいは測度空間)に、射を確率カーネル(条件付き分布)に対応付けることで、因果グラフに標準的な確率モデルを与えることができる。ここで $\mathbf{Stoch}$ とは厳密には測度空間と確率測度(あるいは確率分布関数)を射とする圏であり、各射は可測関数 $f: X \to \Delta(Y)$($X$ 上の確率分布から $Y$ 上の確率分布を生成するMarkov核)として表現される。この枠組みでは、因果構造 $\mathbf{C}$ 上の矢印 $A\to B$ は「$A$ の各値に対して $B$ の分布が与えられる」という条件付き分布 $P(B\mid A)$ に対応し、$A$ が存在しない(親を持たない)場合は事前分布 $P(A)$ として表される ()。
関手 $P: \mathbf{C}\to\mathbf{Stoch}$ は射影関手 $\pi: \mathbf{M}\to\mathbf{C}$ と合成することで、意味空間から直接 $\mathbf{Stoch}$ への関手 $P\circ \pi: \mathbf{M} \to \mathbf{Stoch}$ を誘導することができる。この合成関手は、観測者の意味空間内の各概念に対して確率的な解釈を与えるもので、観測者が持つ知識体系を使って確率モデルを構築することに対応する。例えば $\mathbf{M}$ 内の「患者が疾患を持つ」という命題(射)が、$\mathbf{C}$ 上の $X\to Y$ に射影され、それがさらに $\mathbf{Stoch}$ 上の確率カーネル $P(Y\mid X)$ に対応付けられる。すると意味空間内の命題「患者が疾患を持つ」は、確率モデル内では「$X$ から $Y$ への条件付き確率」によって定量化されることになる。
このようにして構築された三層構造 $\mathbf{M} \xrightarrow{\pi} \mathbf{C} \xrightarrow{P} \mathbf{Stoch}$ が、本論文における圏論的因果モデルの全体像である。観測者の意味論($\mathbf{M}$)が因果仮説($\mathbf{C}$)を生み、因果仮説が具体的な確率モデル($\mathbf{Stoch}$)を生むというピラミッド構造は、従来の因果推論を拡張して「誰がどのように因果モデルを構築したか」というメタ情報まで含めて扱う基盤を提供する。この枠組みの下では、因果推論上の様々な操作—条件付き独立の判定、介入効果の計算、反事実推論等—がすべて適切な圏論的操作(関手の合成や自然変換、極限・余極限など)として統一的に記述できると期待される(Markov categories, causal theories, and the do-calculus)。
特に、Pearlの $do$-calculus で扱われる介入効果の分解等も、圏論的にはこの構造の中で再解釈できる。例えば $do(X)$ による $Y$ への影響を求める際、Pearlのグラフィカル判別基準ではバックドア基準などを用いるが、本枠組みでは $\pi$ の変化 $\eta: \pi \Rightarrow \pi’$ とそれに伴う $P$ の変化 $P \Rightarrow P’$ を追跡することで同等の推論が可能となる。具体的には、介入前後の関手 $P, P’$ の間の関係性として、合成 $P\circ \pi$ と $P’\circ \pi’$ の比較を行えば良い。$P\circ \pi$ は観測下での分布、$P’\circ \pi’$ は介入下での分布を与える関手であるから、$P(Y \mid do(X))$ に相当するものは $P’\circ \pi’$ によって与えられると解釈できる。ただし本稿の主眼はそこではなく、むしろ介入そのもののメタ構造を解明することにあるため、詳細な計算論的側面は今後の課題とする。
複数視点の射影と介入による構造更新 (Multi-perspective Projections and Structural Updates)
前節までで、単一の観測者視点(射影関手 $\pi$)に基づく因果モデルと介入の定式化を述べた。しかし実際の科学的推論では、複数の観測者やモデル間の比較が重要となる。圏論的枠組みでは、複数の射影関手 $\pi_i: \mathbf{M} \to \mathbf{C}_i$($i=1,2,\dots,n$)を考えることで、観測者ごとの因果構造 $\mathbf{C}_i$ を取り扱うことができる。各観測者 $i$ は同一の意味空間 $\mathbf{M}$ をそれぞれの視点で射影して因果モデル $\mathbf{C}_i$ を得ていると考えられる。
この状況下で、観測者間のモデルの違いや、それぞれのモデルに対する介入結果の比較を行うには、射影関手間の関係性を記述する高次の射(自然変換や2-射)を考える必要がある。例えば観測者1と観測者2の射影 $\pi_1, \pi_2$ があり、観測者1がある介入 $do(X)$ を行った結果 $\pi_1’$ を得たとする。このとき観測者2の視点から見た場合に相当する操作は何か、を問うことができる。もし観測者2も同じ介入(同じ現象に対する操作)を実行すれば $\pi_2’$ となるであろう。興味深いのは、$\pi_1’$ と $\pi_2’$ が互いにどのような関係にあるか、である。元のモデル間で対応があるなら介入後のモデル間にも対応が期待される。圏論的には、$\pi_1, \pi_2$ の間に自然同型 $\alpha: \pi_1 \Rightarrow \pi_2$(観測者1の視点から見た因果構造と観測者2のそれが本質的に同型であることを示す)があれば、介入後も $\pi_1′ \Rightarrow \pi_2’$ の自然同型 $\alpha’: \pi_1′ \Rightarrow \pi_2’$ が存在するだろう。このようにして、異なるモデル間での介入結果の可換図式が描けることになる。この図式は例えば以下のようになる:

そして $\pi_1$ と $\pi_2$ の間に自然同型 $\alpha$ があり、$\pi_1’$ と $\pi_2’$ の間にも $\alpha’$ がある場合、これらは高次の可換性(2-可換図式)を満たすだろう。つまり異なる観測者であっても、同じ現象に対する介入で得られる因果構造の変化は本質的に同じパターンに従うことになる。このことは因果推論の客観性にもつながる議論であり、圏論を用いることで「異なる視点間での因果推論の整合性」を厳密に議論できる素地が整う。
本稿のモデルではさらに、単一の観測者内でも複数の射影を考えることができる。観測者は往々にして異なるスケールや異なる粒度でモデルを構築するためである。例えば疫学者は個人レベルの因果モデルも構築するし、社会レベルの因果モデルも構築する。この場合、$\mathbf{M}$ 内部で「個人」というオブジェクトと「社会」というオブジェクトが階層的関係にあり、それぞれに対する射影 が存在すると考えられる。これらの間にも関手の間の射が存在し、例えば集団の因果関係から個人の因果関係への下位射影が存在するかもしれない。このような階層間の射も圏論的には自然変換やトポスの射(帰納的論理の変換)として扱うことが可能である。介入がその階層間射に与える影響、例えば集団レベルの介入効果が個人レベルでどう現れるか、といった問題も同様の図式で表現しうる。
以上、複数の射影関手を考慮することで、我々の枠組みは単一モデル内に留まらないメタ因果推論へと拡張できることを論じた。本論では深追いしないが、この方向性は因果推論の統合(例えば複数の研究結果の統合:メタアナリシス)や知識統合に資するものと期待できる (Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey)。
大規模データ・AI潜在空間への応用 (Applications to Large-scale Data and AI Latent Spaces)
提案する圏論的モデルは、単なる理論的玩具にとどまらず、現代の大規模データ解析や人工知能システムにも応用可能性を持つ。本節では、その一例としてAIの潜在空間における因果発見への適用を述べる。
深層学習モデル(例えば画像認識のCNNや言語モデルTransformer)は、高次元の内部表現(潜在ベクトル空間)を学習する。これらの潜在空間はしばしば人間の意味空間に対応すると考えられる(例えば言語モデルの潜在空間は単語や文の意味を埋め込んでいる)。しかし、この潜在空間での関係性はブラックボックスであり、どの要因がどの要因に影響を与えるか(因果構造)が明示的には得られない。近年、潜在表現から因果関係を抽出する因果表現学習が注目されているが、依然困難が多い。
我々の枠組みでは、AIモデルの潜在空間そのものを観測者の意味空間 $\mathbf{M}$ とみなし、そこから因果構造 $\mathbf{C}$ への射影 $\pi$ を学習することで、潜在表現内の因果関係を明らかにできる可能性がある。具体的には、まずAIモデルの潜在ベクトルに対し、人間が解釈可能な概念との対応付けを行う(これはしばしばプロービングやベクトル方向の解釈として行われる作業に当たる)。この対応付けにより潜在空間に暗黙に存在する概念圏 $\mathbf{M}$ を顕在化する。次に、介入実験をAIモデル内でシミュレートする。例えば画像生成モデルにおいて潜在ベクトルの一部を操作(ある要因を変更)して出力画像の変化を見る、言語モデルにおいて特定の中間表現を固定して応答への影響を見る、といった操作である。これらはAI内部での $do(X)$ の実行とみなせる。モデル内介入の結果(出力の変化や確率分布の変化)を観察し、それを説明するような因果グラフ構造を同定するアルゴリズムを適用する。これはちょうど $\pi: \mathbf{M}\to\mathbf{C}$ を学習する過程に相当する。観測されるデータ(モデル内部の振る舞い)に対して最も矛盾なく説明できる因果DAGを探索することで、射影関手 $\pi$ の具体形を当てはめるのである。
このアプローチは既存の因果発見アルゴリズム(PCアルゴリズムやLiNGAMなど)と深層学習の解釈手法を組み合わせたものと位置づけられる。圏論的視点により、潜在空間→因果構造→確率モデルという三層の対応関係で捉えられるため、各層に適した最適化手法を組み合わせることができる。例えば潜在空間から因果構造への射影はグラフ構造探索問題として解く一方、因果構造から確率モデルへのマッピング $P$ はベイジアンネットワークのパラメータ学習として解く、といった分業が可能になる。またトポス理論を用いれば、潜在空間内の「概念の存在しない領域」や「不確実な命題」の取り扱い(対応する真理値は擬ブール値になる)も定式化でき、ブラックボックスモデル内での知識の不確実性を扱うのに有用である。
実用上の展望としては、大規模知識グラフと生成モデルを組み合わせたシステムへの応用が考えられる。知識グラフは人間が認識した概念間関係のデータベースであり、生成AIは膨大なデータから潜在知識を学ぶ。本手法で両者を接続することで、生成AIの内部知識を因果的に検証・編集できるようになる可能性がある。例えば、大規模言語モデルに対し「ある要因を介入で変えたら結果はどう変わるか」を質問する際、モデル内部の対応する変数に $do$ 操作を加え、その影響を因果グラフ上で計算することで説明付きの回答を得る、などが考えられる。これは現在盛んに研究されているAIの説明可能性 (XAI) の文脈にも貢献し得る。圏論的な一貫性に支えられているため、モデルサイズが大きく複雑になっても理論的な枠組みは破綻しないという利点もある。
トポス理論との対応と文脈的真理の変形 (Topos-theoretic Correspondence and Contextual Truth)
最後に、我々の提案するモデルとトポス理論との関係、および文脈的真理値の変形としての介入の解釈について述べる。前述の通り意味空間 $\mathbf{M}$ はトポス(あるいは高階論理を備えた圏)とみなすことができる。トポスの内部論理では命題の真理値は単一のブール値ではなく、サブオブジェクト分類子と呼ばれる対象 $\Omega$ の要素として与えられる (Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey)。簡単に言えば、各命題の真理値は文脈(対応するオブジェクト)ごとに異なりうる構造を持つ。これは物理学や計算機科学で言うところのコンテキスト依存の真理と一致し、例えば量子論で出てくるような一つの命題に対し同時には決定できない様々な真理値が存在する、といった状況を扱える (Topos Quantum Logic and Mixed States – ScienceDirect.com)。
因果推論においても文脈的真理は現れる。典型例は反事実的な命題である。ある事象 $Y$ が起こった後で「もし $X$ を操作していたら $Y$ は起こらなかっただろうか」という命題は、現実文脈と介入後文脈で真理値が異なる。同様に、「$X$ は $Y$ に因果的影響を与える」という命題も、介入の有無という文脈によって真であったり偽であったりする。これらは直観的には真理値が文脈(シナリオ)に依存していると言える。
我々のモデルでは、ある文脈(観測条件)における因果関係は $\mathbf{M}$ 内の命題として真理値 true をとり、それが射影されて $\mathbf{C}$ 上の矢印として顕在化すると考える。$do$ 演算によって文脈が変われば、$\mathbf{M}$ 内で真であった命題が偽に変わる可能性がある。圏論的にはこれは $\mathbf{M}$ 内のある射(命題)$m: A\to B$ が、射影 $\pi(m) = X\to Y$ においては存在していたのに、$\pi'(m)$ では恒等射や消滅(定義されない)に変化する、という状況で表現される。言い換えれば、介入はトポス内の論理的なモデルを変更し、命題の真理値評価を変化させる操作とみなせる。この視点は、介入をモデル変換(理想的にはトポスの射や論理変換)として扱う最近の研究とも呼応する。
より形式的には、$\mathbf{M}$ をトポスとしその内部言語で「$X$ は $Y$ に因果的影響を持つ」という論理式 $\phi(X,Y)$ を表現するとする。$\pi: \mathbf{M}\to\mathbf{C}$ に対応するモデルではこの命題は true($\pi(X)\to \pi(Y)$ が存在する)であったが、$\pi’: \mathbf{M}\to\mathbf{C’}$ に対応するモデルでは false($\pi'(X)\to \pi'(Y)$ が無い)になる、という現象が起こりうる。トポス理論ではモデル変換に伴う命題の真理値変化を記述する手法が整備されており、特に核付きトポスやブール化(Booleanization)の概念を使うと、直観主義論理下の真理値を古典論理的な値に落とし込む操作が定式化できる。$do$ 演算はある意味で、元のトポス内の論理をよりシンプルなもの(ある命題を強制的に真または偽にする)に差し替える行為と捉えることができよう (Single-Time Truth Values in the Language of topos theory)。例えば $do(X=x)$ は「$X=x$である」という命題を無条件に真とする新たなモデルへの射であり、その結果もとの因果命題 $\phi(X,Y)$ の真理値が変わる。
以上の対応関係をまとめると、我々の提案手法はトポス理論における内部論理の変化としての因果介入という位置づけができる。観測者の意味空間を表すトポス内で、$do$ 演算は「ある射を消去する操作」としてシンプルに表現され、それが因果構造上の変化や確率分布の変化に繋がる。最近の研究でも、高階圏論の学習モデルへの応用が注目されており、因果推論においてもトポス的視座は有用であると示唆されている (Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey)。本研究はその一例として、意味と因果を統合する圏論的モデルを提示した。
おわりに (Conclusion)
本稿では、統計的因果推論の核心である $do$ 演算を、観測者の意味空間から因果構造への射影関手の変換として再解釈する圏論的モデルを提案した。Pearlの因果モデルやFongの圏論的因果理論 ([1301.6201] Causal Theories: A Categorical Perspective on Bayesian Networks)と比較しつつ、我々の枠組みでは因果関係そのものを高次の意味論的文脈に依存する射影の産物とみなす点で新規性があることを示した。射影関手 $\pi: \mathbf{M}\to\mathbf{C}$ を定義し、介入による因果構造の変更を $\pi$ の更新($\pi’$への変換)として形式化することで、介入の操作を観測者の視点変化として捉え直した。このモデルでは、複数の射影(複数観測者や複数モデル階層)を同時に扱うことが可能であり、それらの間の整合性を自然変換や2-可換図式で議論できることを述べた。
また、因果構造圏 $\mathbf{C}$ 上の確率的因果モデル関手 $P: \mathbf{C}\to\mathbf{Stoch}$ を構築し、従来のベイジアンネットワークの構造方程式モデルを一般化した形で因果効果の計算や独立性の表現ができることを示した。提案モデルの応用例として、大規模データやAIの潜在空間における因果関係の発見に言及し、意味空間を潜在表現に同一視して射影を学習するアプローチを概説した。これはAIの説明可能性や知識統合の観点からも有望であり、圏論と機械学習の架橋となる可能性を持つ。さらにトポス理論との関連で、介入を文脈的真理値の変換として理解できることを論じ、因果推論の高度な論理的性質にも踏み込めることを示唆した (Category-Theoretical and Topos-Theoretical Frameworks in Machine Learning: A Survey)。
本研究の成果はまだ理論的な骨組みの提示にとどまる。今後の課題としては、(1) 提案した圏論的枠組みの厳密な数学的定式化と公理系の整備(特に射影関手の圏や2-圏構造の明示化)、(2) 具体的データに対する適用可能なアルゴリズムの開発(射影関手と因果モデルの同時学習法など)、(3) トポス内部論理での因果推論ルールの導出(do-calculusを内部言語で再現する試み)、(4) 観測者間での因果モデル統合の実証(実際のメタ解析への応用)などが挙げられる。特にアルゴリズム面では、本稿で示した擬似コードを発展させ、ベイズ推論や深層学習の最適化手法と組み合わせる研究が必要である。
結びに、本稿が提起した「因果構造は射影である」という視座は、因果関係を絶対的真実ではなく観測者の世界観の反映と捉える謙虚な立場である。その立場に立つことで、因果推論における主観と客観の交差点に新たな光を当てることができると信じる。意味と因果、文脈と真理が交錯する豊かな知の風景を、圏論という言葉でもって詩的かつ論理的に描き出すこと—それが本研究の目指したものであり、今後の学際的対話への一つの礎となれば幸いである。
Leave a comment