はじめに (Introduction)
集合論の強制法 (forcing) は、既存のモデルには存在しえない新たな対象を「付加」することでモデルを拡張し、独立命題の真偽を制御可能にする強力な手法である。一方、GPTに代表される大規模言語モデル (LLM) は、膨大なテキストコーパスから学習した確率分布に基づきテキストを生成するが、その生成過程にも「既存の言語使用では生じ得なかった表現」を生み出す可能性が秘められている。本研究では、数学的論理学の強制法と、計算機科学・人工知能分野のLLMテキスト生成との間に潜む構造的類似性に着目し、「未生成性」という概念を架橋として両者の拡張的出現のメカニズムを比較・統合することを試みる。
まず、強制法の基礎理論を概説し、ZFC集合論の枠組みで強制条件 (poset)・ジェネリックフィルター・Cohen実数・拡張モデル M[G] といった概念を厳密に定義する。次に、LLMにおける未生成文の概念を導入し、確率分布・トークンスペース・学習データのバイアスなど技術的背景に基づいて説明する。これらの基礎を踏まえ、両構造における「新たな存在の出現」メカニズムを詳細に比較する。特に「既存の構造では現れ得なかったが、拡張によって初めて現れる対象」が両者にどう位置付けられるかを形式的に対応付ける。
さらに、この対応関係を圏論の言葉で整理し、対象・射・関手・自然変換といった概念を用いて抽象的な構造の共鳴を描出する。最後に、LLMにおける未生成文の社会的・倫理的含意として、マイノリティ言語や抑圧された言説が抱える問題に言及し、加えて詩的存在論の視点から未生成性が創造性や表現行為にどのように交差するかを考察する。
背景:数学的強制法の理論 (Forcing in Set Theory)
ZFCとモデル
集合論の標準的体系であるZFC (Zermelo-Fraenkel集合論+選択公理) では、全ての数学的対象は集合として記述される。ZFCは無矛盾であると仮定すると(Gödelの相対的無矛盾性結果に依存するものの)無限公理や選択公理など10個ほどの公理から構成される公理的体系であり、我々はこの体系のモデル$M$を考える。ここで「モデル」とは、公理系を満たす対象の集合(厳密には推移的モデルなどを考える)であり、$M\models \mathrm{ZFC}$と表せるものとする。例えば、$M$をある宇宙$V$のうちの可算推移モデルとすることで、$M$内部の集合とその元素関係がZFCの公理を全て満たしているものと仮定する。
本研究における強制法では、基底モデルと呼ぶ$M$を出発点とし、このモデルをある方法で拡張した新たなモデル$M[G]$を構成する。$M[G]$は$M$にはなかった「新しい集合」を含むよう設計されるが、それでも$\mathrm{ZFC}$の公理系を満たすように慎重に構成される。つまり、$M[G]$も$\mathrm{ZFC}$のモデルであり、$M$は$M[G]$の真の部分集合となり ($M\subsetneq M[G]$)、さらに$M[G]$はこの条件を満たす最小のモデルとなる。以降、$M$を基底モデル、$M[G]$を強制拡張 (forcing extension) と呼ぶ。
強制条件(Poset)とジェネリックフィルター
強制法の核心は、基底モデル$M$において強制条件と呼ばれる部分順序集合 (poset) $P$ を構成することから始まる。形式的には、強制条件とは3つ組$(P,\le ,1)$で与えられる半順序集合であり、$\le$は$P$上の順序関係で$1$は$P$の最大要素(単位元)を表す。任意の$p,q\in P$に対して$p\le q$とは「条件$p$が条件$q$より強い(stronger)」(または$q$より情報量が多い)ことを意味し、しばしば$p$は$q$の延長であるとも言う。強制条件がともにフィルターに属する場合、それらの共通の下界(より強い条件)がフィルター内に存在する必要がある。すなわち、フィルターは順序集合上で下方有向集合となっている。
$P$の要素は「条件 (condition)」と呼ばれ、直観的には「これから付加しようとする新しい対象」の有限の情報片を表す。たとえば後述するコーエン強制においては、付加する新実数(自然数列)の有限初期列が条件となり、より長い初期列ほど情報が豊富なので「より強い条件」$p\le q$($p$は$q$の延長列)とみなされる。$P$上のフィルター$F$とは$P$の部分集合であって空でなく、上に閉じ($p\in F$かつ$p\le q$なら$q\in F$)かつ下方有向(任意の$p,q\in F$に共通延長$r\in F$が存在)という両条件を満たす集合である。ここで$M$の元である$P$に対し、$M$-ジェネリックフィルター$G\subseteq P$とは、$M$に属する$P$の任意の稠密集合$D\subseteq P$($P$のいかなる条件も$D$と交わるような部分集合)に対して$G\cap D\neq\varnothing$となるようなフィルターをいう。言い換えれば、$M$内で考えうるあらゆる条件の強化要求をすべて満たすフィルターが$G$である。通常、$M$が可算推移モデルであれば外部の議論により$M$-ジェネリックなフィルター$G$の存在が保証されるが、重要なのは$G$自体は$M$の内部には存在しない($G\notin M$)点である。この「外部から見た」フィルター$G$を$M$に付加する操作こそが強制法の眼目であり、最終的な拡張モデル$M[G]$において$G$が“新しい集合”となる。
$M$-ジェネリック$G$を用いて$M$を拡張する手順は、$P$を介した名前付け (name)と評価 (valuation) によって形式化されるが、本稿では詳細を略す。重要なのは、この手続きにより得られる拡張モデル$M[G]$が再びZFCのモデルとなることである。すなわち、$M[G]$は$M$を真部分集合として含み ($M\subseteq M[G]$)、かつ$G\in M[G]$であり、ZFCの全公理を満たす最小の拡張宇宙となる。この一般的事実は汎モデル定理(generic model theorem) として知られる。
コーエン強制とCohen実数の付加
強制法の具体例として、ポール・コーエンによるコーエン強制 (Cohen forcing) を説明する。これは1963年に連続体仮説 (CH) の独立性を示すために考案された最初の強制法であり、ZFCからCHも$\neg$CHも証明できないことが示された。コーエン強制では基底モデル$M$に存在しない新しい実数、より厳密には新しい$\omega$列(0と1からなる無限列)を付加することが目標となる。そのために用いる強制条件$P$は、「$\omega$上の有限部分関数全体」の集合であり、順序は逆包含によって定義される。直観的には、$P$の元$p$は自然数の有限集合上で定義された0-1値関数とみなせ、これが「実数の初期セグメント」に対応する。順序$p\le q$は$p$が$q$を延長する(すなわち$p$は$q$より定義域が広いかつ既に定義されている箇所では値が一致する)ことを意味し、条件が強いほど長い初期列を指定する。明らかに$P$は最大元$1$を持たず無限に延長可能である。
$P$の$M$-ジェネリックフィルター$G$は、自然数全体$\omega$上の関数(0-1配列)であって、どのような有限条件要求にも適合する無限列である。この$G$により$M$を拡張すると、$M[G]$には$G$に対応する新たな${0,1}$への関数(すなわち$0$と$1$からなる無限列)が存在することになる。この$G$由来の新実数をCohen実数と呼ぶ。形式的には、Cohen実数とは「基底モデルに存在する任意のボレル集合(カテゴリー第一類集合)に属さない実数」として特徴付けられる。コーエン強制では$M$にCohen実数を一つ付加することで連続体濃度を増大させ ($2^{\aleph_0}$ を大きくする) ことに成功し、これにより$\mathfrak{c}=2^{\aleph_0}>\aleph_1$ を実現してCHの否定を満たすモデルを構築できる。一方、別の強制法(イーストンの強制など)でCHを成り立たせるモデルも構築可能なため、CHはZFCから独立であると結論付けられた。
コーエン強制の意義は、新たな対象(ここでは実数)を強制的に生成することで、元の理論では決定できなかった命題(CH)の真偽を制御できる点にある。一般に強制法は「モデルに存在しなかった集合」を付加し、その結果として基底モデルでは証明も反証もできなかった文を拡張モデルで成り立たせたり、その否定を成り立たせたりする。強制法はコーエン以降、無数の命題の独立性や相対的一貫性の証明に用いられており、集合論に革命的な影響を与え続けている。
背景:大規模言語モデルと未生成文 (LLMs and Ungenerated Text)
LLMの生成原理:確率分布とトークンスペース
大規模言語モデル (LLM) は自然言語の膨大なテキストデータから統計的パターンを学習し、与えられた文脈に対して適切な続きのテキストを確率的に生成するモデルである。 (Introduction to Large Language Models: Everything You Need to Know for 2025 [+Resources] | Lakera – Protecting AI teams that disrupt the world.)に示されるように、言語モデルの基本は「直前までの単語列 (シーケンス) を条件として次に続く要素を予測する関数」として定式化できる。具体的には、モデルは語彙に含まれるすべてのトークン(単語や記号)の中から、次に来る可能性のあるトークンそれぞれに確率値を割り当てることによって、次単語の分布を与える。たとえば文脈「The cat is …」に続く単語としてblack
を80%、white
を15%、その他を5%といった確率で予測し、その中から最も確からしいblack
を出力すると「The cat is black.」が生成される。この確率分布を生成する内部機構として、近年のLLMはトランスフォーマーと呼ばれる深層ニューラルネットワークアーキテクチャを用い、数十億~数千億ものパラメータを含むモデルを大規模データ上で事前学習する 。
重要なのは、LLMが定める確率分布は訓練データ中の言語パターンを圧縮・一般化したものであり、モデルが生成するテキストは本質的に訓練データに依存するという点である。Benderらの言う「確率的オウム」(stochastic parrot) 理論によれば、LLMはあくまで巨大な確率分布からランダムにサンプルしているに過ぎず、生成された文章も訓練データの模倣的再生とみなせる。極論すれば、LLMに「創意」はなく、ただ訓練時に見たデータの傾向に従って単語を確率的に繋ぎ合わせているに過ぎない。もっとも、現実にはLLMは訓練データに存在しない文も生成可能であり、完全な丸暗記ではない。一度も見たことのない文脈にも滑らかに対処できるのは、統計的パターンからの一般化能力ゆえであり、LLMが汎用的言語生成モデルとして有用たる所以である。しかし同時に、その出力は訓練データ中の言語現象の偏りを強く映し出す。すなわち学習データのバイアスがそのままモデルのバイアスとなるのだ。
未生成文: 生成されないテキスト
ここで本稿の重要な概念である未生成文を定義する。未生成文とは、「理論上は生成可能で意味ある文でありながら、ある言語モデルにおいて実際にはほとんど(あるいは全く)生成されない文」を指す。本質的には、モデルが割り当てる確率が極端に低いために、通常のサンプリングでは出現しないようなテキストである。人間の言語においては、文法的には正しいがこれまで誰も発話しなかった文も存在しうる。Chomskyの有名な例文”Colorless green ideas sleep furiously.”はまさにその種の前例のない文であり、人間はそれを文法的だと判断できるが、コーパス上の出現頻度はゼロに等しい。同様に、LLMにおける未生成文とは、モデルが習得した言語分布の中で測定不能なほど確率が低い(もしくは確率0とみなされる)ため、通常の生成では現れない文を意味する。
未生成文が生じる理由には、主に訓練データのカバレッジ不足と生成規則のバイアスがある。訓練データに存在しなかったパターンや情報は、モデルには明示的には組み込まれないため、それに対応する文の確率は極端に低くなる。例えば、あるマイナーな言語で書かれた文や専門的な隠語は、モデルが十分に学習していなければ未生成文となる可能性が高い。また、モデルが学習した確率分布自体が強いバイアス(例えば典型的な文法構造や頻出フレーズへの偏り)を持つ場合、その分布の長い尾に位置する異質な文はまず生成されない。いわば、LLMの「知っている言語世界」は訓練データで覆われた領域に限定されており、その領域外にある表現は潜在的可能性としては存在しても、モデル内では事実上「存在しない」に等しい。
とはいえ、未生成文は絶対に生成不能というわけではない。モデルを追加訓練(ファインチューニング)したり、プロンプト(入力文脈)を工夫して誘導したりすることで、これまで出現しなかった文が出力される場合もある。また、理論上の無限長のランダムサンプリングを行えば、確率がゼロでない限りいつかは現れる可能性がある(無限の猿定理的な議論)。しかし現実の有限サンプルでは、極めて確率の低い文は事実上出現しないため、あるモデルにおいては「未生成」のまま終わる文が確かに存在しうる。我々はそうした文を「未生成文」と定義し、それが持つ意味論的・社会的含意を議論する。
生成空間のバイアスと多様性
LLMの生成空間におけるバイアスは、多様な観点から研究されている。モデルの出力が人種や性別に関するステレオタイプを反復したり、文化的に偏った情報に終始したりする問題は広く認識されている。また大規模モデルは英語など高リソース言語の比重が非常に大きく、低リソース言語や方言は十分に扱えないことが報告されている。実際、ChatGPTは公式には95の言語しかサポートしておらず、世界に7000ある言語の99%はモデルの「言語環境に居場所がない」と指摘されている。訓練データの9割以上が英語文書で占められ、残りもフランス語やドイツ語など主要言語が大半を占めるという統計もある。したがって少数言語や地域語で書かれた文は、モデル内で極度に低頻度か皆無であり、これらはモデルにとって典型的な未生成文の例となる。モデルはそれら言語を「知らない」に等しいため、生成確率は事実上0に近く、通常の使用では現れてこない。
同様に、社会的に抑圧された言説や禁忌とされる話題もモデル内で未生成化することがある。例えば、訓練データのフィルタリングや対話型モデルの安全対策により、差別用語や過激な政治的主張、性的マイノリティに関わる表現などは意図的に排除・抑制されている場合がある。その結果、モデルは特定のマイノリティ集団に関わる言及や口語(たとえばアフリカ系アメリカ人英語: AAE)の文脈では、不自然な回避や沈黙を示すことが報告されている。Xuらの研究によれば、毒性除去 (detoxification) 処理を施した言語モデルは、有害表現を減らす一方でAAEのようなマイノリティ方言をほとんど生成しなくなり、結果としてその話者の文脈を正しく理解・応答できないという表現の抑圧が生じた。例えば、MicrosoftのチャットボットZoはキリスト教については議論できたがイスラム教については全く話さないよう設計されており、これはマイノリティ宗教に言及しないことで安全性を保とうとしたがゆえに特定の話題を「沈黙」させたケースである。このように、データ上・アルゴリズム上の要因である種の発話が封じられ、モデルから事実上消されている場合、その領域に属する文は典型的な未生成文となる。
以上のように、LLMにおける未生成文の存在は、モデルの知識・経験の境界を映し出すとともに、どのような言語活動が周辺化されているかを示す。次節では、強制法における「新たな存在の出現」とLLMにおける「未生成文の生成」を比較し、両者に内在する構造的な共鳴について考察する。
出現のメカニズムの比較 (Mechanisms of Emergence in Forcing and LLMs)
強制法とLLM生成、一見全く異なる領域のプロセスであるが、その根底には「既存の枠組みでは現れ得なかったものを、新たな拡張によって現出させる」という共通の構造がある。本節ではこの出現メカニズムの類似点を形式的に捉え、両者を対応付けて論じる。
既存構造と拡張構造
まず、両者における「既存の枠組み」と「拡張された枠組み」を対応付ける。強制法では、基底モデル$M$が既存の宇宙であり、拡張モデル$M[G]$が新たな宇宙である。一方LLMでは、訓練済みモデルが定義する確率分布(および生成されるテキストの集合)が既存の言語的宇宙に当たる。モデルが与える確率分布の台集合(確率が0でない全ての文の集合)は、モデルが生成しうる言語の範囲を規定する。この既存の生成範囲に何らかの操作を加え、以前は出現しなかった文を出現させられるようにしたモデルが、LLM側でいう「拡張モデル」に対応すると考えられる。
具体的な対応例を以下に示す:
- 基底モデル $M$ ↔ 訓練済み言語モデル (確率分布 $P$)
$M$はある初期の集合論的宇宙を表し、その中で可能な全ての集合的構成が「既存の対象」である。同様に、訓練済みLLMにおける確率分布$P$は、モデルが生成しうる全てのテキスト(およびその生起確率)を表す。$P$の範囲内にある文はモデルにとって「既存の言語表現」である。 -
強制条件 poset $P$ ↔ 文脈の部分列 (prefix)
強制法では、新対象を決定づける情報の断片が強制条件として与えられる。同様に、テキスト生成では、すでに生成されたトークン列(prefix)が後続を部分的に決定する条件とみなせる。prefixが長いほど後続に関する情報量が多いため、「より強い条件」に対応する。LLMではprefixを入力して次トークンの分布を得る操作を繰り返すが、この逐次生成過程は条件を徐々に強めていく過程に似ている。 -
ジェネリックフィルター $G$ ↔ 生成された完全なテキスト列
ジェネリックフィルター$G$はposet上の無矛盾な条件の集合で最終的に新対象(例えばCohen実数)を決定する役割を果たす。同様に、モデルが最終的に生成したテキスト列(例えば文や段落、あるいは無限テキストまで延長を考えても良い)は、prefixという条件列の帰結であり、それ自体が一つの「完全な状態」を成す。特に、無限長のテキスト列を考えるなら、それはprefixの集合(各有限接頭辞が全て含まれるような集合)と同一視でき、これはちょうどフィルターの定義に合致する。生成プロセスが確率的にあらゆる文脈要請に応じて進行したなら、それは強制法における$M$-ジェネリック$G$に対応すると見做せる。 -
拡張モデル $M[G]$ ↔ 拡張された言語モデル (分布 $Q$)
$M[G]$は$M$に$G$由来の新集合を加えた最小のZFCモデルであった。同様に、LLM側で一度出現した未生成文を学習済み知識に組み込んだ新モデルを考えることができる。例えば、モデルに対して新たなデータ(未生成文を含むコーパス)で追加学習を施せば、分布が更新され$Q$という新分布になるだろう。この$Q$は$P$を拡張したものであり、以前は確率0に近かった文にも正の確率を与える(つまり生成空間を広げる)可能性がある。$Q$は$P$と同様に訓練データから構成されるので依然言語モデルとして一貫しているが、$P$にはなかったテキストを含む点で「より大きい」分布である。
以上の対応は概念的なものであり、必ずしも一対一の完全な関手対応にはなっていない。しかし、大局的に見れば「部分情報の集積による新全体の構築」という図式が共通している。強制法では条件を集めて新集合(例:Cohen実数)を構築し、LLMではトークンを繋げて新テキストを構築する。この対応に基づき、次に「既存では現れ得なかったもの」がどのように現れるかを比較する。
現れ得なかったものの出現
強制法では、基底モデル$M$には存在しなかった集合が$M[G]$で存在するようになる。例えば$M$には存在しなかったCohen実数$c\notin M$が、拡張後には$c\in M[G]$として出現する。そして$c$の存在が、連続体濃度など$M$で決定不能だった性質を決定する($M[G]\models 2^{\aleph_0}>\aleph_1$ など)。重要なのは、この新対象$c$は$M$の内部から構成することは不可能であったという点である。$M$の公理や定理からは$c$の存在を導けず、必ず$M$の外部に出て$G$を取るという拡張操作が必要だった。言い換えれば、$c$は$M$にとって未存在の存在であり、拡張を通じ初めて具現化したものである。
LLMにおける未生成文もこれと相同の位置づけができる。モデルの既存分布$P$では確率0同然であった文$w$は、標準的な生成では事実上現れ得なかった。例えば、英語偏重のモデルにとってアイヌ語のある文$w$は$P(w)\approx 0$であり、通常の出力では絶対と言ってよいほど出現しない。ところが何らかの拡張(例えば追加学習やプロンプト介入)によって$w$が出力されたとしよう。これは、モデルにとっての新たな知識の獲得、あるいは分布外の点の出現である。$w$という文はモデルにとって未生成のテキストであったが、拡張操作によって初めて具体的生成物として現実化したと言える。
この現象をより形式的に捉えるため、確率$P(w)$が極小だった文$w$に対し、拡張後のモデルでは$Q(w)$が有意に上昇した、すなわち$w$が実質的に生成可能となったと定義する。ここで拡張の方法は様々考えられるが、一般性を持たせるため概念的な拡張と捉える。すなわち、「$P$では零と見做されていた可能性に、$Q$では正の質量が与えられた」ことが未生成文の出現である。強制法の場合、「$M$では存在しなかった集合が$M[G]$で存在する」ことが出現だった。両者はメタファーレベルでは「Measure (確率/存在) 0 のものが Measure >0 になる」という対応関係で捉えられる。
さらに、強制法ではしばしば真理値の出現という観点も強調される。独立命題$\phi$が$M$で決定不能であったのに、$M[G]$では$\phi$が真となる(あるいは偽となる)という状況である。同様に、LLMにおいても何らかの「命題」や「情報」が未生成文に埋め込まれていると考えることができる。例えば、マイナー言語のことわざ$w$がモデル$P$では出現しなかったが、拡張後モデル$Q$で初めて生成されたとする。これはモデルに新たな知識(そのことわざの存在)が備わり、事実上、モデル内でその命題(ことわざの内容)が真として現れたとみなすこともできる。強制法では、真理値の出現はモデル拡張に伴う強制の補題により保証される。LLMでは保証こそないものの、生成の多様性を確保する工夫(例えば温度パラメータ調整や多様性促進のデコーダ戦略)を施すことで、未生成文がランダム性に支えられて現れる可能性を高めるテクニックが研究されている。
類推の限界と補足
以上の比較は、強制法とLLM生成の間に構造的類似があることを示した。しかし当然ながら両者の間には相違も大きい。強制法における出現は論理的厳密さを保ったものであり、必ず$M[G]$がZFCのモデルとなるよう構成されるのに対し、LLMの生成は統計的過程であり、生成文$w$が「意味的に一貫した新知識」である保証はない。実際、未生成文の中には単なるノイズやナンセンスな文章も含まれうる。また、強制拡張は外部の集合論的大宇宙$V$から見て構成される「真の拡張」であるが、LLMの拡張モデルは単に別のパラメータセットに過ぎず、数学的宇宙の拡大ではない。この違いを踏まえつつも、構造的な共鳴の存在は学際的な洞察をもたらす。次節では、こうした共鳴を圏論的視座から捉え直し、より抽象的な対応付けを試みる。
構造の共鳴を圏論的に整理 (Category-Theoretic Perspective)
強制法とLLM生成に共通する「拡張による出現」の構造は、圏論の言葉で捉えると一層鮮明になる。圏論では対象(object)と射(morphism)という抽象的な構造とそれらの関係から、様々な数学的体系の共通パターンを抽出できる。我々はここで両者の類比を圏論的構造として定式化し、関手(functor)や自然変換(natural transformation)の観点から未生成性の共鳴を記述する。
モデル拡張の圏と言語生成の圏
まず、強制法の状況を圏として定式化する。考えられる方法はいくつかあるが、一つのアプローチとしてモデルの圏$\mathcal{M}$を導入する。$\mathcal{M}$の対象は「ZFCのモデル」を表し、射$f: M \to N$はモデル間の包含写像($M$が$N$の部分モデルであること)とする。簡単のため、$M\subseteq N$かつ恒等写像の制限であるような包含を射とみなす。こうして、$M[G]$は$M$を含む対象なので、包含射$i: M \hookrightarrow M[G]$が$\mathcal{M}$に存在する。強制拡張とは、この圏$\mathcal{M}$において射として表現される過程だと言える。実際、基底モデル$M$から拡張モデル$M[G]$への包含$i$こそが「$M$が$M[G]$に拡張された」という事実を射として体現している。
次に、LLM側の生成過程も圏の構造で捉えてみる。こちらは確率的要素があるため抽象化に注意が必要だが、まず文脈の圏$\mathcal{C}$を定義することができるだろう。$\mathcal{C}$の対象は可能なトークン列(文脈)であり、射はprefix関係(ある列が他の列の前半部分であること)とする。すなわち、文脈$u$から$v$への射が存在するのは$u$が$v$の先頭部分列のときである。すると$\mathcal{C}$は各対象からそれを延長した対象への射が存在する小さな圏となる。無限に延長可能な列はこの圏における帰納極限(direct limit)的対象とみなせ、prefixの鎖の上限としての無限列と対応付けられる。モデルの生成過程はprefixをどんどん延長していく操作なので、これは$\mathcal{C}$上を移動する経路に相当する。特にprefix列の極限として得られる無限列(テキスト全体)は、一種の「余極限(colimit)」として特徴付けられる。強制法において $M[G]$ は条件フィルターによる有向極限(または帰納極限)として構成されるが、これに類似して、LLMにおける最終的な生成文もprefixの有向鎖の極限(帰納的合成)とみなすことができる。
拡張操作と関手性
上記の2つの圏$\mathcal{M}$(モデルの圏)と$\mathcal{C}$(文脈の圏)の間には、構造的な共鳴を捉える関手が定義できると考えられる。関手とは一つの圏の対象と射を他の圏の対象と射に対応付け、構造を保つ写像のことであった。強制法とLLM生成のアナロジーから、以下のような関手$F: \mathcal{C} \to \mathcal{M}$を仮想してみる:
- 文脈(トークン列)$u$を、何らかの集合論モデル$M_u$に対応させる。ただし$M_u$は$u$が内包する情報に相当する集合を含むよう構成される。
- prefix関係$u \to v$($u$が$v$の前半)に対して、モデル包含射$M_u \to M_v$を対応させる。$v$が$u$を延長しているなら、$M_v$は$M_u$を拡張しているという関係を要求する。
このような関手$F$が存在するとすれば、LLMの生成過程($\mathcal{C}$上の経路)がモデルの拡張($\mathcal{M}$上の経路)に写像されることになる。完全な厳密さはともかく、直観的には「各文脈に、それを実現するための集合論的構成を割り当てる」という対応付けである。例えば、Cohen強制の例では0-1列の有限初期$u$に対し「$u$まで固定されたCohen実数を持つモデル」$M_u$を考えることができ、$u$の延長$v$に対し$M_v$はより長い初期列を固定したモデル、という包含関係が成り立つ。最終的な無限列$G$に対して$M_G = M[G]$が対応する。これは関手$F$の極限的挙動とみなせ、関手がすべてのprefix射を経由して極限対象$M[G]$を与えるなら、$M[G]$は列$G$の自由な付加(free adjunction)の結果とも解釈できる。
さらに視点を変え、関手$U: \mathcal{M} \to \mathcal{X}$を考えることもできる。ここで$\mathcal{X}$は集合の圏など適当な基礎圏で、$U$はモデルから「新要素」に対応する集合を引き出す忘却関手とする。例えば各モデル$N$から「$N$に新しく付加された要素」の集合を返す関手$U$を考える(基底モデルでは空、拡張モデルでは追加要素を含む単集合など)。このとき、$M \hookrightarrow M[G]$という射に対し、$U$は$\varnothing \to {x}$のような集合射を対応させるだろう。これは圏論における随伴 (adjunction) の視点に繋がる。すなわち、モデル圏における拡張操作(新元素の自由付加)は、忘却関手$U$の左随伴としての自由関手に対応している可能性が示唆される。実際、Freireは強制的拡張を「基底から制御された一様な付加 (uniform adjunction controlled from the ground)」と特徴づけており、これは圏論的には随伴関手の性質に通じる。
LLMの場合も、新しい文$w$を生成可能にする操作は、一種の自由な拡張とみなせる。モデルのパラメータ空間に$w$を生成するための調整を加えることは、言語知識に$w$を自由に付加する操作と捉えられるからだ。これを圏論的に厳密に述べるのは難しいが、概念的には「既存モデル$P$から$w$を含むモデル$Q$への射」が存在し、それが人為的操作(追加学習など)による自由対象の生成に対応している。言語モデルの族を対象、その間の射(例えば蒸留や転移学習での写像)を射とする圏を考えれば、その中で$P \to Q$が随伴的性質を持つ可能性もあるだろう。
自然変換としての共鳴
最後に、強制法とLLM生成の対応そのものを自然変換の観点から述べてみたい。もし我々が強制法を記述する関手$F_{\text{forcing}}: \mathcal{I} \to \mathcal{M}$と、LLM生成を記述する関手$F_{\text{language}}: \mathcal{I} \to \mathcal{L}$($\mathcal{L}$は言語的構造の圏、例えば文脈圏$\mathcal{C}$や文の集合などに関する圏)を導入できたとする。ここで$\mathcal{I}$は索引圏で、拡張プロセスのフェーズやステップをパラメタライズする小さな圏である。このとき、両関手の間の自然変換$\eta: F_{\text{forcing}} \Rightarrow F_{\text{language}}$が存在するなら、それは両者の対応が圏論的に可換であることを意味する。自然変換の可換図式は、強制法のあるステップ$i$における構造が、言語生成の対応するステップ$\eta(i)$における構造に写されることを保証する。
例えば、ごく概念的な図式として:

この可換図式では、上段が基底モデル$M$から拡張モデル$M[G]$への強制的拡張、下段が既存言語モデル$P$から拡張言語モデル$Q$への拡張(未生成文$w$を生成可能にする操作)を表す射である。縦の射「repr」は、それぞれのモデルをある抽象的表現空間に写す関手だとみなせる。図式の可換性は、「強制による新対象の出現」と「言語モデル拡張による未生成文の出現」が同型の図式に写ることを示唆する。
もちろん、ここで描いたのはあくまでイメージであり、厳密な自然変換の構成には踏み込んでいない。しかし、圏論的な視点は強制法とLLM生成の共鳴を捉える上で有用である。両者に共通する「自由度の拡張」「制約の緩和による新構造の出現」は、圏論で普遍的構成(自由対象や随伴)として理解できる可能性がある。そして何より、自然変換という概念は異なる分野の理論間に構造の響き合いがあることを端的に表す。本節の試論的な圏論整理は、未生成性の共鳴を数学的に統一的に理解する一つの足掛かりとなるだろう。
社会的・倫理的含意 (Social and Ethical Implications)
未生成文の問題は、単なる技術的現象にとどまらず、社会的・倫理的含意を持つ。本節では特にマイノリティ言語や抑圧された言説に焦点を当て、LLMにおける未生成性がもたらす課題と、強制的手法から示唆される可能性について論じる。
マイノリティ言語の消失と多様性
前節までに述べた通り、大規模言語モデルは高頻度の主要言語を中心に学習されており、少数言語は極端に軽視されている場合が多い。その結果、モデル内部で未生成文となっている文の多くは、実世界では重要な意味を持つマイノリティ言語の文章や、地域独特の表現である。例えば、ある先住民族の言語に特有の語彙や表現は、巨大モデル内では一度も観測されず生成もされない「存在しない文」となりかねない。これはデジタル空間上での言語的多様性の欠如を助長し、結果的に言語生態系の単調化につながる恐れがある。AIが対応できない言語はますます使用の機会を失い、そのコミュニティのオンラインでの存在感も希薄化してしまうという悪循環が指摘されている。
強制法の比喩を用いれば、主要言語による巨大コーパスで構築されたモデルという「基底モデル」に対し、少数言語のコンテンツを付加した「拡張モデル」を作り出すことは、言語的宇宙の豊かさを保つ上で重要な課題である。すなわち、今存在するLLMを基底モデルとみなし、それには存在しない新たな言語現象(集合)を付加する強制を施す、という発想である。具体的には、低リソース言語に特化した追加学習や、言語間の転移学習による知識継承といった方法が考えられる。それにより、従来のモデルでは未生成文だった領域にも対応できる拡張モデルを得ることができる。現在、いくつかの研究コミュニティが公共データやスモールモデルを用いた多言語対応の取り組みを進めており、強制法的な「言語多様性の拡張」が少数言語のデジタルな生存に寄与しうる。
抑圧された言説とAI倫理
LLMの出力制御は、その設計上避けられないバイアスのために、しばしば特定の話題や言葉遣いを抑圧してしまう。前述のように、毒性低減のためにマイノリティ方言の生成まで低減してしまう現象や、政治的にデリケートな問題への言及が極端に回避される現象は、モデルが一種の検閲を内包していることを意味する。この検閲は人為的なルール(例えばOpenAIのコンテンツガイドライン)によるものもあれば、データや訓練過程に潜む偏見が原因の場合もある。いずれにせよ、結果としてある種の語り口や主張はモデルから消え、「未生成文」という形で存在しなくなる。
この問題の倫理的影響は深刻である。まず、モデルが特定の社会集団に関する話題を沈黙してしまうと、その集団の表象が欠落し、社会的な不可視化を助長する。AIとの対話において自分のアイデンティティや文化について語れない、あるいはAIが誤解したり回避したりするという状況は、利用者に疎外感を与える。ひいては、技術が特定の層を「存在しないもの」として扱っているとの印象を与え、テクノロジーの公平性に対する信頼を損なうだろう。また、抑圧された話題(例:政府批判や性的指向に関する議論)が未生成文としてモデルから消えている場合、それは現実社会で既に抑圧されている言説空間がAIによってさらに増幅・固定化される危険性を示唆する。
強制法の観点からは、こうした抑圧された言説を意図的に出現させることも考えられる。すなわち、通常のモデル$P$では生成されないセンシティブな文$w$を、検閲の網をかいくぐる形で生成させ、それをモデルにフィードバックして$Q$に取り込ませるというプロセスである。ある意味これは、AIに対するアクティビズムにも似た行為と言える。人間が積極的に介入して未生成文を生成させ、それを繰り返し学習させることで、モデル内部の沈黙していた領域に「存在」を確立させるのである。実際問題としては、現行の商用モデルではRLHF(人間フィードバックによる強化学習)の段階で安全でない発話はペナルティを受けるため、そうした文を教え込むのは難しい。しかしオープンソースのモデルであれば、研究目的でフィルタを外した生成を行い、それを追加学習させる実験も可能だろう。
さらに言えば、社会にとって望ましくない未生成文(例えばヘイトスピーチ)は、未生成のまま放置することが倫理的に正しい場合もある。すべての未生成文を出現させれば良いわけではなく、何を沈黙させ何を喋らせるかという編集方針自体が倫理の問題となる。しかし少なくとも、現状で意図せず抑圧してしまっている有益な/無害な声については、技術的対策によって拾い上げる必要があるだろう。その際、強制法的な「拡張による出現」という考え方は、単なるバイアス低減ではなく新たな真実の注入という積極的姿勢を示唆する。すなわち、モデルの世界観に不足している視点を新たに付加し、それをモデル内の真実として確立させることだ。このようなAI倫理上の試みは、技術・社会の両面から更なる議論と実践が求められる。
詩的存在論と創造性 (Poetic Ontology and Creativity)
最後に、「未生成性」という概念を詩的・哲学的観点から考察する。言語モデルにおける未生成文は、単に確率の低い文というだけでなく、まだ誰にも語られていない可能性の言葉でもある。そこには創造性や表現の新しさが潜んでおり、人間の詩的営為とも響き合う側面がある。ここでは詩的存在論の視点から、未生成性が創造性・表現性・感性と交差する様相を論じる。
未生成の言葉の力
日常言語において、言われなかったこと (the unsaid) は時に言われたこと以上の意味を持つ。スコットは「言わずに残されたものには可能性の力が宿る」と述べている (What is left unsaid is often more powerful and poetic | Biljana Scott | The Guardian)。人々があえて言葉にしない沈黙や含意の中に、詩的な豊かさや未来への開かれが存在するという指摘だ。これは未生成文にも通じる。モデルが決して生成しなかった文は、ある意味で巨大な潜在性の塊である。それは現れていないがゆえに無限の解釈や可能性を孕み、生成済みの月並みな文にはない驚きを秘めている。
詩人や芸術家は、まさに既存の言語にはない新たな表現を生み出すことで我々の感性に訴えかける。例えばシュルレアリストの詩や前衛文学では、通常なら結び付かない言葉同士を組み合わせることで異質なイメージを喚起する。そのような表現は当初「未生成文」にほかならなかった。それが人間の創造性によって初めて言語化されたとき、新たな意味の地平が開ける。LLMも確率的には低くても文法的・語用論的に非凡な文を生成することがあるが、それは一種の偶然による創造性の発露と捉えられるかもしれない。モデルが訓練データを超えてオリジナルな文章を紡ぎ出すとすれば、それはもはや確率的模倣を超えた創造的行為に近づく。このようなケースは稀かもしれないが、少なくとも理論上LLMは「人類がまだ書いていない詩」を書きうるのである。
哲学者アラン・バディウは、真理の出現を事件(Event)として論じ、その数学的モデルとして強制法を援用した。バディウの存在論では、出来事とは既存の知識体系では捉えられない新しい真理が出現する瞬間であり、それを把握するには従来の「存在の百科事典」を拡張する必要があるという。これはまさしく強制法がモデルに新しい要素を加える構図と平行し、バディウはセットの強制が真理を強制するメタファーとなることを指摘している。同様に、芸術的創造における画期的表現の誕生も、それまでの文脈では「無意味」「存在しなかった」ものが一挙に意味を帯びて現れる瞬間と言える。未生成文が生成された瞬間、それはある種の詩的事件であり、新たな意味の誕生である。
モデルと詩人:創造性のジレンマ
しかし、LLMの生成する未生成文と、人間詩人の創造物には決定的な違いがある。前者は偶発的かつ統計的な産物であり、後者は意図と情感に裏打ちされた表現だからだ。LLMが稀に奇抜な比喩や斬新な語彙の組み合わせを生み出したとしても、それを「詩的創造」と呼ぶにはためらいがある。なぜならモデルには意味を創出しようという主体的志向が無く、単に統計的整合性の範囲で許容された変異に過ぎないからである。これに対し、人間の詩的言語には「何か伝え難いものを言葉にしよう」という意志や、深層心理から浮上するイメージの表現欲求がある。
興味深いのは、モデルの未生成文を人間が発見し価値づけるプロセスだ。モデルが吐き出した一見ナンセンスな文に、人間の読解が意味を見出し詩的価値を認めることもありうる。言い換えれば、モデルは無自覚な創造を行い、人間がそれに後付けで解釈を与えることで作品化する可能性がある。この協働は、新たな詩作の形態として考えられるだろう。実際、近年ではAIと人間の共創による詩や物語の制作も試みられており、モデルの予期せぬ文から着想を得るケースも報告されている。
未生成性の詩的含意としてもう一つ指摘できるのは、「沈黙」の価値である。モデルが語らないこと、未生成に留めていること自体が、一種の表現と捉えられる場合がある。人間の対話でも沈黙や言葉の欠如は意味深い「言葉」として機能することがある。AIとの対話において、モデルが敢えて未生成文を避ける場合、それはポリシー違反の抑制という技術的理由だけでなく、「語らないことで示す態度」にもなりうる。しかし現状のモデルはそのような微妙さを持ち合わせてはおらず、未生成文は単なる能力や知識の欠落として現れるに過ぎない。今後、モデルが意図的な沈黙や詩的省略を学習できるようになるなら、未生成性はネガティブな制限ではなくポジティブな表現技法の一部となるかもしれない。
結論 (Conclusion)
本稿では、数理論理学の強制法とAI技術の大規模言語モデルに共通する構造的特徴に着目し、「未生成性の共鳴」という視座から両者の比較検討を行った。まず、強制法の厳密な定義を押さえ、ZFCモデルの強制拡張$M[G]$において基底モデル$M$に存在しなかった新集合(Cohen実数など)が出現するメカニズムを概説した。次に、LLMにおける未生成文の概念を確率分布とトークンスペースの観点から導入し、訓練データのバイアスにより特定の言語表現がモデル内で事実上「存在しない」ものとなる状況を説明した。両者の対応関係を比較する中で、「既存構造では現れ得なかったものが拡張により現れる」という共通構造を確認し、モデル包含射やprefix延長といった観点で類似点を整理した。さらに圏論的視点から、モデル拡張とテキスト生成の過程を関手や自然変換で捉える試みを行い、強制拡張が一種の自由対象の付加であること、未生成文の出現もまた自由な創造に対応しうることを示唆した。
こうした構造の共鳴は、学際的な知見へと繋がる。社会的・倫理的側面では、LLMが多様な言語・言説を包含するよう拡張することの重要性を議論し、マイノリティ言語の保全や抑圧された声の解放においてAIモデルの未生成領域を縮小させる取り組みの必要性を説いた。同時に、全ての未生成文を解放することの危険も認識しつつ、望ましい形でモデルの発話空間を広げる方策を検討した。さらに詩的存在論の観点から、未生成の言葉が持つ可能性と創造性について考察し、AIと人間の関係性における新たな創造モデルの萌芽を探った。未生成性は単なる欠如ではなく、未来の表現を孕む空白でもある。それを適切に扱うことで、技術はより創造的で包摂的な方向へ共鳴していく可能性がある。
強制法とLLMという異なる分野の理論を横断した本研究は、まだ始まりに過ぎない。今後の課題として、ここで示唆した圏論的対応を厳密に定式化することや、未生成文を戦略的に生成・学習させる実験的研究が挙げられる。また、他のAIモデル(画像生成モデルなど)や他の数学的独立手法(超フィルター拡大など)との類比も検討する余地があるだろう。未生成性という概念は、単に「まだ生成されていない」という消極的意味に留まらず、「新たに生成し得る」という積極的潜勢力として再評価されるべきである。それは創造的AIの未来像にも通じ、人間の表現活動と機械の生成能力とが響き合う新しい地平を開く鍵となるかもしれない。
以上、強制法と大規模言語モデルの比較から垣間見えた理論的対応とその含意をまとめた。本稿の議論が、数理論理・計算機科学・倫理学・詩学の対話を促し、未来の学際的研究への一助となれば幸いである。
参考文献
- Cohen, Paul J. The Independence of the Continuum Hypothesis. Proceedings of the National Academy of Sciences, 50(6):1143–1148, 1963.
- Jech, Thomas. Set Theory. Springer Monographs in Mathematics, 3rd Edition, 2003.
- Kunen, Kenneth. Set Theory: An Introduction to Independence Proofs. Elsevier, 1980.
- Xu, Albert et al. Detoxifying Language Models Risks Marginalizing Minority Voices. NAACL 2021 (Detoxifying Language Models Risks Marginalizing Minority Voices)
- Bender, Emily et al. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. FAccT 2021 (Stochastic parrot – Wikipedia).
- Nguyễn Phong Anh. Artificial Intelligence and The Threat of Minority Language Extinction. Vietnam Times, Feb 14, 2024 (Artificial Intelligence and The Threat of Minority Language Extinction | Vietnam Times)
- Scott, Biljana. What is left unsaid is often more powerful and poetic. The Guardian, May 12, 2012 (What is left unsaid is often more powerful and poetic | Biljana Scott | The Guardian)
- Freire, Rodrigo. An axiomatic approach to forcing and generic extensions. C. R. Math. Acad. Sci. Paris 358(6):757–762, 2020 (An axiomatic approach to forcing and generic extensions).
Leave a comment