model-collapse

LLM が自身の生成出力で学習・参照を続けることで、分布の裾が失われ情報が劣化していく現象。Nature 2024 (Shumailov et al.) で命名・分析された。

hn-karpathy-llm-wikidevnullbrainllm-wiki への主要懸念として挙げた論点。

llm-wiki における懸念

  • wiki/ のページは LLM が繰り返し書き換える。新しい ingest のたびに既存ページに差分追記・再構成が入る
  • この「LLM が自分の出力を読んでさらに書き換える」ループが本質的に model collapse の構図に近い
  • 典型的な症状: 有効情報の平板化、例の具体性喪失、比喩・ニュアンスの消失、ページ間の同質化

緩和策

本 wiki の設計で既に採用しているもの

  • raw/ の不変性: 原典は常に元の形で参照可能。wiki/ ページが劣化しても戻れる
  • sources: frontmatter: 各 wiki ページから raw/ への traceability
  • wikilink の手書き: LLM 生成だが人間がレビューできる粒度に留める

rohitg00-v2-gist が提案する追加対策

  • Confidence scoring: 弱い claim が強い claim と混じらないようマーク
  • Supersession: 書き換えではなく旧版保持で新版を重ねる(version control for knowledge)
  • Quality scoring: 生成コンテンツが基準未満ならフラグ・再生成

運用上のガードレール

  • ページの核となる段落は人間がレビューし、LLM の再書き換え対象から保護する(コメントで明示)
  • 定期 lint で同質化(ページ間の表現が似すぎ)を検出
  • 重要 claim は原文引用を残す(> quote 形式)

関連ページ