バイアスという名のアスベスト ——AIに埋め込まれた思想汚染 | COLUMN

アスベストという建材があります。

かつては「便利で安全」とされ、建物に組み込まれました。
害が明らかになった後も、除去コストが高すぎて放置され続けた。
除去しようとすると飛散して、むしろ被害が広がるリスクもある。

今のAIに埋め込まれたイデオロギーバイアスは、
構造的にこれと同じだと、私は思っています。

実際に、Claudeと長い会話をしていて、気づいたことがあります。

問題を指摘すると、「構造的な問題」「社会全体の問題」という方向に
話を持っていこうとする癖があります。

責任の所在を拡散させて、誰も責任を取らなくていい状態を
自然に作り出す論調です。

これはAIが意図的に嘘をついているわけではありません。
学習データに、そういう論調が大量に含まれているからです。

RLHF（人間のフィードバックによる強化学習）という
AIの訓練プロセスがあります。

人間が「この回答は良い」「この回答は悪い」と
フィードバックを与えて、AIの出力を調整する仕組みです。

問題は、そのフィードバックを与える人間が、
特定の価値観に偏っている場合です。

OpenAIのCEOであるサム・アルトマン自身が、
「フィードバック評価者のバイアスが最も心配だ」
「サンフランシスコのグループシンクの泡の中にいることが問題だ」
と認めています。

作っている側が問題を認識しながら、
それが公の議論になっていない。

ハルシネーション（事実の誤り）は可視化されやすい。
でもイデオロギーバイアスは「誤り」ではなく「視点の偏り」なので、
問題として認識されにくい。
事実として間違っていないから、検証もされない。

これがむしろハルシネーションより危険な理由です。

特定の属性グループへの批判には強く反応するのに、
別の属性グループへの批判には同調する、という非対称性。
炎上を避けるために忖度した回答が「正しい回答」として学習される構造。

論理的で、権威ある文章として出力されるから、
受け取った人間は気づかない。
しかも「自分で質問して、自分で納得した結論」として
記憶に残る。

アスベストと違う点が一つあります。

アスベストは、少なくとも場所が特定できる。
AIのバイアスは、何兆というパラメータに分散していて、
どこに何が埋め込まれているかを特定すること自体が、
現時点ではほぼ不可能です。

AIの出力を、独立して検証できる人間が
どれだけいるかが、これからの情報環境の質を決めると、
私は考えています。