LLM のような人工知能は、感傷的ではありません。彼らは膨大なデータベースから訓練されています。最もよく知られているLLMであるChatGPT、Deepseek、Geminiは、この条件付けのおかげで膨大な情報を蓄積します。多言語条件付けですが、言語が大部分を占める傾向がある言語は英語です。
包括的なAIは、話す言語に依存します。「今日の主要モデルは英語やその他の主要な言語を大いに支持しています」と、Global Center on AI Governanceの創設者であるレイチェル・アダムス氏は『The Conversation』で説明しています。LLMは、利用できる知識だけに頼って、依頼された有名なプロンプトに対応することができます。未知の言語、あるいはデジタルニューロンにほとんど記載されていない言語は、したがってほとんどエコーを見つけません。
インターネット全体はこの非対称性を完璧に反映しています。ウィキペディアはこれの最も明白な例です。有名なデジタル百科事典の各ページでは、「主要言語が最も豊かで重要な内容を持つだろう」と、フランス開発庁(AFD)のイノベーション部門長であるアレクシス・フレモー氏は述べています。彼は、これらの言語における資源の遍在が「増幅現象」を引き起こすと付け加えた。しかし、最も資源が多い場所は、AIが学習のために最も多くのコンテンツを引き出す場所でもあります。
アフリカの言語はデジタル領域では実質的に目に見えません。「これは既存の不平等や害を助長するだけでなく、AIベースのサービスへのアクセスが数百万人から排除される危険性もあります」とレイチェル・アダムスは述べています。何千もの言語や方言が豊富に存在するアフリカ諸国、特にサハラ以南のアフリカ諸国は、様々な要因により、チャットボットの応答においてしばしば姿が見えなくなっています。これらのAIのデータベースに言語がない人々が、西側と中国が成長に賭けている新しいツールの潜在能力を最大限に引き出すことは不可能です。
2025年に発表された研究は、アフリカ諸語の主要な言語モデルの質に疑問を呈しています。研究対象となったLLMはすべて最適化された参照モデルに劣っていること、そして英語と比較して有意な性能差が際立っていることを示しています。本研究論文は64言語のみを対象としています。ユネスコによると、アフリカは1,500から3,000の間です。
「アフリカは世界人口の約20%を占めていますが、AIトレーニングデータの1%未満です」とヤスミン・アブディラヒは2026年1月に『ル・モンド』のコラムで嘆いた。言語だけにとどまらず、観察が広がる。しばしばデザイナーの文化的論理に考えられ、影響を受けるAIは、支配的でない文化に関する知識が極めて限られています。