大規模言語モデル(LLM)は、情報が依然として関連性を持っている場合でも、特定の閾値を超えると壊滅的な性能低下を示すと、オープンソースのAIモデルであるQwenを使った実験で判明しました。
「チャットが長くなってきたら新しいチャットで始めよう」という経験則、皆さんもありませんか?
実はこれ、ちゃんとした根拠があったことが2026年1月に公開された論文で明らかになりました。LLM(大規模言語モデル)には「コンテキスト長の崖」が存在し、ある閾値を超えると性能が急激に低下するというのです。
LLMが性能低下を起こす閾値は、最大コンテキスト長の40~50%と特定されています。つまり、100,000トークンを処理できるAIなら、チャットの長さが40,000~50,000トークンを超えると著しい性能低下を起こすという事ですね。
この研究ではQwenを使っていますが、GPTやClaudeなど、他のLLMでも同じことが起きるのか気になります。
使いやすさと利用量(トークン)の節約のため、1つのチャットが長くなり過ぎないように気を付けている方は少なくないと思いますが、これはAIの性能面でも意味のある対応なんですね。
関連記事