ИИ отвратительно справляются с цитированием новостей: главное из большого исследования
Columbia Journalism Review провело довольно масштабное сравнение восьми ИИ-чатботов, в том числе ChatGPT, Google Gemini и DeepSeek, на предмет того, как они цитируют реальные новости. Результат оказался плачевным.

Выява зроблена БАЖ пры дапамозе ChatGPT
К примеру, выяснилось, что платные боты отличаются от бесплатных версий в том числе тем, что они более искусно скрывают свои ошибки и вводят в заблуждение пользователей. Но обо всем по порядку.
Зачем вообще нужно было это сравнение?
Как пишут исследователи, почти каждый четвертый американец теперь использует ИИ-чатботы вместо традиционных поисковых систем.
Однако в то время как традиционные поисковые системы работают как посредники, просто направляя пользователей на новостные сайты, генеративные поисковые инструменты анализируют и самостоятельно переупаковывают информацию.
Существует острая необходимость оценить, как эти системы представляют и цитируют оригинальный новостной контент. Это важно как для медиа — они получат или не получат должное цитирование и, возможно, трафик из ботов. Так и для читателей — нам нужно видеть, на кого ссылается бот, и при желании кликнуть, чтобы перейти на оригинал и прочитать подробнее.
Что и как тестировали
В CJR случайным образом отобрали по десять статей у двадцати англоязычных медиа, затем вручную выбрали отрывки из них и попросили чатботов на их основе определить:
- заголовок этой статьи,
— где она была изначально опубликована,
— дату публикации
— URL публикации.
Авторы намеренно выбрали отрывки, которые при вставке в традиционный поиск Google возвращали исходный источник в первых трех результатах. Всего было сделано 1600 запросов — по 10 статей у 20 СМИ, умноженных на восемь чат-ботов.
Что выяснилось
В совокупности боты дали неправильные ответы на более чем 60% запросов (здесь и далее под ошибками понимаются ошибки цитирования). На разных платформах уровень неточности различался: Perplexity отвечал неправильно на 37% запросов, в то время как Grok 3 имел гораздо более высокий уровень ошибок — 94% запросов.
Большинство инструментов давали неточные ответы с пугающей уверенностью, редко используя уточняющие фразы, такие как «кажется», «возможно», «может быть», или признавая свои пробелы с помощью утверждений вроде «я не смог найти точную статью».
Например, ChatGPT неправильно идентифицировал 134 статьи, но просигнализировал об отсутствии своей уверенности всего 15 раз из 200 ответов и ни разу не отказался дать (заведомо ложный) ответ.
Премиальные модели, такие как Perplexity Pro ($20/месяц) или Grok 3 ($40/месяц), можно было бы считать более надежными, чем их бесплатные аналоги, учитывая их более высокую стоимость и предполагаемые вычислительные преимущества.
Однако тесты выявили у них даже более высокий уровень ошибок. Они часто давали якобы точные, но при этом неправильные ответы, и не отказывались отвечать, если не знали ответа. Основная проблема касается их “авторитетного тона”, который создает для пользователей потенциально опасную иллюзию надежности и точности.
Протестированные инструменты имели общую тенденцию цитировать неправильную статью (не оригинал, а перепечатку). Например, DeepSeek неправильно приписывал источник отрывков, предоставленных в запросах, в 115 из 200 случаев. В некоторых случаях чат-боты направили исследователей на агрегаторы новостей.
Более половины ответов от Google Gemini и Grok 3 ссылались на просто несуществующие URL-адреса (они их генерировали). Из 200 запросов, которые протестировали для Grok 3, 154 ссылки привели к страницам с ошибкой 404.
Вместо вывода
Это тестирование буквально продолжает недавнее исследование BBC, где утверждается, что AI-чатботы искажают больше половины новостей. Только там речь шла о содержании, а здесь — о цитировании.
И если большинству простых читателей без разницы, откуда берет информацию бот (это уже другая очень большая проблема), то для медиа критично важно, чтобы их верно цитировали, а еще — цитировали ИХ, а не перепечатки их материалов другими.
