Цитаты Франкенштейна: как ИИ подрывает академическую честность
Феномен, который в экспертной среде получил название «галлюцинации уверенности», «фантомные ссылки» или «цитаты Франкенштейна», рискует стать одной из самых больших опасностей XXI века для академической науки и образования в глобальном масштабе. Он был спровоцирован широким внедрением больших языковых моделей (LLM) в практические исследования и выражается в следующем: нейросеть генерирует библиографические ссылки на никогда не существовавшие труды, вставляет цитаты выдуманных людей и оперирует цифрами, не имеющими ничего общего с реальностью.
Известные прецеденты
В 2022–2026 годах зафиксированы случаи проникновения сфабрикованных ИИ источников в судебные документы, рецензируемые журналы и массмедиа. Рассмотрим четыре задокументированных кейса, позволяющих оценить масштаб угрозы.
Еще до массового распространения ChatGPT, в ноябре 2022 года, профессор Университета Фурмана (Южная Каролина) Даррен Хикс опубликовал в своем академическом блоге запись, ставшую вирусной. Его студент сдал эссе о «парадоксе ужаса» Дэвида Юма. Текст эссе был логичным и стилистически грамотным, однако ни авторы цитат, ни публикации не обнаруживались ни в одной базе данных. Расследование показало, что студент использовал ИИ-инструмент, который сфабриковал и эссе, убедительно вписав галлюцинации в дискурс. Публикация Хикса стала одним из первых систематических описаний проблемы «галлюцинируемой библиографии» и побудила преподавателей по всему миру ввести обязательную верификацию источников в студенческих работах.
В 2023 году в судебном разбирательстве Mata v. Avianca Airlines адвокат Стивен Шварц, представляя интересы истца в федеральном суде Южного округа Нью-Йорка, приобщил к материалам юридический меморандум, содержащий ссылки на шесть судебных прецедентов. Все они выглядели релевантными и были оформлены по стандарту Bluebook. Однако судья Кевин Кастель не смог обнаружить ни одного из упомянутых дел в правовых базах. В ходе разбирательства адвокат признал, что использовал ChatGPT для поиска прецедентов, и модель попросту выдумала все шесть решений вместе с правдоподобными названиями, ссылками и даже именами судей. Шварц был оштрафован на 5000 долларов; суд отметил, что «представление фиктивных судебных решений подрывает саму основу правосудия».
Парой месяцев позже издательство Elsevier инициировало ретракцию (отзыв) нескольких публикаций в журнале Resources Policy. Поводом послужили обнаруженные читателями и редакторами фрагменты текста, явно сгенерированные языковой моделью. Дальнейшая проверка выявила, что библиографические списки этих статей содержат ссылки на несуществующие работы. Названия статей выглядели тематически корректными, авторы были реальными исследователями, однако при верификации через CrossRef и Google Scholar ни одна из позиций не подтвердилась. Инцидент спровоцировал острую дискуссию в академическом сообществе о недостаточности существующих механизмов рецензирования в условиях доступности генеративного ИИ.
Механизм фабрикации
И четвёртый кейс: в апреле 2026 года было опровергнуто утверждение о том, что текущий уровень выселений в Ирландии достиг максимума со времен Великого голода. Опровержение показало: методология манипуляции опиралась на выборочное использование статистических данных, игнорирование контекста и подгонку цифр под эмоционально заряженный нарратив. Концепция такого приёма — черри-пикинг (cherry-picking) — подробно объясняется в статье из образовательного раздела GFCN.
Черри-пикинг («сбор черешни») — манипуляция данными, при которой выбираются только те факты, которые подтверждают желаемую точку зрения, и полностью игнорируют все остальные.
Данный кейс демонстрирует, как недобросовестные авторы — будь то в СМИ, публицистике или академическом тексте — могут комбинировать «удобные» реальные данные с полностью сфабрикованными ИИ источниками, создавая иллюзию научной обоснованности.
Для понимания природы проблемы черри-пикинга и «цитат Франкенштейна» необходимо помнить, что большие языковые модели не являются ни поисковыми системами, ни базами данных. Их главная задача — предсказание наиболее вероятной последовательности токенов (слов, частей слов) на основе обученного корпуса текстов. Когда пользователь запрашивает научную ссылку, модель не обращается к внешнему репозиторию, а генерирует ответ, статистически соответствующий запросу. Она «знает», что после фразы «как показало исследование» с высокой вероятностью следует конструкция «автор, год». Она «помнит», что имя Smith коррелирует с определенной научной областью, а Journal of Cognitive Neuroscience — релевантное издание. Соединяя эти элементы, модель создает правдоподобный, но фиктивный артефакт. Аналогичным образом генерируется DOI (идентификатор статьи): алгоритм воспроизводит корректную структуру идентификатора, но сам он не указывает ни на какой реальный объект. Этот эффект и называется «галлюцинацией уверенности».
Фактчекинг как академическая норма
Сотни кейсов по всему миру указывают, что феномен проявился очень широко: в юриспруденции, медицине, экономике, философии и медиасфере. Во всех случаях сфабрикованные источники не были выявлены на ранней стадии, поскольку выглядели формально корректно. Следовательно, академическая честность в эпоху ИИ не может более ограничиваться отказом от плагиата – она требует обязательной, методичной верификации каждого источника. Тот же принцип, который предъявляется к новостным публикациям — проверяемость утверждений, — должен стать нормой в студенческих, научных и экспертных работах. Четыре описанных кейса показывают, что цена отказа от такой проверки высока: от репутационных потерь и денежных штрафов до ретракции научных статей и подрыва общественного доверия.
Практическим ответом на вызов являются четкие алгоритмы проверки. Рекомендуется следующий минимальный протокол, который может быть включен в академические регламенты и инструкции для авторов:
1. Поиск по названию через Google Scholar, Scopus, Web of Science или CrossRef: отсутствие результата в течение нескольких минут с высокой вероятностью указывает на «цитату Франкенштейна».
2. Валидация DOI. Перейти на doi.org и ввести идентификатор вручную. Если он не находится или ведет на другую публикацию — источник не существует.
3. Проверка через профиль автора. Обнаружить указанного исследователя в ORCID (международный цифровой реестр, который присваивает уникальный 16-значный номер каждому ученому в мире), Google Scholar или на сайте его учреждения и сверить список публикаций. Отсутствие статьи в профиле реального ученого — достаточное основание для исключения ссылки.
Кроме того, существуют специализированные ИИ-инструменты, архитектура которых основана на извлечении данных только из верифицированных корпусов: Consensus, Scite, Elicit. Их применение снижает вероятность включения «призрачных» источников в работу. Сложнее проверить цитаты, которыми автор аргументирует свои тезисы, и это достаточно трудозатратно, но цена ошибки существенно выше: построенные на ложных посылках исследования или процессы могут привести к миллиардным потерям и даже человеческим жертвам.
В 20-х годах XXI века феномен несуществующих библиографических ссылок, порождаемых генеративным ИИ, перешел из разряда гипотетических рисков в задокументированную практическую проблему. Правдоподобные ИИ-фантомы эксплуатируют фундаментальную уязвимость нашей психики: склонность доверять формально правильной атрибутике. Единственной устойчивой защитой в этом случае видится проверка каждого источника — подход, который должен быть закреплён в академических, правовых и медийных практиках. В противном случае «призрачные авторы» с течением времени займут доминирующую позицию в инфополе и необратимо изменят социокультурный ландшафт, переведя человечество из «экономики доверия» в «экономику лжи».