Невидимая подсказка: как анализ метаданных помогает в борьбе с фейками

Каждый цифровой файл — фотография, видео, документ — несёт в себе скрытый слой информации, невидимый при обычном просмотре. Эта информация, называемая метаданными, зачастую становится ключом к разоблачению фейков. Фактчекеры используют этот «цифровой отпечаток» для установления подлинности контента и выявления манипуляций.

Процесс фактчекинга подразумевает комплексный подход к сбору информации об объекте исследования. Для этого задействуются все доступные инструменты, в том числе анализируются метаданные. Их изучение позволяет обнаружить расхождения между заявленными данными и объективными сведениями о файле или аккаунте.

Метаданные в общем смысле — это информация о данных, их структуре, происхождении и т.п., — необходимая для поиска, понимания и управления массивами информации. Вместе с тем, в конкретных сферах данный термин сужается и может приобретать различные интерпретации от информации о структуре базы данных (схемы таблиц, типы полей, связи между таблицами и права доступа), до элементов кода HTML-страницы (описание, ключевые слова и теги, указания для поисковых систем). При этом, могут встречаться разнообразные определения метаданных, в частности, встречаются исследования, где под метаданным подразумевается любая информация, которая «не доступна в тексте сообщения для семантической интерпретации».

Ключевые группы метаданных:

  • Геолокационные: в случае включенного GPS в метаданных может быть отображена информация о координатах места съёмки;
  • Временные: позволяют узнать о времени создания файла и произведения операций по его изменениям;
  • Технические: отражают, при помощи какого устройства был создан файл, его формат, кодировка и т.п.;
  • Административные: информация об авторе, лицензиях, статусе обработки (произведённых операциях);
  • Информация о профиле в Сети: дата создания аккаунта, язык и т.д.

Анализ метаданных служит для фактчекера мощным инструментом верификации, позволяя установить происхождение файла, его подлинность и выявить возможные манипуляции. С его помощью можно определить время и место создания контента, автора и следы редактирования. Универсальность этого метода в том, что он применим к самым разным форматам: будь то фотография, видео, аудиозапись или текстовый документ — каждый из этих цифровых объектов содержит свой уникальный «паспорт», скрытый в метаданных.

Метаданные изображений

Фото достаточно часто становятся источником распространения недостоверной информации, поэтому фактчекеру стоит уделить особое внимание анализу метаданных в том, случае, если проверяемая информация содержит изображения. На что обращать внимание:

  • Проверка EXIF-данных даёт основные ключи к происхождению файла

Одним из основных стандартов метаданных графического изображения (фото), созданных при помощи цифровых устройств, является Exchangeable Image File Format (EXIF). Проверка этих данных позволяет выявить несоответствие между описанием фото и инфоповодом, поскольку в метаданных может содержаться информация о месте, времени, параметрах съёмки, а также о том, при помощи какого устройства она была произведена. Несовпадения между метаданными и заявленной информацией может дать фактчекеру основания считать, что информация искажена и не соответствует действительности.

  • Время и дата позволяют узнать, соотносится ли распространяемое фото с конкретным событием.

В значительном количестве случаев распростанения фейков для подлога используются реальные фотографии, сделанные в другом месте и времени. Зная точно или приблизительно период, в который произошло событие, фактчекер может увидеть несоответствие в метаданных в таких графах как «Create Date» или «Date/Time Original». В этих графах также может указываться часовой пояс, что в случае отсутствия сведений о GPS-координатах, может стать поводом для опровержения. Кроме того, сведения о времени могут содержаться в метаданных, относящихся к GPS.

  • GPS-координаты

Геоданные снимка также могут быть отражены в EXIF. Указываются широта («GPS Latitude») и долгота («GPS Longitude») и высота над уровнем моря («GPS-Altitude»), которые в последствии можно сверить в любом специализированном онлайн-сервисе.

Скриншот метаданные в ExifTool

  • Информация об авторе, лицензиях, а также сведения о модели и характеристиках камеры, на которое сделано фото, позволяют деанонимизировать сделавшего фотографию.

Эти данные помогут фактчекеру, например, в том случае, если распространяемое фото декларируется как снятое с камер наблюдения, тогда как в метаданных указан обычный смартфон.

  • Было ли изображение изменено

Разница между временем произведения фотографии («DateTimeOriginal») и временем оцифровки («DateTimeDigitized») может указывать на использование изменяющих инструментов. Кроме того, важно рассматривать возможные несоответствия программного обеспечения. Сведения в EXIF oб использовании Adobe Photoshop могут опровергнуть фотографию с места событий, якобы сделанную на любительскую камеру.

  • История версий, скрытые тэги, аномалии в ориентации и настройках съёмки, сравнение контрольных сумм и хэшей (при наличии оригинала) и т.д. используются для углублённых исследований

Метаданные видео

Многие из категорий метаданных, указанных для изображения, дублируются, в том числе, и для видео. При этом, в зависимости от программы извлечения, графы могут называться по-разному. Одним из вариантов для видеофайлов является MediaInfo, где, в частности, геолокация содержится в графе «xyz». Представлены также временные и административные данные, которые можно изучать как в самой программе, так и в формате текстовой выгрузки.

Скриншот метаданные файла в MediaInfo

На что обращать внимание:

  • Возможная история обработки.

Этому аспекту стоит уделить дополнительное внимание, если фактчекер подозревает, что видео является дипфейком. В этом случае необходимую почву для опровержения фактчекеру может дать обнаружение в метаданных файла следов использования таких программ как FaceSwap или DeepFaceLab.

  • Разница во времени между созданием («Media Create Date») и модификацией («Media Modify Date») видео.
Скриншот метаданные в ExifTool

Метаданные аудио

Объектом аудио-фактчекинга может выступать как самостоятельный звуковой файл, так и аудиодорожка в комбинации с видеорядом. На что обращать внимание:

  • Несовпадение тэгов с видео указывает на последующее наложение.
  • Частота дискретизации («Sampling rate»).

Например, если аудио должно было быть записано в 48.0 kHz стандартном для устройства, а в метаданных указано 44.1 kHz – это может свидетельствовать о подделке.

Скриншот метаданные в текстовой выгрузке MediaInfo

Иные метаданные

Для текстовых документов, также применимы сведения о временных метаданных. На что обратить внимание:

  • Сведения о часовых поясах также могут указать, действительно ли документ был составлен и распространён в заявленных временных рамках и локации.
Скриншот метаданные в ExifTool

  • Административные метаданные выступают наиболее значимыми в контексте проверки метаданных.

В документе помимо автора могут быть указаны все участвующие в его редактировании. При этом, зачастую для извлечения этой информации нет необходимости использовать специализированные утилиты: всё необходимое может содержаться в описании документа, в частности, в разделе «Свойства» в Word.

Несмотря на кажущуюся простоту удаления этих данных, встроенных в саму программу, в значительном количестве случаев этого не происходит, что может дать фактчекеру дополнительную фактуру для опровержения.

  • При верификации автора и источника для PDF-документов стоит также обратить внимание на графу «Producer».

Эта информация может дать сведения о программе, при помощи которой файл был экспортирован, что тоже может указать на несоответствие заявленному формату.

Аккаунты в социальных сетях

  • Дата создания аккаунта позволит выявить бот-активность при формировании и распространении инфоповода.

Ограничения фактчекинга при помощи метаданных

  • Работа алгоритмов и инструментов

— Многие социальные сети при загрузке в них тех или иных файлов, автоматически удаляют большинство метаданных для сохранения конфиденциальности пользователей. Это существенное ограничение при условии, что большинство контента с места событий начинает распространение из социальных сетей, форумов и т.д.

— Различные инструменты также частично обрезают метаданные при работе с файлами (функции «Save for Web» в Photoshop, сжатие на мобильных приложениях).

  • Следы подчистки

Полное отсутствие метаданных может указывать на их целенаправленную очистку, давая ещё один повод внимательнее отнестись к распространяемому файлу.

  • Фальсификация

Метаданные могут быть подделаны дезинформаторами намеренно с помощью специальных утилит для создания ложного следа или придания распространяемому файлу достоверности.

  • Отсутствие универсальных тэгов

Названия одних и тех же граф может различаться в зависимости от устройства создания файла и программы, при помощи которой происходит их извлечение. Это же затрудняет массовую верификацию источников для последующей систематизации и исследования.

  • Приватность данных

Необходимо аккуратно использовать метаданные при фактчекинге, с учётом того, что в них может содержаться конфиденциальная информация пользователей, раскрытие которой их может деанонимизировать.

Анализ метаданных — это не панацея, но критически важный этап в арсенале современного фактчекера. Несмотря на ограничения, такие как легкая возможность подделки или автоматическое удаление платформами, метаданные часто остаются слабым местом фальсификатора. Они могут стать первым тревожным звонком, указать на несоответствие или подтвердить подлинность файла. Однако их сила раскрывается только в рамках комплексного подхода, вместе с другими методами анализа информации. Осторожность и понимание ограничений метода позволяют использовать этот инструмент максимально эффективно и этично.