Как распознать дезинформацию в интернете: метод ученых США и Катара

Исследователи из MIT и Катарского НИИ вычислительной техники (QCRI) заявили, что легче выявить лжеца, чем развенчать каждую его ложь. Они создали алгоритм, по особым характеристикам новостных статей выявляющий сайты, публикующие фейковые новости.

Кажется, Кремль больше не сможет безнаказанно дурить голову наивному западному обывателю! Шах и мат.

В фэйсбуке, твиттере и других социальных сетях проверка фактов занимает гораздо больше времени, чем удаление дезинформации. Занимающиеся этим редакторы не справляются с потоком жалоб, а кроме того поддельные новости не всегда соответствуют имеющимся шаблонам для проверки. Борьба с дезинформацией напоминает спасение лодки, которая заполняется водой быстрее, чем ее вычерпывают. Что еще хуже, исследования показали: читателей новостей любых политических убеждений невозможно убедить в фейковости новости, если они способствовали ее распространению, и, тем более, если это распространение поспособствовало упрочнению их положения в выбранной социальной группе.

“Автоматическая проверка фактов неточна, и пользователи ей, как правило, не доверяют. Даже когда это делается авторитетными организациями по проверке фактов, разоблачение малоэффективно для уже поверивших в ложную информацию”, – пишут исследователи.

Тезисы их исследования (PDF , 200 Кб) приведены в планируемой Конференции по эмпирическим методам в естественном языке. Они раскрывают ключевые признаки фейковых новостных веб-сайтов, которые с трудом заметны для человека.

Среди используемых приемов специальные шаблоны (так называемые “функциональные слова”), которые придают более разговорный стиль новостной статье. Редакторы честных новостных сайтов быстро и жестко пресекают изобилие функциональных слов, но поддельные новостные сайты могут вообще не редактироваться. Обращается внимание на количество и структуру слов, выражающих настроение – еще один признак фейковых новостей. Также анализируется количество вовлеченных пользователей и их действия. Учитываются термины, свидетельствующие о предвзятости.

Если новостной сайт выкладывает много статей с высокой степенью подобных лингвистических характеристик, можно с уверенностью утверждать, что это сайт фейковых новостей.

Исследования показали: метод опорных векторов (Support Vector Machine) смог правильно вывести высокий, низкий или средний уровень “фейковости” для 65% проверенных данных. Авторы научного прорыва предупреждают, что их алгоритм лучше всего будет работать в “сотрудничестве” с человеком-контроллером.

Следующим шагом будет “идентификация фейковых новостей в неанглоязычных СМИ. Мы хотим выйти за рамки типичного для западного мира противостояния левые-правые и смоделировать другие виды противостояний, более актуальные для других регионов – например, исламист-атеист”.