Всё сочувствие, на которое мы решились
 

ChatGPT пишет правдоподобные аннотации научных исследований. Чем это грозит науке?

Чат-бот ChatGPT на основе модели искусственного интеллекта пишет такие убедительные фейковые аннотации научных статей, что учёные часто не могут их распознать, сообщает Nature.

ChatGPT пишет правдоподобные аннотации научных исследований. Чем это грозит науке?

Некоторые исследователи обеспокоены этим, полагая, что научные журналы может захлестнуть волна внешне безупречных публикаций-подделок. Другие же уверены, что корень проблемы надо искать не в том, что боты научились правильно складывать слова в предложения, а совсем в других процессах.

Бот ChatGPT создаёт читаемый и разумно выглядящий текст по запросу пользователя. ChatGPT — большая языковая модель, система, основанная на нейронных сетях, которая учится выполнять задачу, обрабатывая в процессе обучения огромные объёмы текстов, написанных людьми. Компания-разработчик программного обеспечения OpenAI, базирующаяся в Сан-Франциско, выпустила этот инструмент 30 ноября 2022 года. Пользоваться им можно свободно и бесплатно.

С момента его выпуска исследователи спорят об этических вызовах, связанных с использованием такого рода моделей. В частности, одну из проблем некоторые учёные видят в том, что довольно большую часть результатов работы бота бывает трудно отличить от текста, написанного человеком. И у этого могут быть определённые последствия. Чтобы исследовать один из аспектов этой проблемы, группа, возглавляемая Кэтрин Гао (Catherine Gao) из Северо-Западного университета в Чикаго (Northwestern University in Chicago), использовала ChatGPT для генерации фейковых абстрактов научных работ и проверила, способны ли учёные распознать подделку.

Исследователи попросили ChatGPT написать 50 кратких аннотаций медицинских исследований на основе подборки статей, опубликованных в пяти авторитетных научных журналах. Затем они сравнили их с оригинальными абстрактами, пропустив через детектор плагиата и детектор вывода искусственного интеллекта, а также попросили группу медицинских исследователей попытаться понять, какие тексты сфабрикованы ИИ-моделью.

Проверку на плагиат абстракты, созданные ChatGPT, прошли отлично: средний балл оригинальности составил 100%, что указывает на то, что плагиат обнаружен не был. Детектор вывода искусственного интеллекта выявил 66% текстов, сгенерированных языковой моделью. Рецензенты-люди справились не намного лучше: они правильно идентифицировали только 68% абстрактов, сгенерированных ботом, и 86% настоящих кратких содержаний научных работ. 32% сгенерированных ChatGPT абстрактов они неправильно определили как настоящие, а 14% подлинных — как сгенерированные ИИ.

Сандра Вахтер (Sandra Wachter), исследовательница из Оксфорда (University of Oxford), реагируя на это исследование, делится опасением, что, если учёные не смогут отличать настоящие исследования от фейковых, это породит «ужасные последствия». Помимо того, что это потенциально создаёт проблемы для исследователей, которые, ознакомившись с «результатами» сгенерированных ИИ-моделями поддельных научных работа, могут пойти в своих исследованиях по ошибочному пути, это может иметь последствия и для общества в целом. Например, на основе таких сфабрикованных работ могут быть приняты неверные политические решения.

Арвинд Нараянан (Arvind Narayanan), специалист по информатике из Принстона (Princeton University), не согласен с тем, что выявленная способность чат-бота сама по себе несёт какую-либо угрозу.

«Маловероятно, — рассуждает он, — Что какой-либо серьёзный учёный будет использовать ChatGPT для написания аннотаций».

Вообще вопрос о том, возможно ли распознать резюме, сгенерированные ботом, считает Нараянан, «не имеет значения».

Действительно, проблема, поднятая авторами работы, кажется надуманной. И исследования со слабым дизайном и ненаучным подходом, и работы, основанные на подделке данных, и откровенно мусорные бессмысленные статьи, равно как и хорошие исследования, суть которых слабо или ошибочно отражена в аннотации, публикуются давно и достаточно нередко. Их авторы прекрасно справлялись с их созданием и до появления больших языковых моделей, равно как и редакции и рецензенты по тем или иным причинам пропускали их в печать. Едва ли искусственные нейросети способны что-то всерьёз изменить в данном положении вещей.

Авторы однако полагают, что «для поддержания строгих научных стандартов» будет полезно включить в редакционный процесс пропускание статей через детектор вывода искусственного интеллекта, а также их проверку «скептически настроенными рецензентами-людьми» (видимо, нынешние рецензенты настроены недостаточно скептично).

В ответ на это Арвинд Нараянан замечает, что для решения проблем с поддельными научными работами разумно было бы сосредоточиться не на вопросе использования чат-ботов, «а скорее на порочных стимулах, которые побуждают учёных к такому поведению, таких как практика университетов решать вопросы найма и продвижения по карьерной лестнице путём подсчёта публикаций без учёта их качества и значимости».

Ссылка на источник