В конце августа 2015 года в Science появились результаты крупнейшего эксперимента по проверке воспроизводимости опубликованных исследований в области когнитивной и социальной психологии.
Его итоги оказались просто обескураживающими для научного сообщества — экспертам не удалось воспроизвести результаты более половины психологических работ. Однако дискуссия о спорности многих психологических исследований и скандалы по поводу мошенничества и подлога начались задолго до этого. Мы решили разобраться, как и почему возникла идея этого проекта, что означают его результаты для психологии, и почему это скорее положительный сигнал, свидетельствующий о приверженности большинства ученых-психологов идеалам научного метода.
В 2006 году в голландском Университете Тилбурга на факультете социальных наук появился новый харизматичный, дружелюбный, безмерно талантливый сорокалетний профессор. Ректорат смотрел на него как на звезду мировой величины, которая поможет Тилбургу подтянуть социальные науки до уровня их всемирно признанной Школы экономики и права. Маэстро звали Дидрик Александр Штапель. Штапель вполне оправдал ожидания руководства – он основал в университете Институт исследований в области бихевиоральной экономики, а уже в 2010 году занял пост декана факультета. Вершиной его успеха стала опубликованная в апреле 2011 года в журнале Science статья «Справляясь с Хаосом». Не прошло и года после ее выхода, как хаос захлестнул самого Штапеля.
Срочная пресс-конференция, собранная Университетом 31 октября 2011 года, донесла до СМИ вполне шокирующее известие: Дидрик Штапель обвинялся в фальсификации экспериментальных данных как минимум в 30 из 130 опубликованных им статей (включая публикацию в Science), а также в нескольких главах из коллективных монографий. Имелись подозрения о махинации с данными и в ряде других его статей и работ, включая докторскую диссертацию, однако возможностей доказать подлог (как впрочем и обосновать невиновность Штапеля) специальная комиссия Университета Тилбурга не нашла. Среди дискредитированных публикаций оказалась и широко освещенная в медиа статья, доказывающая, что люди, употребляющие мясо, якобы являются более эгоистичными, чем вегетарианцы.
По результатам расследования у Штапеля были отозваны все научные степени и награды, а сам он выступил с заявлением, в котором признал свою вину и извинился перед коллегами и сотрудниками. Только благодаря этому Штапелю удалось избежать серьезных преследований. Отработав 120 часов общественных работ и потеряв ряд привилегий и бонусов (эквивалентных примерно его полуторагодовому доходу), он опубликовал наполненную рефлексией книгу мемуаров «Сошедший с рельсов» и в настоящее время возобновил свою преподавательскую деятельность.
«Дело Штапеля» и несколько менее громких, но похожих историй, которые произошли примерно в то же время с другими социальными психологами (Дирком Сместерсом, Апом Дейкстерхейсом и американцем Лоуренсом Санна), вызвали не только активную дискуссию об исследовательской этике, но и подняли вопрос о научном статусе социальной психологии вообще.
Нобелевский лауреат Даниэль Канеман (сам большой сторонник исследований социального прайминга, на котором специализировался Штапель) осенью 2012 года выступил на волне разгорающейся критики с открытым письмом, в котором предложил способ, который, по его мнению, мог бы защитить столь слабый и неуловимый эффект, в существовании которого он, тем не менее, был полностью убежден.
Канеман предложил отобрать пять лабораторий, возглавляемых наиболее уважаемыми и заслуженными специалистами, чья репутация не подлежит сомнению. Каждая лаборатория должна была выбрать один наиболее выраженный и легко воспроизводимый эффект и реплицировать его, причем работы лабораторий должны были образовать замкнутый круг (лаборатория B воспроизводит работу лаборатории A, С — работу B и так далее).
Увы, но эта инициатива не вызвала широкой поддержки среди ведущих социальных психологов, большинство из которых предпочли агрессивную полемику реальным шагам по оздоровлению собственной дисциплины и возвращению ей утраченной легитимности. О том, что под ударом находилась не просто судьба отдельного «сбившегося с пути» ученого, утверждалось даже в докладе по делу Штапеля: «это общий провал научной критики и исследовательской культуры внутри всего сообщества [социальных психологов], чрезмерно увлеченного некритическим подтверждением своих идей и поиском красивых, но теоретически поверхностных ad hoc результатов».
Реакция
Борьбу за спасение социальной психологии возглавил Брайан Носек — рядовой исследователь из Виргинского университета в Шарлотсвилле, который инициировал масштабный проект по оценке воспроизводимости исследований в области: Reproducibility Project: Psychology.
В августе 2012 Носек собрал 72 добровольца из 41 научно-исследовательской организации по всему миру. Он горячо поддержал инициативу Канемана, и это придало ему дополнительный вес. После письма Канемана число добровольцев в проекте выросло до 270 человек. В ноябре 2012 в журнале Perspectives on Psychological Science Носек разразился программной статьей, где описал весь будущий проект.
Ссылаясь на классиков, заложивших фундаментальные теоретические основы научного метода – от средневекового монаха Роджера Бэкона до Карла Поппера и Томаса Куна, а также опираясь на влиятельную статью Стефана Шмидта Носек провозгласил воспроизводимость как важнейший критерий достоверного научного результата, в том числе и в социальной психологии.
В общем случае воспроизводимость обозначает подтверждение того или иного эксперимента посредством его повторения (репликации), в ходе которой другой исследователь в другом месте получает те же самые, либо сходные или очень близкие результаты. В этом случае их можно считать объективным знанием и твердо установленным фактом. Таким образом, репликация эксперимента становится главным методологическим инструментом, позволяющим перевести индивидуальное убеждение (веру) в существование какого-либо явления в факт, и, следовательно, очередной небольшой, но достоверный кирпичик знания в здании науки. Чем больше и чаще какой-либо эксперимент воспроизведен, тем более надежным становится его результат. Он попадает в классический фонд дисциплины и во все учебные пособия.
Команда Носека решила ограничиться в своем исследовании 100 статьями, опубликованными на протяжении 2008 года в трех наиболее респектабельных рецензируемых журналах: Journal of Experimental Psychology: Learning, Memory, and Cognition (работы в области общей или когнитивной психологии), Journal of Personality and Social Psychology (работы по социальной психологии и психологии личности) и Psychological Science (широкий профиль публикаций, аналог отечественных «Вопросов психологии» или «Психологического журнала»).
Чтобы избежать всевозможных искажений при выборе статьи, каждая исследовательская подгруппа (иногда в составе всего лишь одного человека) должна была выбрать одну из первых 30 статей какого-либо тома одного из журналов, соответствующую их научным интересам и наличным ресурсам (понятно, что если у ученого нет доступа к томографу, экспериментальным животным или людям с теми или иными особенностями развития, то он просто не в силах будет повторить работу, использующую такие инструменты или выборки).
Целью каждой группы было прямое воспроизведение выбранного исследования. Иными словами, полное, максимально возможное повторение оригинального эксперимента, включающее соответствующую выборку, процедуру опытов, стимульный материал и тот же, либо аналогичный статистический инструментарий. Репликация должна была иметь высокую статистическую мощность (1-β ≥ 0,80). По возможности каждая группа старалась контактировать и консультироваться с авторами оригинального исследования, особенно если какие-либо места в работе были не ясны или плохо задокументированы, а также, если были получены какие-либо неожиданные эффекты или результаты. Если в репродуцируемом исследовании использовался авторский стимульный материал, то при репликации необходимо было использовать его же.
Носека и его коллег интересовало, в первую очередь, сколько всего исследований они смогут воспроизвести и в каких аспектах. Каков процент успешно реплицированных работ будет для каждой отрасли психологии (общей и социальной). И, наконец, какие факторы могут быть использованы для предсказания успешной репликации исследования в будущем (например, размер выборки, величина эффекта, особенности дизайна эксперимента, исследовательский опыт автора и так далее).
Как это делалось
Рассмотрим вкратце один случайно выбранный пример репликации. Психолог-когнитивист из Канады Станка Фитнева попыталась воспроизвести исследование, описанное в статье двух психологов из Университета Джонса Хопкинса: Банчимлака Дессалена и Барбары Ландау. Авторы оригинальной статьи предположили, что вербальные инструкции помогают маленьким детям «удерживать» связи между различными визуальными характеристиками, например, между цветом и его локализацией на поверхности объектов.
Оригинальная работа была сделана на четырехлетних англоговорящих детях. Малышам показывали квадраты, одна прямоугольная половина которых была симметрично закрашена в зеленый цвет, а другая в красный. Затем, спустя непродолжительное время, детей просили найти ранее показанный квадрат среди нескольких других, включая квадраты, раскрашенные зеркально (по сравнению со стимульным) или поделенные по диагонали на два треугольника. На этом этапе количество ошибок при выборе было очень высоким.
На втором этапе работы детей инструктировали, описывая искомый квадрат при демонстрации. При этом использовались либо термины направления (например, «в этом квадрате красная половина находится слева от зеленой»), либо соотношения («красная половина соприкасается с зеленой»).
Станка Фитнева воспроизвела именно последний сравнительный эксперимент. Она использовала стимульный материал, любезно предоставленный авторами оригинальной работы, а также перезаписала заново все аудиоинструкции для испытуемых.
В итоге репликация отличалась от оригинальной работы в двух аспектах: различия в языковом бэкграунде испытуемых (в американском исследовании у всех детей родной язык был только английский, а в канадском участвовали билингвы). Второе, более существенное отличие – это использование другого статистического анализа (t-критерия вместо ANOVA — оба показывают, насколько надежно отличаются средние значения в выборках) и исключение из анализа результатов детей, не понявших задание вообще или со временем реакции на задание более 5 секунд.
По результатам своей репликации Фитнева пришла к следующим выводам. Во-первых, изначально, в отличие от оригинальной работы, она не получила значимых отличий между группой, получившей инструкцию в терминах направления, от группы получившей задание в терминах соотношения. Еще раз проанализировав экспериментальные данные, Фитнева обнаружила, что двое детей из группы «терминов направления» не понимают значения слов «справа» и «слева». Связавшись с американскими авторами, она выяснила, что они исключали такие результаты из выборки. И только после того, как данные от этих двух детей были выброшены, удалось «вытащить» исследуемый эффект до нужного уровня значимости: t(43)=2,161, p=0,036, d=0,67.
В целом, работу удалось реплицировать лишь частично: эффект от инструкции действительно присутствует, однако он «мимолетный» и не настолько явно выражен, как заявлялось в статье американских психологов. Кроме того, Фитнева приводит в пример новую работу Дессалена и Ландау от 2013 года, где авторы сами реплицировали свое исследование на детях другого возраста: трехлетних и шестилетних. Выяснилось, что первые вообще почти не справляются с заданием, так как плохо понимают любые устные инструкции, а шестилетки справляются равно хорошо вне зависимости от формулировок инструкций.
Таким образом, если заявленный исследователями из США феномен и существует, то только для детей 4-5 лет. Однако для того, чтобы твердо установить его наличие требуется, по мнению Фитневой, новый эксперимент с гораздо большей выборкой, более жестким дизайном и разработанной, а также ясно оговоренной системой правил исключения результатов из анализируемой выборки.
Стоит отметить, что выше приведен далеко не худший, скорее типичный результат репликации. Всего же из 100 оригинальных статей в 97 случаях авторы заявляли о статистически значимых результатах (р < 0,05), однако при воспроизведении сходной статистической значимости удалось добиться лишь для 36 работ. При этом хуже всего дело обстояло в области социальной психологии – 75 процентов работ реплицировать не удалось. В когнитивной психологии критерий воспроизводимости провалило только около 50 процентов исследований. Впрочем, как мы могли убедиться выше, это вовсе не означает, что описанных феноменов не существует вовсе.
Помимо статистической значимости репликаторы также оценивали величину эффекта (разность между сравниваемыми средними). Упрощенно можно сказать, что она обозначает выраженность какого-либо феномена (например, мы установили, что запах апельсинов улучшает способность решать задачи – в этом случае коэффициент величины эффекта покажет нам, насколько увеличилась эта способность). И вновь результаты воспроизведения оказались провальными. В среднем при репликации величина эффекта оказалась вдвое ниже, чем заявленная в оригинальных статьях.
Помимо объективных критериев экспертам из команды Носека предлагалось субъективно оценить – удалось ли им воспроизвести результаты того или иного исследования и в какой мере. Они могли отнести реплицированную работу к двум категориям «воспроизвести удалось» или «воспроизвести не удалось», а затем оценить успех или неудачу репликации по шкале из семи рангов: от высшего («практически идентичная») до низшего («какое-либо сходство отсутствует»). По субъективным оценкам экспертов, им не удалось воспроизвести 61 работу, при этом 15 полностью. И лишь четыре работы из ста оказались реплицированы в полной мере.
Преимущество в воспроизводимости исследований по когнитивной психологии (изучающей такие психологические процессы как восприятие, память, внимание и так далее) над социальной объясняется, по мнению Носека, более выраженными феноменами. «Зрение работает примерно одинаково у всех людей, тогда как самооценка может варьироваться в широких пределах и даже у одного и того же человека изменяться под воздействием разных внешних факторов», — объясняет разницу Ноcек.
Итоги
В опубликованной в Science статье Носек с коллегами так резюмирует итоги проекта: «После столь трудной работы по воспроизведению выборки из множества опубликованных психологических исследований, о каком количестве феноменов мы можем сказать, что они истинные? Ни об одном. Тогда о скольких феноменах мы можем сказать, что они ложны? Вновь ни об одном. Это из-за того, что наше исследование плохо спроектировано? Нет. Просто это реальность современного производства научного знания, даже если она не признается в повседневной практике».
Действительно, по итогам исследования можно лишь сказать, что для 36 работ были получены дополнительные доказательства существования описываемых в них феноменов, что вовсе не говорит о том, что в будущем они действительно станут «кирпичиком знания». Точно так же можно сказать, что изученные в остальных 64 статьях феномены не получили должного обоснования. Их существование поставлено под сомнение, но не может быть отвергнуто окончательно.
Это вновь возвращает к дискуссии о выработке критериев воспроизводимости, особенно для социальных и гуманитарных наук, а также такой пограничной области знаний как психология. Существует мнение, что в этих дисциплинах к статье должен прилагаться набор данных, с которым работал исследователь и описание способа их обработки (включая, например, программный код и алгоритмы). Если другой ученый, используя те же данные и тот же способ их обработки, получил сходные результаты – значит работа должна считаться воспроизводимой. В настоящий момент Носеку поступило предложение начать второй проект и попробовать реплицировать ряд классических и хорошо известных исследований, например работы по эффекту Струпа (для когнитивной психологии) или эффекту ореола (для социальной).
Хотя результаты проекта выглядят для психологии плачевно, эта ситуация характерна и для других областей знания. Например, существует похожий критический обзор для работ в области нейрофизиологии, исследования о манипуляции статистическими данными при обработке результатов функциональной компьютерной томографии мозга человека и животных, отсутствие воспроизводимости в современных исследованиях по раку и противоопухолевым препаратам, противоречивые результаты по итогам исследования эффективности многих лекарств. Так, The Center for Open Science в настоящий момент помимо Reproducibility Project: Psychology запустил также и Reproducibility Project: Cancer Biology, как раз посвященный проверке 50 авторитетных исследований рака и методов его лечения.
Дидрик Штапель признавался, что к подделке эмпирических данных и манипуляции со статистикой его подтолкнуло желание быстрого успеха и карьерного роста. «Я хотел всего и сразу, здесь и сейчас». И в принципе, ему это почти удалось.
Старинный лозунг американских аспирантов «publish or perish» актуален сейчас не меньше, чем когда он впервые появился на свет: всем нужны публикации. И не в «братских могилах», а в респектабельных журналах. На фоне бесконечной гонки за ресурсы это приводит к перекосу в публикациях и манипулированию результатами. Вы могли долго и нудно проводить эксперимент, проверять какую-то интересную гипотезу, потратить полгода или год жизни, а в итоге получить отрицательный результат, который никому не нужен, и который никто не хочет публиковать, или у вас окажется невысокий уровень значимости. Несколько манипуляций с выборкой и отрицательный результат превратится в небольшой, но положительный. Низкая значимость? Не вопрос! Будем наращивать выборку, или использовать другие методы для взлома p, пока не получим необходимое значение. Но является ли это проблемой самой психологии, и только ли психологии?
Очевидно во всей этой истории только одно: психология сейчас действительно переживает глубокий кризис, который, к счастью, большинством исследователей признается. Хотя бы по этой последней причине можно надеяться, что она имеет шансы на восстановление своего реноме, изрядно пошатнувшегося с начала XX века.
Автор: Даниил Кузнецов