Вся информация, позволяющая нам говорить и понимать язык, составляет лишь полтора мегабайта. То есть этот великий дар нашего интеллекта «весит» меньше, чем фотография котика.
К такому выводу пришли Фрэнсис Моллика (Francis Mollica) из Университета Рочестера и Стивен Пиантадоси (Steven Piantadosi) из Калифорнийского университета в Беркли. Их научная статья опубликована в журнале Royal Society Open Science.
Авторы применили к английскому языку теорию информации. Эта область математики понимает информацию, которую мы получаем из сообщения, как меру снятой неопределённости.
Например, слова собеседника «мой день рождения не сегодня» несут мало информации. В вопросе о том, когда же наш визави будет задувать свечи на торте, неопределённость убавилась лишь совсем чуть-чуть. Даже если бы мы не слышали этого признания, у нас было бы 364 из 365 шансов, что праздник состоится в какой-нибудь другой день.
В то же время слова «мой день рождения сегодня» высокоинформативны, ведь они точно указывают на ответ, который мы могли бы угадать случайно лишь с вероятностью 1/365. По формулам теории информации получается, что в первом сообщении менее 0,004 бита, а во втором более 8,5 бита.
Авторы разработали собственную модель, определяющую, насколько снимает неопределённость каждая новая порция той или иной лингвистической информации. Например, они вычислили, что на 50 фонем английского языка приходится в сумме только 750 битов. Почти столько же – 700 битов – требуется для хранения всех синтаксических правил, которых в английском не так уж и много (любопытно, какой результат дал бы этот подсчёт для табасаранского языка с его 46 падежами?).
Далее эксперты учли, что средний носитель английского языка знает около 40 тысяч слов. По мнению исследователей, это примерно 400 тысяч битов на запоминание самих слов и 12 миллионов битов на хранение их смысла и ассоциативных связей. Ещё 8 тысяч битов дают знания о частотности слов, позволяющие нам отличать общеупотребительную лексику от редкой.
В сумме же получается примерно 1,56 мегабайта – величина, более чем скромная по меркам современных цифровых технологий.
По признанию авторов работы, их особенно удивило ничтожное количество битов, требуемое для хранения синтаксиса. При этом они считают это число оценкой сверху, то есть реальное значение может быть ещё меньше. А пальма первенства предсказуемо принадлежит смыслу слов: всё-таки именно он прежде всего и передаёт информацию собеседнику.
Автор: Анатолий Глянцев