Код Войнича: почему нейросети не смогли прочесть самую загадочную книгу

17:18 06/02/2018
Код Войнича: почему нейросети не смогли прочесть самую загадочную книгу
ФОТО : brbl-dl.library.yale.edu

Искусственный интеллект впервые попытался расшифровать самую загадочную средневековую книгу, известную как рукопись Войнича. Кто и когда составил всемирно известный манускрипт, точно не известно. Этот вопрос уже несколько сотен лет будоражит умы лингвистов и криптологов всего мира. Ученые Альбертовского университета Канады сообщили, что приблизились к разгадке и смогли расшифровать первую фразу книги. Однако многие специалисты отнеслись к известию скептически. О том, почему канадские ученые не совершили прорыв, а рукопись все еще остается загадкой, в интервью «МИР 24» рассказал доцент кафедры компьютерной лингвистики Института лингвистики РГГУ, научный сотрудник школы филологии НИУ ВШЭ Александр Пиперски.

Что такое манускрипт Войнича


Иллюстрированная рукопись датирована XV веком и названа так по имени польско-литовского библиофила и антиквара Михаила Леонардовича Войнича. Необычную 240-страничную книгу он купил на вилле Мондрагоне близ Рима в 1912 году во время секретной распродажи архива библиотеки иезуитского колледжа. Войнич был страстным охотником до редких книг, поэтому не смог пройти мимо рукописи с картинками-головоломками, написанной на неизвестном языке. Антиквар предположил, что перед ним не диковинный алфавит, а некое зашифрованное послание. Все оставшиеся 18 лет жизни он посвятил расшифровке, но так и не узнал о книге ровным счетом ничего.

После смерти Войнича его супруга Этель, автор популярного в СССР романа «Овод», продала рукопись известному букинисту Хансу Краусу, а он, в свою очередь, передал ее исследователям. С 1969 года манускрипт хранится в библиотеке редких книг Бейнеке Йельского университета. Она полностью оцифрована, поэтому любой желающий может попробовать расшифровать загадочные графические элементы и буквы.

В чем загадка рукописи


Лучшие криптоаналитики мира не могут понять, что скрывает средневековый фолиант, потому что неизвестно, на каком языке он написан. Многие специалисты в разное время подступались к расшифровке, но так и не установили, какой язык использовал автор. Как рассказал Пиперски, это и есть главное и единственное препятствие на пути к научному открытию. Среди множества предположений о том, на каком языке написана рукопись, ни одно не является точным.

Обилие иллюстраций также не приближает ученых к разгадке. Наоборот, в них можно свободно искать обоснование для совершенно любой теории о происхождении манускрипта. Так, популярную догадку о том, что книга может быть трактатом о женском здоровье, подтверждают картинки со сценами купания женщин. Рисунки с цветами и корневыми системами дают понять, что еще одна часть книги может быть посвящена ботанике и народной медицине, а знаки зодиака и карты небесных светил указывают на астрологическую составляющую. Связь астрологии и ботаники ученые объясняли тем, что средневековые лекари не могли лечить человека без знания его знака Зодиака. Впрочем, в научном сообществе и сегодня не отрицают, что картинки могут оказаться выдумкой автора, ведь почти ни одна иллюстрация не соотносится с реально существующим растением.

Пожалуй, уверены исследователи лишь в том, что книга имеет четкую структуру и строгое лингвистическое построение. Эту особенность помогли обнаружить повторяемые слова. Так, в разделе о растениях употребляются одни специфические слова, а в астрономическом – совершенно другие. Это означает, что манускрипт никак не может быть искусной подделкой.

Версии


Вместе с рукописью Войнич обнаружил письмо 1666 года, где говорилось, что книгу написал английский монах и философ XIII века Роджер Бэкон. Но письмо сбило с толку библиофила, поскольку позже было найдено более раннее упоминание рукописи – в послании 1639 года. Войнич так и не сумел приблизиться к правде и к тому же впал в немилость современников.

«Войнича подозревали в том, что он сфальсифицировал рукопись, но эту версию опроверг радиоуглеродный анализ чернил и бумаги. Он подтвердил, что текст был создан в XV веке, примерно в 1404-1438 годах», – рассказал Пиперски.

Популярную гипотезу о том, что язык рукописи является искусственным, первым выдвинул главный криптолог Агентства национальной безопасности США Уильям Фридман. Он предположил, что специально для написания манускрипта его автор создал абсолютно новый язык. В начале Второй мировой войны Фридману удалось взломать сложный код шифровальной машины Purple, которую использовало министерство иностранных дел Японии. Однако проделать то же самое с таинственной средневековой рукописью опытному криптологу не удалось.

Что же представляет собой язык рукописи? В 1943 году нью-йоркский юрист Джозеф Мартин Фили опубликовал работу «Шифр Роджера Бэкона: настоящий ключ найден». В исследовании говорилось, что Бэкон использовал в тексте сокращенные слова средневековой латыни. В 1978 году филолог Джон Стожко предположил, что в манускрипте использован украинский язык, из которого исключены гласные буквы. В 1987 году физик Лео Левитов заявил, что таинственный фолиант создали еретики-катары, населявшие средневековую Францию. В тексте рукописи он увидел микс из разных языков. Все три гипотезы показались современникам неубедительными и были опровергнуты.

Доказать, что рукопись Войнича является связным текстом на забытом языке, удалось лишь в 2013 году. Физик Марчело Монтемурро из Манчестерского университета опубликовал доклад, где говорилось, что текст рукописи Войнича – не бесполезный набор символов, в нем  на самом деле содержится некое послание на забытом языке. Долгое время Монтемурро изучал, как информация кодируется в процессе работы нейронов. Он пришел к выводу, что рукопись Войнича не имеет шифра, поскольку у текста есть естественные статистические особенности. Тем не менее, ни Монтемурро, ни его многочисленные предшественники так и не выдвинули обоснованную теорию о том, что содержится в рукописи.

Почему о загадке снова вспомнили


Канадские ученые из Альбертовского университета при помощи искусственного интеллекта попробовали определить язык рукописи и перевести ее первое предложение. Алгоритм показал, что манускрипт написан на зашифрованном иврите. Первую фразу книги нейросети перевели так: «Она дала рекомендации священнику, главе дома, и мне и людям». Ранее алгоритм проходил проверку на Всеобщей декларации прав человека, переведенной на 380 языков. Язык рукописи Войнича с использованием этого алгоритма был определен как иврит.

По словам Пиперски, хоть алгоритм и ошибся с выбором языка, исследование прошло не зря. Теперь ученые знают, что имеют дело с реальным языком. При этом, вне зависимости от того, имеет ли текст шифр, понять смысл послания искусственный интеллект пока не умеет.

«Представьте, что у вас есть текст, где буквы заменены определенным образом и переставлены местами внутри слов. Искусственный интеллект может понять, на каком языке это написано. Он предположил, что раз некоторые слова похожи на иврит, значит, манускрипт написан на этом языке. На самом деле, компьютер перевел первую фразу неправильно и к ивриту она не имеет никакого отношения. Получается, что канадские компьютерные лингвисты просто решили интересную математическую задачу. Они определили, что неизвестный текст действительно написан неким реально существующим языком. То есть если прорыв и касается лингвистики, тот только компьютерной. Филологи уже сказали, что их эксперимент не представляет никакой ценности и не приближает науку к пониманию рукописи».

Для лингвистов и филологов рукопись Войнича неинтересна просто потому, что непонятно, на каком языке она написана. Пока только криптологи видят в ней интересный объект, который нужно попытаться разгадать. Однако если появятся убедительные аргументы в прочтении манускрипта Войнича, то это будет большим событием для тех, и других специалистов.

«Ни одно предположение о том, что такое манускрипт Войнича, не приближает нас к пониманию текста.  В криптографии встречаются случаи, когда неизвестен язык оригинала, но известен язык перевода. Так, к примеру, Жан Франсуа Шампольон расшифровал египетские иероглифы, сопоставляя их с греческими словами. Но рукопись Войнича к таким случаям не относится. Точно можно сказать только то, что она никак не относится к языкам, которые хорошо изучены историками. Например, к латыни. Маловероятно, что за сто лет никто не понял зашифрованный на латинском языке текст».

По мнению эксперта, символы в книге имеют логическую последовательность, а значит, у автора рукописи не было цели создать мистификацию и зашифровать ее так тщательно, чтобы никто не мог понять содержание. Поэтому однажды криптологи все-таки смогут разгадать и язык, и смысл рукописной загадки.