Восстановление, размещение и датировка древних текстов благодаря сотрудничеству ИИ и историков.
Рождение человеческой письменности ознаменовало зарю истории и имеет решающее значение для нашего понимания прошлых цивилизаций и мира, в котором мы живем сегодня. Например, более 2500 лет назад греки начали писать на камне, глиняной посуде и металле, чтобы документировать все, от договоров аренды и законов до календарей и оракулов, давая подробное представление о Средиземноморье. К сожалению, это неполная запись. Многие из сохранившихся надписей были повреждены на протяжении веков или перемещены с их первоначального места. Кроме того, на этих материалах нельзя использовать современные методы датирования, такие как радиоуглеродное датирование, что затрудняет интерпретацию надписей и требует много времени.
В соответствии с миссией DeepMind по решению проблемы интеллекта для развития науки и человечества, мы сотрудничали с факультетом гуманитарных наук Венецианского университета Ка’Фоскари, факультетом классики Оксфордского университета и факультетом информатики Афинского университета экономики и науки. Бизнес, чтобы изучить, как машинное обучение может помочь историкам лучше интерпретировать эти надписи, давая более глубокое понимание древней истории и раскрывая потенциал для сотрудничества между ИИ и историками.
В статье, опубликованной сегодня в Природа, мы совместно представляем Итаку, первую глубокую нейронную сеть, которая может восстановить недостающий текст поврежденных надписей, определить их первоначальное местоположение и помочь установить дату их создания. Итака названа в честь греческого острова в рассказе Гомера. Одиссея и развивает и расширяет Pythia, нашу предыдущую систему, ориентированную на восстановление текста. Наши оценки показывают, что Ithaca достигает 62-процентной точности при восстановлении поврежденных текстов, 71-процентной точности в определении их первоначального местоположения и может датировать тексты с точностью до 30 лет от их наземных диапазонов дат. Историки уже использовали этот инструмент для переоценки важных периодов греческой истории.
Чтобы сделать наши исследования широко доступными для исследователей, преподавателей, сотрудников музеев и других лиц, мы в партнерстве с Google Cloud и Google Arts & Culture запустили бесплатную интерактивную версию Итаки. И чтобы помочь дальнейшим исследованиям, мы также открыли исходный код нашего кода, предварительно обученной модели и интерактивной записной книжки Colaboratory.

Инструменты для совместной работы
Итака обучается на крупнейшем цифровом наборе данных греческих надписей от Гуманитарного института Паккарда. Модели обработки естественного языка обычно обучаются с использованием слов, потому что порядок, в котором они появляются в предложениях, и отношения между ними обеспечивают дополнительный контекст и значение. Например, «однажды» имеет больше смысла, чем каждый символ или слово по отдельности. Тем не менее, многие из надписей с Итаки, которые интересуют историков, повреждены и часто отсутствуют фрагменты текста. Чтобы убедиться, что наша модель все еще работает при представлении одного из них, мы обучили ее, используя как слова, так и отдельные символы в качестве входных данных. Механизм разреженного внутреннего внимания в ядре модели оценивает эти два входа параллельно, позволяя Итаке оценивать надписи по мере необходимости.
Чтобы максимизировать ценность Итаки как исследовательского инструмента, мы также создали ряд наглядных пособий, чтобы историки могли легко интерпретировать результаты Итаки:
- Гипотезы восстановления: Ithaca генерирует несколько гипотез прогнозирования для задачи восстановления текста, чтобы историки могли выбирать из них, используя свой опыт.
- Географическая принадлежность: Итака демонстрирует свою неопределенность, предоставляя историкам распределение вероятностей по всем возможным прогнозам, а не только по одному результату. В результате он возвращает вероятности для 84 различных древних регионов, представляющих его уровень достоверности. Он визуализирует эти результаты на карте, чтобы пролить свет на возможные лежащие в основе географические связи в древнем мире.
- Хронологическая атрибуция: при датировании текста Итака производит распределение предсказанных дат по всем десятилетиям от 800 г. до н.э. до 800 г. н.э. Это может позволить историкам визуализировать достоверность модели для конкретных диапазонов дат, что может дать ценную историческую информацию.
- Карты заметности: Чтобы передать результаты историкам, Итака использует метод, обычно используемый в компьютерном зрении, который определяет, какие входные последовательности вносят наибольший вклад в прогноз. Вывод выделяет слова разной интенсивностью цвета, которые привели к предсказаниям Итаки об отсутствующем тексте, местоположении и датах.
Вклад в исторические дебаты
Наша экспериментальная оценка показывает, как дизайнерские решения Итаки и средства визуализации облегчают исследователям интерпретацию результатов. Опытные историки, с которыми мы работали, добились 25% точности, работая в одиночку над восстановлением древних текстов. Но при использовании Итаки их производительность увеличивается до 72%, превосходя индивидуальную производительность модели и демонстрируя потенциал сотрудничества человека и машины для улучшения исторической интерпретации, установления относительных датировок исторических событий и даже для участия в текущих методологических дебатах.
Например, в настоящее время историки расходятся во мнениях относительно даты ряда важных афинских указов, изданных в то время, когда жили такие известные личности, как Сократ и Перикл. Долгое время считалось, что указы были написаны до 446/445 г. до н.э., хотя новые данные предполагают дату 420-х гг. Хотя это может показаться небольшой разницей, эти декреты имеют основополагающее значение для нашего понимания политической истории классических Афин.
Наш обучающий набор данных содержит более раннюю цифру 446/445 г. до н.э. Чтобы проверить предсказания Итаки, мы переобучили его на наборе данных, который не содержал датированных надписей, а затем представили эти протянутые тексты для анализа. Примечательно, что средняя предполагаемая дата указов на Итаке — 421 г. до н. э., что согласуется с самыми последними прорывами в датировании и показывает, как машинное обучение может способствовать дебатам вокруг одного из самых значительных моментов в истории Греции.
Мы считаем, что это только начало для таких инструментов, как Итака, и потенциал для сотрудничества между машинным обучением и гуманитарными науками. Древняя Греция играет важную роль в нашем понимании Средиземноморья, но это всего лишь часть обширной глобальной картины цивилизаций. С этой целью в настоящее время мы работаем над версиями Итаки, обученными другим древним языкам, и историки уже могут использовать свои наборы данных в текущей архитектуре для изучения других древних систем письма, от аккадского до демотического и от иврита до майя. Мы надеемся, что такие модели, как Итака, смогут раскрыть потенциал сотрудничества между ИИ и гуманитарными науками, трансформируя то, как мы изучаем и пишем о некоторых из наиболее значительных периодов в истории человечества.