рНедавний прогресс в области искусственного интеллекта, особенно в области глубокого обучения, был ошеломляющим. Это очень обнадеживает всех, кто интересуется этой областью, однако истинный прогресс в области искусственного интеллекта человеческого уровня оценить гораздо сложнее.
Оценка искусственного интеллекта — очень сложная задача по ряду причин. Например, отсутствие консенсуса в отношении основных требований, необходимых для интеллектуальных машин, является одним из основных препятствий на пути разработки унифицированных подходов к сравнению различных агентов. Несмотря на то, что ряд исследователей специально сосредоточились на этой теме (например, Хосе Эрнандес-Оралло или Кристинн Р. Ториссон и другие), эта область выиграла бы от большего внимания со стороны сообщества ИИ.
Методы оценки ИИ — важные инструменты, помогающие оценить прогресс уже созданных агентов. Однако сравнение и оценка дорожных карт и подходов к созданию таких агентов изучены меньше. Такое сравнение потенциально еще сложнее из-за нечеткости и ограниченности формальных определений в таких перспективных планах.
Тем не менее, мы считаем, что для того, чтобы ориентироваться в перспективных областях исследований и выявлять потенциальные тупики, нам необходимо иметь возможность осмысленно сравнивать существующие дорожные карты. Такое сравнение требует создания структуры, определяющей процессы получения важной и сопоставимой информации из существующих документов с изложением их соответствующих дорожных карт. Без такой единой структуры каждая дорожная карта может отличаться не только своей целью (например, общий ИИ, ИИ человеческого уровня, диалоговый ИИ и т. д.), но и подходами к достижению этой цели, которые невозможно сравнивать и сопоставлять.
Этот пост дает представление о том, как мы в GoodAI начинаем смотреть на эту проблему внутри компании (сравнивая прогресс наших трех архитектурных команд) и как это может масштабироваться для сравнения в более широком сообществе. Это все еще в стадии разработки, но мы считаем, что было бы полезно поделиться этими первоначальными мыслями с сообществом, чтобы начать обсуждение того, что, по нашему мнению, является важной темой.
В первой части этой статьи представлено сравнение трех дорожных карт развития архитектуры GoodAI и обсуждается методика их сравнения. Основная цель — оценить потенциал и полноту планов по каждой архитектуре, чтобы иметь возможность направить усилия на наиболее перспективную.
Чтобы управлять добавлением дорожных карт от других команд, мы разработали общий план разработки ИИ на уровне человека, называемый мета-дорожной картой. Эта мета-дорожная карта состоит из 10 шагов, которые необходимо пройти, чтобы достичь «конечной» цели. Мы надеемся, что большинство потенциально несопоставимых планов решают одну или несколько проблем, указанных в мета-дорожной карте.
Затем мы попытались сравнить наши подходы с подходом Миколова и др. al, назначив текущие документы и открытые задачи проблемам в мета-дорожной карте. Мы сочли это полезным, поскольку оно показало нам, что сопоставимо, и что для каждой проблемы необходимы разные методы сравнения.
Три команды из GoodAI работали над своей архитектурой несколько месяцев. Теперь нам нужен метод измерения потенциала архитектур, чтобы иметь возможность, например, более эффективно направлять наши усилия, выделяя больше ресурсов команде с самым высоким потенциалом. Мы знаем, что определить, какой путь является наиболее перспективным на основе текущего состояния, пока невозможно, поэтому мы попросили команды, работающие над незавершенными архитектурами, составить планы будущего развития, т.е. создать свои дорожные карты.
Основываясь на предоставленных ответах, мы неоднократно унифицировали требования для этих планов. После многочисленных обсуждений мы пришли к следующей структуре:
- Единица плана называется веха и описывает некоторую часть работы над частью архитектуры (например, новый модуль, другая структура, улучшение модуля путем добавления функциональности, настройки параметров и т. д.)
- Каждая веха содержит — Оценка временито есть ожидаемое время, затрачиваемое на веху, при текущем размере команды, Характеристика работы или новых функций и Тест новых функций.
- План может быть прерван контрольно-пропускные пункты которые служат общими тестами для двух или более архитектур.
Теперь у нас есть набор основных инструментов для отслеживания прогресса:
- Мы увидим, сможет ли конкретная команда выполнить свои собственные тесты и, таким образом, сможет ли оправдать свои первоначальные ожидания по графику.
- Благодаря контрольно-пропускным пунктам можно сравнить архитектуры в середине разработки.
- Мы можем видеть, как далеко видит команда. В идеале после завершения последней вехи архитектура должна быть подготовлен к прохождению учебной программы (который тем временем будет разработан) и последующий окончательный тест.
- Общий оценки времени. Мы также можем их сравнить.
- Мы все еще работаем над унифицированным набором (среди архитектур GoodAI) функций, которые нам потребуются от архитектуры (требования к архитектуре).
Конкретные планы были размещены рядом (см. рис. 1), и были определены (в настоящее время нечетко) несколько контрольных точек. Как мы видим, у команд есть примерные планы работы более чем на год вперед, но планы не полные в том смысле, что архитектуры не будут готовы ни к какому учебному плану. Две архитектуры используют коннективистский подход, и их легко сравнивать. Третья, OMANN, манипулирует символами, поэтому с самого начала может выполнять задачи, которые трудны для двух других архитектур, и наоборот. Это означает, что контрольные точки для OMANN еще не определены. Мы рассматриваем отсутствие общих тестов как серьезную проблему в плане и ищем изменения, чтобы сделать архитектуру более сопоставимой с другими, хотя это может привести к некоторым задержкам в разработке.
Была попытка включить в сравнение другую архитектуру, но нам не удалось найти документ с таким подробным описанием будущей работы, за исключением документа Weston’s et al. бумага. После дальнейшего анализа мы определили, что статья посвящена несколько иной проблеме, чем разработка архитектуры. Мы обратимся к этому позже в посте.
Мы хотели бы взглянуть на проблему с точки зрения неизбежных шагов, необходимых для разработки интеллектуального агента. Сначала мы должны сделать несколько предположений относительно всего процесса. Мы понимаем, что они несколько расплывчаты — мы хотим сделать их приемлемыми для других исследователей ИИ.
- Цель состоит в том, чтобы создать программное обеспечение (называемое архитектура), который может быть частью какого-то агента в каком-то мире.
- В мире будут задачи, которые должен решить агент, или вознаграждение, основанное на состояниях мира, к которым должен стремиться агент.
- Интеллектуальный агент может адаптироваться к неизвестной/меняющейся среде и решать ранее невиданные задачи.
- Чтобы проверить, была ли достигнута конечная цель (независимо от того, как она определена), каждый подход нуждается в некотором четко определенном финальный тесткоторый показывает, насколько интеллектуален агент (предпочтительно по сравнению с людьми).
Прежде чем агент сможет пройти свой последний тест, должен пройти этап обучения, чтобы научить агента всем необходимым навыкам или способностям. Если существует вероятность того, что агент сможет пройти финальный тест, ничего не изучив, то последний тест недостаточен по отношению к пункту 3. Описание этапа обучения (которое может включать также описание мира) называется учебным планом.
Используя сделанные допущения (и еще несколько очевидных, которые мы не будем здесь перечислять), выводим рисунок 2, описывающий список необходимых шагов и их порядок. Мы называем эту диаграмму метадорожная карта.