Исследовать
Наша новая архитектура Enformer, основанная на Transformers, продвигает генетические исследования, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.
Когда проекту «Геном человека» удалось составить карту последовательности ДНК человеческого генома, международное исследовательское сообщество было воодушевлено возможностью лучше понять генетические инструкции, влияющие на здоровье и развитие человека. ДНК несет генетическую информацию, которая определяет все: от цвета глаз до предрасположенности к определенным заболеваниям и расстройствам. Примерно 20 000 участков ДНК в организме человека, известных как гены, содержат инструкции об аминокислотной последовательности белков, которые выполняют многочисленные важные функции в наших клетках. Однако эти гены составляют менее 2% генома. Остальные пары оснований, на долю которых приходится 98% из 3 миллиардов «букв» в геноме, называются «некодирующими» и содержат менее понятные инструкции о том, когда и где гены должны производиться или экспрессироваться в организме человека. В DeepMind мы верим, что ИИ может открыть более глубокое понимание таких сложных областей, ускоряя научный прогресс и предлагая потенциальную пользу для здоровья человека.
Сегодня компания Nature Methods опубликовала статью «Эффективное предсказание экспрессии генов на основе последовательности путем интеграции дальних взаимодействий» (впервые опубликованная в виде препринта на bioRxiv), в которой мы — в сотрудничестве с нашими коллегами по Alphabet из Calico — представляем архитектуру нейронной сети под названием Enformer, которая привела к значительно повысить точность прогнозирования экспрессии генов по последовательности ДНК. Чтобы продвинуть дальнейшее изучение регуляции генов и причинных факторов заболеваний, мы также сделали нашу модель и ее первоначальные предсказания общих генетических вариантов открытым доступом здесь.
Предыдущие работы по экспрессии генов обычно использовали сверточные нейронные сети в качестве фундаментальных строительных блоков, но их ограничения в моделировании влияния дистальных энхансеров на экспрессию генов препятствовали их точности и применению. Наши первоначальные исследования опирались на Basenji2, который мог предсказывать регуляторную активность по относительно длинным последовательностям ДНК в 40 000 пар оснований. Вдохновленные этой работой и знанием того, что регуляторные элементы ДНК могут влиять на экспрессию на больших расстояниях, мы увидели необходимость фундаментальных архитектурных изменений для захвата длинных последовательностей.
Мы разработали новую модель, основанную на Трансформерах, распространенных в обработке естественного языка, чтобы использовать механизмы самообслуживания, которые могли бы интегрировать гораздо больший контекст ДНК. Поскольку Трансформеры идеально подходят для просмотра длинных отрывков текста, мы адаптировали их для «чтения» значительно расширенных последовательностей ДНК. Эффективно обрабатывая последовательности для учета взаимодействий на расстояниях, которые более чем в 5 раз (т.е. 200 000 пар оснований) превышают длину предыдущих методов, наша архитектура может моделировать влияние важных регуляторных элементов, называемых энхансерами, на экспрессию генов, начиная с более отдаленных участков последовательности ДНК. .
Enformer обучен прогнозировать функциональные геномные данные, включая экспрессию генов, на основе 200 000 пар оснований входной ДНК. В приведенном выше примере представлены три из более чем 5000 возможных геномных треков. Используя модули преобразователей, которые с помощью внимания собирают информацию по всей последовательности, мы можем эффективно рассматривать гораздо более длинные входные последовательности по сравнению с предыдущими моделями.
Чтобы лучше понять, как Enformer интерпретирует последовательность ДНК для получения более точных прогнозов, мы использовали оценки вклада, чтобы выделить, какие части входной последовательности оказали наибольшее влияние на прогноз. Следуя биологической интуиции, мы заметили, что модель обращала внимание на энхансеры, даже если они расположены на расстоянии более 50 000 пар оснований от гена. Предсказание того, какие энхансеры регулируют какие гены, остается основной нерешенной проблемой в геномике, поэтому мы были рады видеть, что показатели вклада Enformer сопоставимы с существующими методами, разработанными специально для этой задачи (с использованием экспериментальных данных в качестве входных данных). Энформер также узнал об инсуляторных элементах, которые разделяют две независимо регулируемые области ДНК.
Энформер обслуживает соответствующие регуляторные области ДНК (показаны синим цветом), называемые энхансерами (серые прямоугольники), даже на расстояниях более 20 000 пар оснований от гена благодаря более обширному рецептивному полю.
Хотя теперь можно полностью изучить ДНК организма, для понимания генома необходимы сложные эксперименты. Несмотря на огромные экспериментальные усилия, подавляющая часть контроля ДНК над экспрессией генов остается загадкой. С помощью ИИ мы можем исследовать новые возможности поиска закономерностей в геноме и выдвигать механистические гипотезы об изменениях последовательностей. Подобно программе проверки орфографии, Enformer частично понимает словарь последовательности ДНК и тем самым может выделить изменения, которые могут привести к изменению экспрессии генов.
Основное применение этой новой модели — предсказать, какие изменения букв ДНК, также называемые генетическими вариантами, изменят экспрессию гена. По сравнению с предыдущими моделями Enformer значительно точнее предсказывает влияние вариантов на экспрессию генов, как в случае естественных генетических вариантов, так и синтетических вариантов, которые изменяют важные регуляторные последовательности. Это свойство полезно для интерпретации растущего числа вариантов, связанных с заболеванием, полученных в ходе полногеномных исследований ассоциаций. Варианты, связанные со сложными генетическими заболеваниями, преимущественно расположены в некодирующей области генома, вероятно, вызывая заболевание путем изменения экспрессии генов. Но из-за внутренней корреляции между вариантами многие из этих вариантов, связанных с заболеванием, являются лишь ложно коррелирующими, а не причинными. Вычислительные инструменты теперь могут помочь отличить истинные ассоциации от ложных срабатываний.
Вариант rs11644125, расположенный в гене иммунного ответа NLRC5, связан с более низким уровнем моноцитарных и лимфоцитарных лейкоцитов. Систематически мутируя каждую позицию, окружающую вариант, и предсказывая результирующее изменение экспрессии гена NLRC5 (показано как высота буквы), мы заметили, что этот вариант приводит к общему снижению экспрессии NLRC5 и модулирует известный мотив связывания транскрипционного фактора, называемого SP1. Следовательно, предсказания Enformer предполагают, что биологическим механизмом влияния этого варианта на количество лейкоцитов является более низкая экспрессия гена NLRC5 из-за нарушения связывания SP1.
Мы далеки от решения неисчислимых загадок, остающихся в человеческом геноме, но Enformer — это шаг вперед в понимании сложности геномных последовательностей. Если вы заинтересованы в использовании ИИ для изучения того, как работают фундаментальные клеточные процессы, как они закодированы в последовательности ДНК и как создавать новые системы для развития геномики и нашего понимания болезней, мы нанимаем сотрудников. Мы также надеемся на расширение нашего сотрудничества с другими исследователями и организациями, желающими изучить вычислительные модели, которые помогут решить открытые вопросы, лежащие в основе геномики.