Прогнозирование экспрессии генов с помощью ИИ | GPTMain News

Наша новая архитектура Enformer, основанная на трансформерах, продвигает вперед генетические исследования, улучшая способность предсказывать, как последовательность ДНК влияет на экспрессию генов.

Когда в рамках проекта «Геном человека» удалось составить карту последовательности ДНК человеческого генома, международное исследовательское сообщество было взволновано возможностью лучше понять генетические инструкции, влияющие на здоровье и развитие человека. ДНК несет генетическую информацию, которая определяет все, от цвета глаз до предрасположенности к определенным заболеваниям и расстройствам. Примерно 20 000 участков ДНК в организме человека, известных как гены, содержат инструкции об аминокислотной последовательности белков, которые выполняют множество важных функций в наших клетках. Однако эти гены составляют менее 2% генома. Остальные пары оснований, на долю которых приходится 98% из 3 миллиардов «букв» в геноме, называются «некодирующими» и содержат менее понятные инструкции о том, когда и где гены должны производиться или экспрессироваться в организме человека. В DeepMind мы считаем, что ИИ может открыть более глубокое понимание таких сложных областей, ускоряя научный прогресс и предлагая потенциальные преимущества для здоровья человека.

Сегодня Nature Methods опубликовали статью «Эффективное предсказание экспрессии генов на основе последовательности путем интеграции дальнодействующих взаимодействий» (впервые опубликованную в качестве препринта на сайте bioRxiv), в которой мы — в сотрудничестве с нашими коллегами по Alphabet из Calico — представляем архитектуру нейронной сети под названием Enformer, которая привела значительно повысить точность предсказания экспрессии генов по последовательности ДНК. Чтобы продвинуть дальнейшее изучение регуляции генов и причинных факторов заболеваний, мы также сделали нашу модель и ее первоначальные прогнозы общих генетических вариантов открытыми доступными здесь.

Предыдущие работы по экспрессии генов обычно использовали сверточные нейронные сети в качестве фундаментальных строительных блоков, но их ограничения в моделировании влияния дистальных энхансеров на экспрессию генов препятствовали их точности и применению. Наши первоначальные исследования основывались на Basenji2, который мог предсказать регуляторную активность на основе относительно длинных последовательностей ДНК из 40 000 пар оснований. Вдохновленные этой работой и знанием того, что регуляторные элементы ДНК могут влиять на экспрессию на больших расстояниях, мы увидели необходимость фундаментальных архитектурных изменений для захвата длинных последовательностей.

Мы разработали новую модель, основанную на трансформерах, обычных для обработки естественного языка, чтобы использовать механизмы самоконтроля, которые могли бы интегрировать гораздо более широкий контекст ДНК. Поскольку Transformers идеально подходят для просмотра длинных фрагментов текста, мы адаптировали их для «чтения» значительно расширенных последовательностей ДНК. Эффективно обрабатывая последовательности для учета взаимодействий на расстояниях, которые более чем в 5 раз (т. е. 200 000 пар оснований) превышают длину предыдущих методов, наша архитектура может моделировать влияние важных регуляторных элементов, называемых энхансерами, на экспрессию генов из более отдаленных участков последовательности ДНК. .

Enformer обучен прогнозировать функциональные геномные данные, включая экспрессию генов из 200 000 пар оснований входной ДНК. В приведенном выше примере представлены три из более чем 5000 возможных геномных треков. Используя модули преобразования, которые собирают информацию по всей последовательности, используя внимание, мы можем эффективно рассматривать гораздо более длинные входные последовательности по сравнению с предыдущими моделями.

Чтобы лучше понять, как Enformer интерпретирует последовательность ДНК для получения более точных прогнозов, мы использовали оценки вклада, чтобы выделить, какие части входной последовательности оказали наибольшее влияние на прогноз. Следуя биологической интуиции, мы заметили, что модель обращала внимание на энхансеры, даже если они находились на расстоянии более 50 000 пар оснований от гена. Предсказание того, какие энхансеры регулируют какие гены, остается серьезной нерешенной проблемой в геномике, поэтому мы были рады видеть, что оценки вклада Enformer сравнимы с существующими методами, разработанными специально для этой задачи (с использованием экспериментальных данных в качестве входных данных). Enformer также узнал об элементах-изоляторах, которые разделяют две независимо регулируемые области ДНК.

Enformer взаимодействует с соответствующими регуляторными областями ДНК (показаны синим цветом), называемыми энхансерами (серые прямоугольники), даже на расстоянии более 20 000 пар оснований от гена благодаря более обширному рецептивному полю.

Хотя теперь можно полностью изучить ДНК организма, для понимания генома требуются сложные эксперименты. Несмотря на огромные экспериментальные усилия, подавляющее большинство механизмов ДНК, контролирующих экспрессию генов, остаются загадкой. С помощью ИИ мы можем исследовать новые возможности для поиска паттернов в геноме и выдвигать механистические гипотезы об изменении последовательности. Подобно средству проверки орфографии, Enformer частично понимает словарь последовательности ДНК и, таким образом, может выделять изменения, которые могут привести к изменению экспрессии генов.

Основное применение этой новой модели — предсказать, какие изменения в буквах ДНК, также называемые генетическими вариантами, изменят экспрессию гена. По сравнению с предыдущими моделями Enformer значительно точнее предсказывает влияние вариантов на экспрессию генов, как в случае естественных генетических вариантов, так и в случае синтетических вариантов, которые изменяют важные регуляторные последовательности. Это свойство полезно для интерпретации растущего числа вариантов, связанных с заболеванием, полученных в ходе полногеномных ассоциативных исследований. Варианты, связанные со сложными генетическими заболеваниями, преимущественно расположены в некодирующей области генома и, вероятно, вызывают заболевание путем изменения экспрессии генов. Но из-за врожденных корреляций между вариантами многие из этих вариантов, связанных с заболеванием, лишь ложно коррелируют, а не являются причинными. Вычислительные инструменты теперь могут помочь отличить истинные ассоциации от ложных срабатываний.

Вариант rs11644125, расположенный в гене иммунного ответа NLRC5, связан с более низким уровнем моноцитов и лимфоцитов лейкоцитов. Путем систематической мутации каждого положения, окружающего вариант, и прогнозирования результирующего изменения экспрессии гена NLRC5 (обозначенного высотой буквы), мы заметили, что этот вариант приводит к общему снижению экспрессии NLRC5 и модулирует известный мотив связывания фактора транскрипции под названием SP1. Следовательно, предсказания Enformer предполагают, что биологический механизм, лежащий в основе влияния этого варианта на количество лейкоцитов, заключается в более низкой экспрессии гена NLRC5 из-за нарушенного связывания SP1.

Мы далеки от решения невыразимых загадок, остающихся в геноме человека, но Enformer — это шаг вперед в понимании сложности геномных последовательностей. Если вы заинтересованы в использовании ИИ для изучения того, как работают фундаментальные клеточные процессы, как они кодируются в последовательности ДНК и как создавать новые системы для развития геномики и нашего понимания болезней, мы нанимаем вас. Мы также с нетерпением ожидаем расширения нашего сотрудничества с другими исследователями и организациями, стремящимися изучить вычислительные модели, чтобы помочь решить открытые вопросы, лежащие в основе геномики.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس