Исследователи Санкт-Петербургского государственного университета создали новый алгоритм для анализа ДНК, содержащейся в разных средах, к примеру, в почве, воде или… фекалиях.
Новый инструмент помог выяснить, что сегодня известна лишь половина всего многообразия человеческих кишечных бактерий. Достижение описано в научной статье, опубликованной в журнале Cell Systems Антоном Банкевичем и Павлом Певзнером.
Одна из важных задач биоинформатики заключается в том, чтобы восстанавливать последовательность нуклеотидов в молекуле ДНК. Именно в этих «кирпичиках» записана наследственная информация любого живого существа. Решение этой непростой задачи состоит из двух этапов: секвенирования (чтения) и сборки.
Первый процесс включает разрезание молекулы ДНК на более короткие куски и прочтение каждого из них отдельно. На этапе сборки при помощи математических алгоритмов геном восстанавливают из прочтённых фрагментов (ридов). Чем длиннее и точнее получаются риды во время секвенирования, тем эффективнее работают алгоритмы сборки, а значит, можно больше узнать о хозяине генома – животном, растении или бактерии.
Однако создание длинных ридов обходится дороже, поэтому исследователи нередко предпочитают им короткие фрагменты.
Но это не единственная проблема. Одно дело, когда нужно проанализировать геномы, скажем, одного конкретного штамма микробов. Но задача значительно усложняется, когда необходимо изучить целое сообщество.
Кроме того, большинство бактерий не поддаются размножению в стандартных лабораторных средах. А значит, не получится «переселить» микробиом из грязной лужи или человеческого кишечника в лабораторный сосуд, где будет удобнее анализировать генетические коды целого «букета» микроорганизмов.
На этот случай и существует метагеномика. Это набор методов для изучения молекул ДНК, извлечённых из образцов среды, например, содержимого человеческого кишечника. (Между прочим, по оценкам специалистов, там около килограмма бактерий, что должно утешать девушек, грустно взирающих на показания весов).
Задача генетиков при этом заключается в том, чтобы расшифровать ДНК всех этих микроорганизмов разом и разобраться, кому какая принадлежит. Новый алгоритм, разработанный исследователями из Санкт-Петербурга, позволяет гораздо эффективнее, чем раньше, исследовать такое «генетическое ассорти» (метагеном, как говорят специалисты).
«К сожалению, мы не знаем точно, какие фрагменты генома к каким бактериям относятся. Однако новый алгоритм помогает нам спрогнозировать, какого размера будет «белое пятно» – неизученная область метагенома, – говорит Банкевич в пресс-релизе исследования. – Эта информация позволяет увидеть полный масштаб многообразия бактериального сообщества, а значит – сэкономить немало средств исследователей».
Авторы первыми в мире предложили секвенировать ДНК сразу по двум технологиям: Illumina, которая позволяет получать короткие фрагменты ДНК, и TruSeq Synthetic Long Reads (TSLR), которая помогает восстанавливать более длинные участки генома.
Далее с помощью сложных математических методов можно понять, какие последовательности генов совпадают у разных прочтённых фрагментов. Это позволяет, в частности, выделить ДНК штаммов, редко встречающихся в данном конкретном сообществе.
«По нашим расчётам, суммарная длина геномов бактерий в кишечнике человека составляет 1,3 миллиарда нуклеотидов. [В то же время] длина геномов кишечных бактерий, которую на сегодня удалось восстановить исследователям, – всего 656 миллионов. Это значит, что мы знаем только около 50% микроорганизмов, которые живут у нас в животе», – объясняет Банкевич.
Между тем вопрос о микробном населении кишечника отнюдь не праздный. Мы уже писали о том, как эти бактерии влияют на развитие сердечно-сосудистых заболеваний и аутоиммунных патологий, борются с болезнями мозга и даже управляют нашими генами.