Сценарий "Сборка геномов de-novo" предназначен для de novo сборки и аннотации геномов на основе данных мономолекулярного секвенирования (рисунок 1).
Рисунок 1 – Схема сценария "Сборка геномов de-novo" на платформе BioUML
Рассматриваемый сценарий состоит из 10 основных шагов (см. Таблица 1). Краткое описание используемых программ, их входных и выходных данных приведено в таблице 1.
Таблица 1 – Список шагов сценария "Сборка генома de-novo"
№ | Описание шага | Используемые программы |
---|---|---|
1 | Фильтрация исходных данных по качеству, отсечение слишком коротких прочтений | python3 pbcoretools.tasks.dataset_filter |
2 | Конвертирование отфильтрованных прочтений в базу данных | pancake seqdb |
3 | Нахождение пересечений в прочтениях | falconc ipa-shard-ovl-asym,pancake ovl-hifi |
4 | Сортировка и фильтрация локальных выравниваний | ipa2 ovl-asym-merge,sort |
5 | Фазирование прочтений | nighthawk split,nighthawk phase |
6 | Фильтрация пересечений | falconc m4filt |
7 | Сборка генома de-novo | pblayout |
8 | Полировка собранного генома | falconc ipa-polish-paf-split,pancake seqfetch,racon |
9 | Удаление гаплотигов и перекрытий в сборке генома на основе глубины прочтений | pancake, pbmm2 |
10 | Генерация отчета по сборке генома | ipa2 report_assembly2 |
В таблице 2 приведены типы входных и выходных данных рассматриваемого сценария. Интерфейс пользователя, а также параметры запуска сценария приведены в примере ниже.
Таблица 2 – Список входных данных и результатов использования сценария "Сборка генома de-novo"
Тип данных | Формат данных |
---|---|
Входные данные | |
Консенсусные прочтения | BAM |
Результаты | |
Результаты сборки генома | FASTA |
Отчёт о результатах сборки генома | HTML |
Используемые референсные базы данных: к настоящему моменту в на сервере по умолчанию доступны геномная сборки: hg38, однако пользователь может использовать импортированные данные в форматах FASTA и GTF/GFF. Набор поддерживаемых по-умолчанию геномных сборок может быть расширен администратором сервера по запросу, а также доступна загрузка геномных сборок пользователя на сервер в отдельную директорию пользователя.
Сценарий предназначен для de novo сборки геномов на основе данных мономолекулярного секвенирования (рисунок 2). Данный сценарий решает задачи сценария, описанного в пункте 2.2 приложения №2 ТЗ.
Рисунок 2 – Интерфейс запуска сценария "Сборка геномов de-novo"
В проекте "Sequencer examples" перейдите в директорию "De Novo Genome Assembly". Для просмотра структуры сценария в графическом виде кликните правой кнопкой мыши на WDL-сценарий "De_novo_genome_assembly_workflow.wdl". В открывшемся меню выберите пункт "Open image". Результат представлен на рисунке 3.
Рисунок 3 – Графическое представление структуры сценария "Сборка геномов de-novo"
Заполните параметры запуска сценария, используя значения из таблицы 3. В результате работы сценария будут получены выходные данные, также указанные в таблице 3 (Выходные данные).
Таблица 3 – Параметры сценария "Сборка геномов de-novo"
Параметр | Формат | Значение* | Краткое описание |
---|---|---|---|
Входные данные и параметры | |||
de_novo_assembly.reads | BAM | Input/H_pylori_j99.bam | Данные одномолекулярного секвенирования: консенсусные прочтения |
outFolder | Папка | Results | Путь до директории с результатами |
| | Выходные данные | | | FASTA | Results/final_purged_haplotigs.fasta | Окончательно отполированная сборка гаплотигов | | | FASTA | Results/final_purged_primary.fasta | Окончательно отполированная сборка первичных контигов | | | HTML | Results/assembly_report.html | Отчёт о результатах сборки генома |
* - указан путь относительно директории data/Collaboration/Sequencer examples/De Novo Genome Assembly