Skip to content

Biosoft-ru/De-Novo-Genome-Assembly

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Cценарий "Сборка геномов de-novo"

Сценарий "Сборка геномов de-novo" предназначен для de novo сборки и аннотации геномов на основе данных мономолекулярного секвенирования (рисунок 1).

Рисунок 1 – Схема сценария "Сборка геномов de-novo" на платформе BioUML

Рассматриваемый сценарий состоит из 10 основных шагов (см. Таблица 1). Краткое описание используемых программ, их входных и выходных данных приведено в таблице 1.

Таблица 1 – Список шагов сценария "Сборка генома de-novo"

Описание шага Используемые программы
1 Фильтрация исходных данных по качеству, отсечение слишком коротких прочтений python3 pbcoretools.tasks.dataset_filter
2 Конвертирование отфильтрованных прочтений в базу данных pancake seqdb
3 Нахождение пересечений в прочтениях falconc ipa-shard-ovl-asym,pancake ovl-hifi
4 Сортировка и фильтрация локальных выравниваний ipa2 ovl-asym-merge,sort
5 Фазирование прочтений nighthawk split,nighthawk phase
6 Фильтрация пересечений falconc m4filt
7 Сборка генома de-novo pblayout
8 Полировка собранного генома falconc ipa-polish-paf-split,pancake seqfetch,racon
9 Удаление гаплотигов и перекрытий в сборке генома на основе глубины прочтений pancake, pbmm2
10 Генерация отчета по сборке генома ipa2 report_assembly2

В таблице 2 приведены типы входных и выходных данных рассматриваемого сценария. Интерфейс пользователя, а также параметры запуска сценария приведены в примере ниже.

Таблица 2 – Список входных данных и результатов использования сценария "Сборка генома de-novo"

Тип данных Формат данных
Входные данные
Консенсусные прочтения BAM
Результаты
Результаты сборки генома FASTA
Отчёт о результатах сборки генома HTML

Используемые референсные базы данных: к настоящему моменту в на сервере по умолчанию доступны геномная сборки: hg38, однако пользователь может использовать импортированные данные в форматах FASTA и GTF/GFF. Набор поддерживаемых по-умолчанию геномных сборок может быть расширен администратором сервера по запросу, а также доступна загрузка геномных сборок пользователя на сервер в отдельную директорию пользователя.

Пример использования сценари] "Сборка геномов _ de-novo _ "

Сценарий предназначен для de novo сборки геномов на основе данных мономолекулярного секвенирования (рисунок 2). Данный сценарий решает задачи сценария, описанного в пункте 2.2 приложения №2 ТЗ.

Рисунок 2 – Интерфейс запуска сценария "Сборка геномов de-novo"

В проекте "Sequencer examples" перейдите в директорию "De Novo Genome Assembly". Для просмотра структуры сценария в графическом виде кликните правой кнопкой мыши на WDL-сценарий "De_novo_genome_assembly_workflow.wdl". В открывшемся меню выберите пункт "Open image". Результат представлен на рисунке 3.

Рисунок 3 – Графическое представление структуры сценария "Сборка геномов de-novo"

Заполните параметры запуска сценария, используя значения из таблицы 3. В результате работы сценария будут получены выходные данные, также указанные в таблице 3 (Выходные данные).

Таблица 3 – Параметры сценария "Сборка геномов de-novo"

Параметр Формат Значение* Краткое описание
Входные данные и параметры
de_novo_assembly.reads BAM Input/H_pylori_j99.bam Данные одномолекулярного секвенирования: консенсусные прочтения
outFolder Папка Results Путь до директории с результатами

| | Выходные данные | | | FASTA | Results/final_purged_haplotigs.fasta | Окончательно отполированная сборка гаплотигов | | | FASTA | Results/final_purged_primary.fasta | Окончательно отполированная сборка первичных контигов | | | HTML | Results/assembly_report.html | Отчёт о результатах сборки генома |

* - указан путь относительно директории data/Collaboration/Sequencer examples/De Novo Genome Assembly

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages