Proyecto de universidad. Desarrollo de varias actividades utilizando una base de datos de secuencias de ADN en formato FASTA Una secuencia del formato FASTA puede ser:
cytochrome_b GCGTCGCAGCCCCNNACCAAGGCGCCCGCCGGAGGACCAACCAAAACTCTTTTTGTATAC CCCCTCGCGGGTTTTTTATAATCTGAGCCTTCTCGGCGCCTCTCGTAGGCGTTTCGAAAA TGAATCAAAACTTTCAACAACGGATCTCTTGGTTCTGGCATCGATGAAGAACGCAGCGAA ATGCGATAAGTAATGTGAATTGCAGAATTCAGTGAATCATCGAATCTTTGAACGCACATT GCGCCCGCCAGTATTCTGGCGGGCATGCCTGTCCGAGCGTCATTTCAACCCTCGAACCCC
Un investigador de BioIngeniería de la ESPOL, posee una base datos de Genes en Formato FASTA. Los archivos están ubicados en la siguiente dirección: https://goo.gl/PyeuaA . Este investigador necesita automatizar algunas tareas, las cuales se describen a continuación:
Se desea obtener un nuevo archivo con la secuencia original de la cadena genética, la cadena reversa, la complementaria y la reversa complementaria. Para conocer cómo realizar esta tarea, puede consultar información en internet. En los siguiente link puede encontrar alguna información útil. Ud debe realizar esto para todos los archivos de genes disponibles en el repositorio de Genes.
El investigador desea conocer la lista de especies a la que pertenecen los genes de los que se tiene registros en archivos ubicados en https://goo.gl/PyeuaA. Su tarea consiste en automatizar todo el proceso de búsqueda de identidad de especies a través de BLAST. Se conoce de la existencia de una librería llamada BioPython, la cual hace posible realizar la consulta BLAST a través de este lenguaje de programación. Para esta tarea, ud debe identificar las especies utilizando BLAST a través de BioPython.
Se desea contar con un diagrama de barras o pastel de la cantidad de Nucleótidos (Timina, Adenina, Guanina, Citosina) de las cadenas pertenecientes a cada especie. Colocar 3 ejemplos de estos gráficos en su presentación.