Programación de tareas para el análisis de secuencias

Docentes:
Mgs. Ing. Laura Angelone, PhD. Ing. Flavio Spetale, Lic. Paolo Cacchiarelli

Objetivos:

1) Introducir y entrenar a los estudiantes en la lógica de la programación orientada al desarrollo de aplicaciones y metodologías bioinformáticas que permitan analizar y resolver problemas biológicos in silico.

2) Conocer los formatos básicos y las herramientas necesarias para el análisis de calidad de secuencias generadas por tecnologías de secuenciación de alto rendimiento.

3) Familiarizarse con los fundamentos de programación de tareas automatizadas (scripts) en los lenguajes Python y R orientados al procesamiento y análisis de secuencias de ADN/ARN y Proteínas. Utilización de paquetes de R/Bioconductor.

PROGRAMA

  1. Resolución de problemas algorítmicos. Análisis de problemas. Definición de Algoritmo. Diseño de algoritmos. Estrategias de resolución. Programación estructurada. Diferencia entre programación y empleo de utilitarios. Acciones primitivas. Estructuras de control. Buenos hábitos de programación. Programación modular. Subalgoritmos. Estructuras de datos. Ordenamiento y búsqueda. Ejercitación en Lenguaje R y Python.
  2. Formatos de archivos de uso más frecuente en Bioinformática. Fasta, GenBank, Embl, Pdb. Secuenciación de nueva generación (NGS): secuenciación de genomas, transcriptomas (RNA-Seq), y secuenciación de sitios de unión a factores de transcripción (Chip-Seq; DAP-Seq). Archivos relacionados a la tecnología de secuenciación masiva: FASTQ. BAM. SAM. BED. UCSC. Calidad de los archivos NGS. Uso de Samtools. Bedtools. Plataforma Galaxy: manejo de datos NGS, conversión de archivos, manipulación archivos de texto. Archivos de Anotaciones: GTF, GFF, TBL, BioMart.
  3. El lenguaje Python. Fortalezas y debilidades. Variables y sintaxis básica. Interfases: Jupyter Notebook y Spyder. Importación de archivos CSV. Paquete Pandas. Lectura de archivos FASTA. Obtención de estadísticas y manipulación de datos. Introducción al manejo de gráficos. Acceso a bases de datos desde Python.
  4. El lenguaje R. Tipo de Datos. Asignación de variables. Estructura de datos: Vectores, listas, matrices y data frame. Operaciones con archivos: lectura, escritura y extracción de datos desde planillas de cálculos tradicionales. Funciones. Estructuras de control. Nociones de gráficos. Nociones para la extracción de datos desde una página web. Manipulación de secuencias basadas en el uso de utilidades de la distribución R base.
  5. CRAN. Bioconductor, definición, historia y sumario. Manejo de NGS. Input and Output: rtracklayer, Rsamtools, ShortRead. Manipulación de Secuencias: Biostrings. Manipulaciones basadas en Rangos: IRanges, GenomicRanges. Anotaciones: GenomicFeatures, AnnotationDbi, Bsgenome. Mapas de calor (Heatmap)

Programa analítico de prácticos (carga horaria 30hs)

  1. Nociones básicas de Linux. Instalación de R y Python en Linux/Ubuntu.
  2. Ejercicios en Python para conocimiento del lenguaje. Transcripción de una secuencia de DNA. Pattern matching en secuencias biológicas. Ejercicio de creación de subrutinas y módulos.
  3. Ejercicios en R para conocimiento del lenguaje: Operaciones con datos biológicos, uso de funciones, manejo de strings, gráficos. Trabajo integrado orientado al manejo de secuencias biológicas.
  4. Manejo de secuencias NGS con Bioconductor, comandos GNU y plataforma Galaxy.
  5. Trabajo integrador. Actividades y formas de evaluación .La metodología de la actividad consistirá en clases teóricas/prácticas. Para la aprobación se deberá entregar un Trabajo Práctico de lógica de programación codificado en lenguaje R (base) y un “script” programado en Python para resolver un problema bioinformático (aplicación).

Requisitos para la aprobación:
Asistencia al 75 % de las clases y obtención de 6 puntos sobre 10 en cada una de las actividades de evaluación.

Profesionales a los que está dirigido el curso: Biólogos, Ingenieros Agrónomos, Licenciados en Genética, Licenciados en Biotecnología, Licenciados en Análisis de Sistemas, Ingenieros Electrónicos, Licenciados en Estadística y carreras afines a Bioinformática.

Cupo: Un mínimo de 5 alumnos y un máximo de 20 alumnos.

Carga horaria: 40 horas ( 4 créditos )

Inscripción Aquí

Bibliografía básica de referencia

  • Conrad Bessant, Ian Shadforth , Darren Oakley (2014) Building Bioinformatics Solutions: with Perl, R and MySQL. Second Edition Oxfordf University Press.
  • Joyanes, L.(2003) Fundamentos de Programación. Algoritmos, Estructuras de datos y Objetos, 3ª Ed., McGraw-Hill.
  • Introduccion a R – R Development Core Team (2000) https://cran.r-project.org/doc/
  • R. Gentleman, V. Carey, W. Huber, R. Irizarry, and S. Dudoit (2005) Bioinformatics and Computational Biology Solutions Using R and Bioconductor. Springer.
  • Mark Lutz (2009). Learning Python – 4th Edition. O’Reilly Media, Inc

Leave a Reply