La ‘base’ del Big Data

En anteriores post que hemos publicado se han mencionado a los datos que al fin y al cabo es información. Estos datos están creciendo de manera exponencial en nuestros días y, como sabréis, el Big Data se encarga de tratar y darles sentido a los datos: almacenarlos, analizarlos, incluso de obtener los propios datos. En este post vamos a centrarnos en la primera función mencionada: el almacenaje.

Este almacenaje de datos se lleva a cabo en las llamadas bases de datos. Estas no son ni más ni menos que una colección estructurada de datos. Como una biblioteca de datos, si se me permite el símil. Barriendo para casa y centrándonos más en temas que dominamos (un poco) mejor, como es la biología, las primeras bases de datos biológicas almacenaban secuencias de proteínas. Haciendo un poco de historia, en el año 1955 Frederick Sanger consigue determinar por primera vez la secuencia de aminoácidos de una proteína, la insulina, hormona producida en el páncreas. Con el paso del tiempo empiezan a determinarse la secuencia de más proteínas y es en el año 1965 cuando aparece nuestra protagonista principal: Margaret Oakley Dayhoff. Esta científica publicó el ‘Atlas of Protein Sequence and Structure’, la considerada primera base de datos biológica. Contenía ‘solamente’ 65 secuencias y se publicó en papel. Este atlas no solo contenía la secuencia de proteínas, sino que también fue la primera publicación del código de una letra para la nomenclatura de aminoácidos. Esa no fue la única aportación de Dayhoff a la ciencia y a la bioinformática (aplicación de los ordenadores a la biología), sino que también desarrolló el programa COMPROTEIN, un programa informático que ayudaba a la obtención de la secuencia primaria de proteínas.

Tipos de bases de datos hay muchos y muy variados, dependiendo de cómo las clasifiquemos tendremos:

Según el dato almacenado, si son secuencias de nucleótidos, de proteínas, estructuras de proteínas, etc.

Según su accesibilidad, si son públicas o privadas.

Pero la clasificación quizá más importante es según el origen de los datos, en este caso tendremos primarias y secundarias. En las primarias la información la sube directamente los propios científicos y puede haber redundancia de datos. En el caso de las secundarias, la información viene derivada de las bases de datos primarias, no tiene por qué venir solo de una base de datos y además, esta información está mejor controlada y depurada que en el caso de las bases primarias.

Como ejemplo de bases de datos primarias tenemos: GenBank, base de datos genética del NIH (National Institute of Health); DDBJ (DNA DataBank of Japan), homólogo japonés de GenBank; ENA (European Nucleotide Archive) que se encuentra dentro del EMBL-EBI (European Molecular Biology Laboratory-European Bioinformatics Institute); entre otras muchas más. Estas tres en particular participan en la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC por sus siglas en inglés). Esta colaboración tiene el propósito de facilitar el intercambio de información y unificación de algunas reglas como la nomenclatura y la organización. Centrándonos un poco más en la parte que nos toca, Europa, la base de datos ENA trabaja desde el principio del procedimiento, con la preparación y el aislamiento de la muestra que se va a secuenciar, seguido por la puesta a punto del secuenciador y los posteriores análisis que se realizan para comprobar que todo esté correcto.

Respecto a las bases de datos secundarias también encontramos un amplio catálogo: RefSeq, una base de datos que incluye secuencias de ADN, ARN y proteínas que se encuentra dentro del NCBI (National Center for Biotechnology Information); o UniProt (Universal Protein Resource). Esta última es una colaboración entre el Instituto de Bioinformática Europeo antes mencionado (EMBL-EBI), el Instituto de Bioinformática Suizo (SIB) y el Protein Information Resource (PIR), se centra únicamente en proteínas y se divide en tres ramas: UniProt Knowledgebase (UniProtKB), sitio clave para la recogida de información de las funciones de las proteínas, con una anotación rica, acertada y consistente; otra rama es UniProt Archive (UniParc), una base de datos no redundante que contiene la mayor parte de la información pública de secuencias de proteínas; y por último está UniProt Reference Clusters (UniRef), que ofrece conjunto de secuencias de UniProtKB y UniParc para obtener una cobertura completa de varias secuencias evitando las regiones redundantes.

Deja un comentario

Diseña un sitio como este con WordPress.com
Comenzar