Big Little Data

Destacada

¿Quiénes somos?

CONÓCENOS

¡Hola!

Somos un grupo de estudiantes de 4º año del grado en Biotecnología de la Universidad Miguel Hernández de Elche (UMH). Estamos realizando un trabajo acerca del Big Data y sus aplicaciones en la ciencia y queremos hacer una labor de divulgación para que vosotras y vosotros podáis conocer de una forma fácil y dinámica qué engloba esta disciplina.

Esperamos que este blog os sirva de ayuda y que os permita acercaros un poco más a esta ciencia, en muchas ocasiones, desconocida.

Atentamente,

Laura, Avelina, Manuel, Jesús y Eduardo.

La ‘base’ del Big Data

En anteriores post que hemos publicado se han mencionado a los datos que al fin y al cabo es información. Estos datos están creciendo de manera exponencial en nuestros días y, como sabréis, el Big Data se encarga de tratar y darles sentido a los datos: almacenarlos, analizarlos, incluso de obtener los propios datos. En este post vamos a centrarnos en la primera función mencionada: el almacenaje.

Este almacenaje de datos se lleva a cabo en las llamadas bases de datos. Estas no son ni más ni menos que una colección estructurada de datos. Como una biblioteca de datos, si se me permite el símil. Barriendo para casa y centrándonos más en temas que dominamos (un poco) mejor, como es la biología, las primeras bases de datos biológicas almacenaban secuencias de proteínas. Haciendo un poco de historia, en el año 1955 Frederick Sanger consigue determinar por primera vez la secuencia de aminoácidos de una proteína, la insulina, hormona producida en el páncreas. Con el paso del tiempo empiezan a determinarse la secuencia de más proteínas y es en el año 1965 cuando aparece nuestra protagonista principal: Margaret Oakley Dayhoff. Esta científica publicó el ‘Atlas of Protein Sequence and Structure’, la considerada primera base de datos biológica. Contenía ‘solamente’ 65 secuencias y se publicó en papel. Este atlas no solo contenía la secuencia de proteínas, sino que también fue la primera publicación del código de una letra para la nomenclatura de aminoácidos. Esa no fue la única aportación de Dayhoff a la ciencia y a la bioinformática (aplicación de los ordenadores a la biología), sino que también desarrolló el programa COMPROTEIN, un programa informático que ayudaba a la obtención de la secuencia primaria de proteínas.

Tipos de bases de datos hay muchos y muy variados, dependiendo de cómo las clasifiquemos tendremos:

Según el dato almacenado, si son secuencias de nucleótidos, de proteínas, estructuras de proteínas, etc.

Según su accesibilidad, si son públicas o privadas.

Pero la clasificación quizá más importante es según el origen de los datos, en este caso tendremos primarias y secundarias. En las primarias la información la sube directamente los propios científicos y puede haber redundancia de datos. En el caso de las secundarias, la información viene derivada de las bases de datos primarias, no tiene por qué venir solo de una base de datos y además, esta información está mejor controlada y depurada que en el caso de las bases primarias.

Como ejemplo de bases de datos primarias tenemos: GenBank, base de datos genética del NIH (National Institute of Health); DDBJ (DNA DataBank of Japan), homólogo japonés de GenBank; ENA (European Nucleotide Archive) que se encuentra dentro del EMBL-EBI (European Molecular Biology Laboratory-European Bioinformatics Institute); entre otras muchas más. Estas tres en particular participan en la Colaboración Internacional de Bases de Datos de Secuencias de Nucleótidos (INSDC por sus siglas en inglés). Esta colaboración tiene el propósito de facilitar el intercambio de información y unificación de algunas reglas como la nomenclatura y la organización. Centrándonos un poco más en la parte que nos toca, Europa, la base de datos ENA trabaja desde el principio del procedimiento, con la preparación y el aislamiento de la muestra que se va a secuenciar, seguido por la puesta a punto del secuenciador y los posteriores análisis que se realizan para comprobar que todo esté correcto.

Respecto a las bases de datos secundarias también encontramos un amplio catálogo: RefSeq, una base de datos que incluye secuencias de ADN, ARN y proteínas que se encuentra dentro del NCBI (National Center for Biotechnology Information); o UniProt (Universal Protein Resource). Esta última es una colaboración entre el Instituto de Bioinformática Europeo antes mencionado (EMBL-EBI), el Instituto de Bioinformática Suizo (SIB) y el Protein Information Resource (PIR), se centra únicamente en proteínas y se divide en tres ramas: UniProt Knowledgebase (UniProtKB), sitio clave para la recogida de información de las funciones de las proteínas, con una anotación rica, acertada y consistente; otra rama es UniProt Archive (UniParc), una base de datos no redundante que contiene la mayor parte de la información pública de secuencias de proteínas; y por último está UniProt Reference Clusters (UniRef), que ofrece conjunto de secuencias de UniProtKB y UniParc para obtener una cobertura completa de varias secuencias evitando las regiones redundantes.

¿QUÉ RELACIÓN TIENE ROBINSON CRUSOE CON LA LEY DE PROTECCIÓN DE DATOS?

A primera vista parece que un libro sobre un náufrago inglés que pasa 28 años en una remota isla desierta no tiene mucho que ver con nuestro tema, pero estamos muy equivocados. La Lista Robinson obtiene su nombre de este náufrago, simbolizando que toda aquella persona que se apunte a ella vive “aislada”, ya que no recibe publicidad a través de medios digitales, telefónicos o convencionales. ¿Esto por qué es? Pues bien, la Lista Robinson es un servicio de exclusión publicitaria gratuito, a disposición de los consumidores. Esto implica que el inscrito solo obtiene la publicidad que ha aceptado expresamente y supondrá el fin de los correos publicitarios masivos, así como, las continuas llamadas telefónicas ofreciendo servicios y productos.

¿Cómo puedo incluir mi nombre en esta lista? Funciona por inscripción personal en la lista, lo que es un poco contrasentido porque tienes que ceder tus datos con los peligros que conlleva, para conseguir que no sean tratados en campañas publicitarias, a veces demasiado agresivas.

La nueva LOPDGDD, en su artículo 23 establece, que las empresas que pretenden realizar comunicaciones de mercadotecnia directa, deben consultar los sistemas de exclusión publicitaria previamente, excluyendo así de sus comunicaciones, los datos de los afectados que hubieran manifestado su oposición o negativa a las mismas. No será necesario realizar la consulta, cuando el afectado haya prestado su consentimiento expreso a la empresa en cuestión para recibir la comunicación.

Recientemente, en el mes de abril de 2019, la AEPD y la Asociación Española de Economía Digital han presentado novedades en el funcionamiento de la referida lista, haciendo un sistema de consulta más fácil, seguro y gratuito para las PYMES y autónomos que pueden consultar sin coste esta lista antes de enviar la publicidad hasta en un máximo de 30.000 registros.

A pesar de todo, seguimos considerando más seguro, el sistema de aislamiento en una isla desierta de Robinson Crusoe.

Datos Sensibles

¿Qué son los datos sensibles o las categorías especiales de datos? Son datos personales especialmente protegidos por afectar a la intimidad, las libertades públicas y los derechos fundamentales de las personas. Hemos querido hacer este post para destacar este tipo de datos dada su importancia en el mundo de la investigación.

¿Qué datos en concreto deben ser especialmente protegidos? Las opiniones políticas, la afiliación sindical, las convicciones religiosas o filosóficas, el origen racial o étnico, los datos relativos a la salud, datos genéticos, datos biométricos, vida y orientación sexual.

El Reglamento General de Protección de Datos prohíbe el tratamiento de datos sensibles, pero establece una serie de excepciones. La primera y principal es que debe existir un consentimiento explícito del interesado con las finalidades especificadas, en caso de que no se obtuviese dicho consentimiento, estos datos también podrán ser tratados en una serie de circunstancias que el Reglamento enumera. Estas circunstancias son excepcionales y se pueden leer en el Artículo 9 del RGPD, por lo que yo solo voy a destacar las que más pueden afectar al campo de la investigación. ¿Cuáles son estas circunstancias? El RGPD establece que “el tratamiento es necesario por razones de interés público en el ámbito de la salud pública como la protección frente a amenazas transfronterizas graves para la salud, o para garantizar elevados niveles de calidad y de seguridad de la asistencia sanitaria y de los medicamentos o productos sanitarios, sobre la base del Derecho de la Unión o de los Estados miembros que establezca medidas adecuadas y específicas para proteger los derechos y libertades del interesado, en particular el secreto profesional” y “con fines de archivo o interés público, fines de investigación científica o histórica, o fines estadísticos de conformidad con el artículo 89, apartado 1, sobre la base del Derecho de la Unión o de los Estados miembros, que debe ser proporcional al objetivo perseguido, respetar en lo esencial el derecho a la protección de datos y establecer medidas adecuadas y específicas para proteger los intereses y derechos fundamentales del interesado.”

Por otra parte, el artículo 9 de la Ley Orgánica de Protección de Datos ha establecido mayores limitaciones que el Reglamento Europeo, y exige que se den las dos condiciones, es decir, se requiere tanto el consentimiento explícito, como el cumplimiento de las circunstancias especiales descritas en el Reglamento. Sin embargo, esta doble exigencia solo está referida para una parte de los datos sensibles, anteriormente enumerados, dejando fuera de esta doble limitación los datos relativos a la salud, datos genéticos y datos biométricos, con la posibilidad de ser tratados solo con el consentimiento del interesado en las circunstancias excepcionales antes descritas.Finalmente, indicar que existen una serie de medidas obligatorias para tratar datos sensibles que son, sin ánimo de extenderme: el registro de actividades del tratamiento de datos, la elaboración de una evaluación de impacto y el establecimiento de importantes medidas de seguridad, destacando medidas como el cifrado, el registro de accesos, la elaboración de listas de personas autorizadas y la elaboración de un procedimiento seguro para su tratamiento.

¿Son las cookies el monstruo?

Cada vez que entráis a una página web a la que nunca habíais entrado os aparece una molesta pestaña que ocupa media página, las cookies. Muchas veces habréis pinchado en aceptar solamente para que desapareciera sin saber realmente qué es eso de cookies y para qué sirven.

Las cookies son archivos que un sitio web, al que entráis por primera vez, crea y que contiene información que se envía desde un emisor a un receptor. El receptor es el navegador que utilizas para visitar las páginas web (Google Chrome, Mozilla Firefox, etc.) y el emisor es la propia página web.

Pero remontémonos al principio. Año 1994, Netscape Communications Corporation, lugar y año de la primera cookie. Esta fue creada para facilitar que los usuarios de e-commerce mantuvieran en el carrito los artículos seleccionados, facilitando así el proceso de compra. Y, ¿para qué se utilizan hoy en día? La información por la red viaja dentro de paquetes de información que usan el protocolo HTTP, un protocolo sin estado: no es capaz de mantener la historia de las peticiones y acciones que hace un usuario entre diferentes peticiones. Aquí es donde entran las cookies, ya que estas permiten guardar información. Por ejemplo, la opción ‘Recuérdame’ cuando inicias sesión en cualquier red social existe gracias a las ‘cookies’ ya que guardan tus datos de acceso.

Ahora bien, ¿son todas las cookies iguales? No, existen distintos tipos y clasificaciones:

Según su duración tenemos las session cookies o persistent cookies. Las primeras tienen un ciclo de vida corto y son eliminadas una vez el usuario ha cerrado el navegador. Caso contrario ocurre con las persistent cookies, estas son capaces de almacenarse una vez se haya cerrado el navegador y se puede acceder a ellas cuando vuelves a abrirlo. Aunque se almacenen más tiempo, el usuario puede borrarlas del navegador y algunas de ellas tienen tiempo de expiración.

También las podemos clasificar según quién las gestione: propias, cuando se gestionan desde el dominio del propio editor; o de terceros, cuando las gestiona otra entidad, este el caso de las compañías publicitarias.

También están las técnicas, que controlan el tráfico y comunicación de datos; las personalizadas, que dejan a los usuarios acceder a según qué sitios web según las características que se recogen; las de análisis, que recogen datos sobre el comportamiento del usuario y elaboran un perfil.

Por último, un tipo de cookie curioso son las zombie cookies, que aunque sean borradas pueden recrearse a sí mismas. Estas cookies no se guardan en el navegador, si no en el dispositivo, para poder acceder a la información que guardan sin importar el navegador usado, por eso se vuelven a crear.

Y ahora queda por saber, ¿cómo se regulan las cookies? En la Unión Europea está en vigor la Directiva 2009/136/CE de 25 de noviembre de 2009, que protege al usuario y dice que éste debe ser informado de forma clara del uso de las cookies y que debe aceptar explícitamente que sus datos pueden ser recogidos. Es por esto que siempre nos sale esa molesta ‘pestañita’ diciéndonos que aceptemos las cookies. Aunque debería haber entrado en vigor otro reglamento a lo largo de este año 2019, donde se establece un más alto nivel de privacidad, de esta forma, el navegador no aceptaría cookies de terceros y se eliminarían los banners ya que los usuarios tendrían que aceptar las cookies que los instalaran. En España, actualmente la ley es parecida a la europea, que establece la obligación de informar sobre el uso de cookies y la obligación de obtener el consentimiento del usuario.

Referencias:

ISABEL MARROQUÍN: “ACTUALMENTE CUALQUIER TIPO DE EMPRESA PODRÍA BENEFICIARSE DEL BIG DATA”.

Isabel Marroquín Fernández es abogada recientemente jubilada. Ha sido Secretaria Territorial y Jefa de los Servicios Jurídicos de Telefónica de España S.A.U. en Levante. Ella nos ha proporcionado una visión jurídica del Big Data, ayudándonos a comprender un poco mejor la regulación legal.

P: ¿Puede explicarnos la importancia de la nueva ley de protección de datos y garantías digitales? ¿Cómo influirá esta ley en el tema del Big Data?

R: Considero su importancia capital e imprescindible: debemos tener en cuenta que la protección de las personas en relación al tratamiento de los datos personales es un DERECHO FUNDAMENTAL, que está protegido en el artículo 18.4 de nuestra Constitución. La Ley que teníamos, que desarrollaba este derecho, era muy antigua, en concreto del año 1999 y no regulaba muchos escenarios que se han ido produciendo con los avances tecnológicos. La nueva Ley era necesaria para adaptar el Reglamento General de Protección de Datos de 25 de mayo de 2018 a la legislación española, modernizar la regulación y proporcionar mayor seguridad jurídica.

En cuanto a la segunda parte de la pregunta, la nueva Ley da mayor control a las personas sobre sus datos y como lógica consecuencia, limitará el uso del Big Data, por ejemplo, para fines comerciales. Las empresas tienen que adaptarse a la nueva regulación, pedir los consentimientos necesarios y, en definitiva, cumplir la Ley o arriesgarse a multas considerables.

P: ¿Cuáles son estas garantías digitales de las que la ley presume?

R: Las garantías de los derechos digitales están reguladas en el Título X, a partir del artículo 79, y sin ánimo de extenderme demasiado y señalando las más importantes, os detallo unas cuantas:

Se reconoce el derecho de acceso a internet, que debe ser universal, asequible, de calidad y no discriminatorio.

El derecho a la seguridad digital en las comunicaciones que se realizan a través de internet y que enlaza con el derecho a la privacidad de las comunicaciones digitales.

El derecho de rectificación y el derecho al olvido, para poder rectificar información, por ejemplo, en redes sociales, y poder eliminar información a solicitud de la persona interesada.

Existen otros muchos derechos, como la protección de los menores en internet o la desconexión digital en el ámbito laboral, pero no quiero extenderme demasiado porque todos ellos están en la ley.

P: Sabemos que usted fue jefede los Servicios Jurídicos de Telefónica en la Comunidad Valenciana, ¿Ofrece esta empresa servicios de Big Data? ¿A qué tipo de empresas van dirigidos estos servicios?

R: Si, lógicamente, como es público y notorio, y aparece en su propia página web, Telefónica ofrece servicios de Big Data y se ofrecen a todas las empresas que quieran sacar el máximo partido a los datos, para mejorar la eficacia de su organización y prestar un mejor servicio a sus clientes, ajustando las ofertas a las necesidades y servicios reales; actualmente cualquier tipo de empresa podría beneficiarse del Big Data.

P: ¿Qué recursos se emplean en Telefónica para respetar la privacidad de los datos de sus clientes?

R: Como Vd. ha indicado, en estos momentos no soy responsable de los Servicios Jurídicos en esta Comunidad, pero por la información que tengo, todas las soluciones de Big Data de Telefónica han sido presentadas a la Agencia de Protección de Datos, y se trabaja con identificadores encriptados y con un módulo de anonimización: todos los datos que se entregan a los clientes son extrapolados de un conjunto.

P: ¿Cuál es la diferencia entre la anonimización y seudonimización de los datos?

R: La anonimización, tal y como es entendida por la Agencia Española de Protección de Datos, es la ruptura de la cadena de identificación de las personas. Los datos personales que se tratan no se pueden asociar de ninguna forma a la persona titular de los mismos, por poner un ejemplo, número de personas en una franja de edad, nombres de personas sin DNI, apellidos, etc.

La seudonimización consiste en tratar los datos personales sin los datos identificativos de la persona, pero sin suprimir la vinculación entre los datos que consigan determinar la persona titular de los mismos, con un ejemplo se entiende mejor, sustituir los nombres de un cliente por un código o un identificador numérico, es decir, cambiar los datos personales por seudónimos.

La diferencia fundamental es que en la anonimización se disocian totalmente los datos personales, y es algo irreversible, sin embargo, en la seudonimización se desvinculan los datos identificativos, pero se mantienen datos adicionales que pueden reidentificar a las personas, por lo tanto, es un procedimiento reversible. Resumiendo, en el procedimiento de seudonimización siempre debe aplicarse la Ley de Protección de Datos a diferencia del supuesto de anonimización.

«Toda persona tiene derecho a exigir que se corrijan, parte o todos sus datos, en caso de que sean erróneos o le causen perjuicios»

P: ¿Qué es el habeas data? ¿Qué importancia tiene?

R: Es el recurso legal que tiene cualquier persona para acceder a un banco de información o registro de datos que incluye referencias sobre uno mismo. Toda persona tiene derecho a exigir que se corrijan, parte o todos sus datos, en caso de que sean erróneos o le causen perjuicios.

Etimológicamente sería algo así como “tener datos” y deviene del traslado al mundo digital de una figura jurídica muy consolidada como es el habeas corpus, ”tener el cuerpo”, esto es, que toda persona tiene derecho a la libertad y a un procedimiento para conseguir la inmediata puesta a disposición judicial, si es detenida ilegalmente.

En el ámbito que nos interesa, podría explicarse como la garantía de que nadie tenga secuestrados nuestros datos, sin posibilidad alguna de acceder a los mismos.

P: Actualmente casi todos los niños hacen uso de herramientas digitales, pero, ¿A qué edad puede una persona prestar consentimiento para que puedan utilizar sus datos?

R: Está regulado en el artículo 7 de la Ley 3/2018 de 5 de diciembre de la que venimos hablando, y en esencia dice que se exige que como mínimo, el menor sea mayor de 14 años, pero no sirve para los negocios jurídicos en los que el menor necesite la asistencia de los titulares de la patria potestad.

«El consentimiento tiene que ser explícito y prestarse para cada tratamiento»

P: ¿Cómo se tiene que prestar consentimiento para la utilización de nuestros datos? ¿Tiene que ser por escrito, explícito…?

R: Está regulado en el artículo 6 de la Ley, y se entiende por consentimiento toda manifestación de voluntad libre, específica, informada e inequívoca, por la que la persona acepta, ya sea mediante una declaración o una aclaración afirmativa, el tratamiento de los datos personales que le afectan. Si se pretende el tratamiento de los datos para una pluralidad de finalidades, será preciso que conste de manera específica e inequívoca que se presta el consentimiento para todas ellas. Resumiendo, el consentimiento tiene que ser explícito y prestarse para cada tratamiento.

P: ¿Existe algún organismo que controle o al que denunciar los usos indebidos de datos?

R: La ley regula en el Título VII diversas autoridades para la protección de datos, la más importante es la Agencia Española de Protección de Datos. El artículo 44 especifica que es una autoridad administrativa, independiente, estatal que se relaciona con el gobierno a través del Ministerio de Justicia y que será el representante común de las autoridades de protección de datos en el Comité Europeo de Protección de Datos. Si leéis la Ley veréis que aparece en casi todos los Títulos de la misma con variadas funciones.

También se regulan autoridades Autonómicas de Protección de Datos con unas competencias muy específicas en relación con las Comunidades Autónomas.

Miguel Pelaez: ‘EL BIG DATA NO CREA NUEVOS PROBLEMAS, AMPLIFICA LOS QUE COMO SOCIEDAD NO HEMOS CONSEGUIDO RESOLVER’.

Miguel Pelaez Fernandez trabaja como Data Scientist para Tecnatom. También es el director de Clubes de ciencia en España una asociación cuyo objetivo es el mentoring científico. En esta entrevista veremos su opinión e impresiones sobre el Big Data.

P:¿Qué entiende usted por el término Big data?

R: Esto es un término que se acuña para nombrar una serie de cosas que están ocurriendo en el mundo en general y en el económico y de negocios en particular. La palabra en sí es vacua, carece de significado salvo el literal, sin embargo la usamos para referirnos a todo lo que engloba. ¿Y que engloba? Pues, la digitalización, el usar analiticas avanzadas sobre grandes cantidades de datos, la aplicación de algoritmos de inteligencia artificial, aplicaciones nuevas en sectores nuevos, nuevos modelos de negocio. En principio engloba cosas de este estilo que estamos viviendo, y experimentando como usuarios, pero en realidad no es una técnica en concreto, ni nada por el estilo. Nomen est omen que decían los romanos.

P:¿Cómo definiría su trabajo y cuál es su relación con el Big Data?

R: Mi trabajo es el de buscar cómo resolver problemas de negocio o automatizar procesos, usando datos del negocio o del proceso como activo y algoritmos de inteligencia artificial o analiticas avanzadas como herramientas para resolverlos. Esas dos combinaciones de palabras, datos = activos y algoritmos = herramientas son clave para entender el trabajo que tiene que hacer uno. La denominación de perfiles como el mío son data scientist. Científico de datos. Como indica el nombre, soy un científico que me dedico a usar los datos de la empresas o afines a la empresa para resolver problemas, realizar experimentos, etc., con objeto de ayudar a la empresa.

P:¿Qué aplicaciones tiene actualmente el Big Data? ¿Y en el futuro?

R: En cualquier ámbito que exista datos o que se puedan recabar datos usando otras tecnologías sensoriales. El futuro seguirá siendo así y las aplicaciones estarán moldeadas por la creatividad de la gente por un parte y las necesidades sociales a medida que van evolucionando nuevos modelos de negocio asociados a la explotación de datos. No creo que haya respuestas concretas hacia el futuro, salvo que el camino se va a hacer con una motivación similar a la actual y las herramientas para caminar van a ser cada vez más potentes y versátiles que ahora pero similares en concepto.

P:¿Cuál es el mayor reto tecnológico que afronta el Big Data?

R: Los retos de llevar el Big Data a que permee más de lo que lo hace actualmente vienen dados por los facilitadores tecnológico: el 5g, mejores capacidades de cómputo, alcanzar con wifi a mayores partes del planeta. Por otra parte, está la parte de algoritmos de IA. Estos algoritmos están limitados por la capacidad de cómputo también pero en este caso el cómputo que se demanda es incluso más intensivo. Sin embargo, la puerta tecnológica que se abre aquí como facilitadora son las tecnologías GPU, que ya se llevaban usando en el mundo de los videojuegos, la computación cuántica (cuando llegue) o los microprocesadores hibridos material-luz que se están proponiendo como soluciones muy sostenibles para las demandas de computación de algoritmos de IA.

P:En un futuro cercano, ¿cuáles crees que serán los avances en la adquisición, tratamiento y análisis de datos?

R: Se están proponiendo herramientas de IA que aprendería a crear algoritmos de IA. Me explico, el actual trabajo de un machine learning engineer o de un data scientist, es el de procesar datos, realizar análisis y luego plantear un modelo de IA que pueda automatizar o resolver un problema. En este sentido, Google, por poner un ejemplo, desde 2018 comercializa una aplicación denominada AutoML que es un sistema que aprende a generar esos algoritmos que vendrían a ser el modelo óptimo de IA. En esta línea se va a avanzar por el interés empresarial mucho. Sobre la adquisición de datos se avanzará más en el mundo de los átomos (a diferencia del de los bits), el mundo físico, para desarrollar mejores sensores, con mayor autonomía y más versátiles en su despliegue, o sea en el mundo del IOT (Internet of Things).

P:¿Qué problemas puede acarrear para la sociedad el uso del Big Data?

R: El uso del Big Data en la sociedad no acarrea nuevos problemas sociales, salvo por el hecho que los globaliza y los escala. En principio mi respuesta sería que amplificaría los problemas que ya existen en la sociedad y que como sociedad no hemos sido capaces de resolver. Por poner un ejemplo, el sesgo sobre los géneros. En este sentido más nos vale aprender a resolverlos en el mundo offline, que intentar enseñar a algoritmos que aprendan a no sesgar. Esta última es una postura ridícula que parece es el mainstream desde el punto de vista tecnológico, y no digo que esté mal, sin embargo la raíz del problema se esconde con esa postura.

P:¿De qué manera puede ayudar el Big Data a la divulgación científica?

R: Yo no soy muy partidario de la divulgación científica. Es cierto que consumo algo de manera tangencial, pero por lo general me gusta aprender de gente que no se considera divulgador aunque por su propia presencia en medios de difusión o plataformas llega a mucha gente. El Big Data usado desde el punto de vista de personalización de contenido, a través de los mecanismos de recomendación, me parece que va a conseguir crear burbujas individuales de realidad donde al final por la exposición que cada uno tiene a la realidad, personalizada, va a tener una visión divergente con otras personas. No tengo claro si eso es bueno o malo, quizás es bueno para el movimiento postmoderno, y malo para la ciencia, como disciplina de acercarse a la verdad de manera objetiva y universal, pero el Big Data usado en ese sentido pienso que va a personalizar cualquier contenido que se consuma individualmente incluido el de la divulgación científica.

P:¿Qué herramientas se utilizan en el procesamiento de datos actualmente?

R:El espectro de herramientas es muy amplio. Es cierto que se convergen a tres o cuatro herramientas más estandarizadas. Por ejemplo, en cuanto a lenguajes de programación lidera Python. Aunque en cuanto a procesamiento de datos de una manera veloz se han creado lenguajes específicos para poder procesar de manera distribuida, en paralelo, como Spark o Scala. Las plataformas de la nube, google cloud, amazon web service, azure por nombrar las más populares son en sí un espacio donde tienes a disposición herramientas para el procesamiento casi más como un servicio que como un producto.

P:¿Conoce algún caso (cercano o no) de un mal uso de la Big Data?

R: Depende de como se mire. ¿El uso en China del Big Data en la vigilancia de los ciudadanos es bueno? En China, país comunista filosóficamente hablando está más que justificado. ¿El uso de datos vendidos por Facebook a a terceros, Cambridge Analytica, para usarlos en la opinión de voto y casi que en el voto de la gente y así manipular resultados de un proceso democrático es un mal uso? Pues al menos legalmente sí que lo tenemos claro que es y por lo tanto si podríamos decir que es un mal uso. Pero al final el bien y el mal es relativo sin un filtro legal por encima. Cuando yo trabajaba en una empresa americana de marketing digital, donde en USA las leyes son diferentes a Europa, era legal tener información del historial de navegación de ciertos cookies que además teníamos información de quién era o de sus perfiles demográficos. Esto que parece muy intrusivo mucha gente puede opinar que es un mal uso del Big Data para conocer los intereses de la gente a través de la páginas que visita y crear modelos de recomendación de publicidad pero la realidad es que es muy relativo a la cultura, en el sentido que en USA la gente está en pro de recibir publicidad personalizada mientras que en Europa somos contrarios y regulamos muchísimo más estas situaciones.

P:¿Cree que la legislación vigente cubre todos los aspectos del Big Data o hay algún vacío legal?

R: No cubre ni de lejos todo lo que se necesita e incluso se están enfrentando a temas que requiere de un cambio de paradigma en sus forma tradicional de pensar. Sin embargo, y esto lo he hablado con un miembro de la comisión europea de legislacion en IA y robótica, pienso que es la primera vez en la historia que los legisladores (no los políticos si no los profesionales del derecho) están siendo proactivos en vez de reactivos. Me explico, es la primera vez que se enfrentan a una situación en la que tienen que redefinir nuevos marcos legales no solo fijándose en lo que hoy en día está ocurriendo si no posicionándose 20 años en adelante para valorar la situación proactivamente. Esto es una gran noticia y yo se lo aplaudo. Además creo que tienen muy presente, aunque la realidad en Europa es lamentablemente muy conservadora, que no pueden acotar mucho con sus leyes por que eso está en contra de la innovación y la civilización se encuentra en un momento donde la innovación necesita estar presente como mecanismo impulsor socioeconómico.

Máquina, aprende y vencerás.

Si pensamos en el futuro del Big Data, es imposible imaginarlo sin Machine Learning. El Big Data maneja cantidades ingentes de datos, y es interesante automatizar este manejo tanto y tan bien como sea posible. Esta disciplina del ámbito de la Inteligencia Artificial ayuda a ordenadores y máquinas a predecir acciones futuras de manera automática, sin intervención humana. Para ello se emplean algoritmos que extraen datos y “aprenden” de ellos, aumentando su precisión para hacer mejores predicciones.

Antes, el único modo de que un sistema informático realizara alguna tarea era proporcionarle un algoritmo que definiese el contexto y los detalles de cada acción a realizar. Ahora, gracias al desarrollo del Machine Learning, existen algoritmos que llevan a cabo gran parte de estas acciones por sí mismos, haciendo sus propios cálculos a partir de los datos recopilados. El aprendizaje de estos sistemas consiste en su capacidad para identificar una gran variedad de patrones complejos que vienen determinados por una determinada cantidad de parámetros. Existen tres tipos de Machine Learning: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo. ¿Qué caracteriza a cada uno?

El aprendizaje supervisado se basa en un proceso inicial de entrenamiento del sistema.

Se le proporciona un conjunto de datos a partir del cual se genera una función que conduce a cada dato al resultado deseado, hasta que la precisión del modelo haya alcanzado un nivel adecuado. A partir de este momento, el sistema ya está preparado para analizar automáticamente los datos que le lleguen. Algunos ejemplos de estos algoritmos son la regresión y el árbol de decisiones, y este tipo de Machine Learning tiene aplicación en el control de calidad de productos en una fábrica o en la cotización de una determinada empresa en bolsa.

El aprendizaje no supervisado busca comprender y abstraer patrones de información de manera directa, es decir, agrupa objetos con características comunes o similares para formar grupos de objetos parecidos. Se emplean algoritmos como algoritmos a priori o el método de las K-medias, y se aplican en la segmentación de clientes de una empresa o en plataformas como Youtube y Netflix, de lo cual ya se habló en un post anterior.

El tercer y último tipo de Machine Learning es el aprendizaje por refuerzo. Se trata de entrenar a la máquina para tomar decisiones específicas, exponiéndola a un ambiente donde practica continuamente por sí misma mediante ensayo y error para alcanzar la mayor recompensa. La máquina aprende de sus errores en el pasado e intenta conseguir el mayor conocimiento posible para tomar mejores decisiones. Se utilizan procesos de Markov y algoritmos Q-learning, y están teniendo aplicación en videojuegos.

Para concluir, es interesante aclarar en pocas palabras lo que busca cada tipo de aprendizaje en Machine Learning: en los algoritmos supervisados al sistema se le indica qué decisiones debe tomar, en los algoritmos no supervisados el sistema se centra en encontrar estructuras dentro de una colección de datos y en los algoritmos de aprendizaje por refuerzo el sistema se enfoca en aumentar la señal de recompensa con sus acciones.

Referencias:

Extractos de noticias

Un nuevo libro del CSIC nos acerca al Big Data y sus aplicaciones en política, sanidad y ciberseguridad.

El Consejo Superior de Investigaciones Científicas (CSIC), anunció el día 21/11/19, la publicación de un nuevo libro acerca del Big Data y sus aplicaciones en política, sanidad y ciberseguridad. En este artículo se describen brevemente algunos aspectos que los autores mencionan en su libro, introduciendo áreas de aplicación de esta tecnología tan innovadoras como son la planificación urbana y energética. También aluden a otras aplicaciones como son las denominadas fake news, tan popularizadas por Trump, como el diagnóstico automático, en el campo de la sanidad. En cuanto a los aspectos éticos, también tratados en el libro, los investigadores afirman que “Nos hemos acostumbrado a que muchas aplicaciones o herramientas de nuestros dispositivos móviles sean gratis, pero en internet, cuando no sabes cuál es el producto, entonces el producto eres tú”.

Ríos, D., & Gómez-Ullate, D. (2019, 21 noviembre). Un nuevo libro del CSIC nos acerca al big data y sus aplicaciones en política, sanidad y ciberseguridad. Consejo Superior de Investigaciones Científicas.

Para más información: https://www.csic.es/es/actualidad-del-csic/un-nuevo-libro-del-csic-nos-acerca-al-big-data-y-sus-aplicaciones-en-politica

El INE seguirá la pista de los móviles de toda España durante ocho días.

El diario El País, publicó el 18/11/19 la noticia de que el INE seguirá la pista de los móviles de toda España durante 8 días, gracias al acuerdo que alcanzó con diferentes operadoras. Los datos proporcionados serán anónimos y servirán para determinar los desplazamientos de la población y averiguar dónde prestar servicios públicos y reforzar infraestructuras. El estudio también analizará cuál es la población flotante o la vinculada a un municipio, y también ayudará a conocer qué está sucediendo en la España vacía.

Maqueda, A. (2019, 18 noviembre). El INE seguirá la pista de los móviles de toda España durante ocho días. El País.

Para más información: https://elpais.com/economia/2019/10/28/actualidad/1572295148_688318.html

Protección de Datos lleva 14 años saltándose la ley al dejar al descubierto datos personales.

El Confidencial, el día 28/03/2019, publicó la noticia de que la Agencia Española de Protección de Datos lleva 14 años saltándose la ley, al dejar al descubierto datos personales. Efectivamente y según el referido diario, la Agencia ha publicado diferentes resoluciones sin anonimizar, esto es, poniendo nombres y apellidos de las personas afectadas, y lo que es peor, esto está ocurriendo desde el año 2005 y aún no ha sido subsanado. Toda una paradoja dado que la Agencia Española de Protección de Datos es el organismo encargado de sancionar estas conductas con multas que pueden alcanzar los 60000€.

Méndez, M. A. (2019, 28 marzo). Protección de Datos lleva 14 años saltándose la ley al dejar al descubierto datos personales. El Confidencial.

Para más información: https://www.elconfidencial.com/tecnologia/2019-03-28/aepd-agencia-espanola-proteccion-datos-privacidad_1907234/

Los big-data genéticos. Datos médicos y respeto a la privacidad.

El diario digital Actuall, el día 21/01/2019, publicó un artículo en el que se cuestiona cómo se controla el uso de los datos clínicos de una persona, ya que actualmente, con el avance de las técnicas de secuenciación, se están generando cantidades masivas de datos genéticos. Este artículo señala la importancia de las bases de datos genéticos, dado el enorme potencial que poseen en cuanto a investigación, sin embargo, se cuestiona el uso de estos datos respecto a la confidencialidad y no vulnerabilidad de esta información tan sensible.

Jouvé, N. (2019, 21 enero). Los big-data genéticos. Datos médicos y respeto a la privacidad. Actuall.

Para más información: https://www.actuall.com/criterio/vida/los-big-data-geneticos-datos-medicos-y-respeto-a-la-privacidad/

¿Cuánto nos conoce Netflix?

Netflix es una empresa de entretenimiento (fundada en el año 1997) que dispone, como ya sabréis, de una plataforma de vídeo bajo demanda por streaming, aunque hoy en día la podríamos considerar casi como una empresa de data. ¿Por qué digo esto? ¿Nunca os habéis preguntado cómo sabe Netflix qué contenidos me gustan y busco más?

Esta empresa se encarga de recopilar una cantidad de datos inmensa que posteriormente analizará para ajustarse a la demanda del público. Para haceros una idea de la cantidad de datos que llegan a sus servidores, solo en EEUU hay 60,55 millones de suscriptores y teniendo en cuenta que más de 190 países disponen de esta plataforma… ¡Haced cuentas!

¿Pero qué clase de información les interesa? En qué minuto dejas de visualizar un vídeo, que días y a qué hora consumes más contenido, qué categorías prefieres, que contenido buscas… Con estos datos, a nivel de usuario, Netflix va personalizando mi escritorio e incluso elige las imágenes del encabezado de los vídeos para atraerme más a ese contenido. A nivel global, Netflix emplea algoritmos de machine learning o aprendizaje automático para estudiar toda la información y crear una estadística acerca de lo que el público desea ver, de forma que estos algoritmos predicen qué series/películas tendrán más éxito y se basarán en esto a la hora de tomar decisiones de negocio. Para que nos entendamos, le estamos enseñando a una máquina cuáles son nuestras preferencias, para que ésta diseñe nuevo contenido.

¿Conoces la serie House of Cards?

Esta serie se lanzó a la plataforma directamente sin episodio piloto porque los datos indicaban que al público le interesaba consumir una serie de ámbito político y así fue, esta serie se convirtió en uno de los mayores éxitos de la empresa, al menos al principio…

MANUEL SÁNCHEZ: ‘EL BIG DATA HA REVOLUCIONADO POR COMPLETO EL CAMPO DE LA INVESTIGACIÓN.’

Manuel Sánchez Angulo es profesor de microbiología en la Universidad Miguel Hernández de Elche. Parte de su tiempo libre lo dedica a dar charlas y divulgar ciencia en su blog ‘Curiosidades de la microbiología’ y en el podcast ‘El podcast del microbio’. también podéis encontrarlo en Twitter: @ManoloSanchezA. En esta entrevista veremos qué opinión e impresiones tiene sobre el Big Data.

P: ¿Cómo definiría su profesión y a qué se dedica?

R: Soy profesor de universidad y me dedico a la enseñanza y a la investigación científica.

P: ¿Ha trabajado o ha tenido alguna relación con el uso del Big Data?

R: Digamos que sí, pero hace tiempo. Cuando aparecieron las primeras bases de datos genómicas, allá por los años 80, eran muy pequeñas, con muy pocos genes para comparar secuencias y veías el potencial tan grande que tenía aquello. Pero bueno, ha ido creciendo exponencialmente, tanto las bases de datos como las herramientas para los análisis y bueno, muchas veces lo que ocurre es que empiezas en una cosa, lo utilizas y luego después te vas a otra línea de investigación y últimamente no lo utilizo tanto.

P: ¿Piensa que el Big Data ha ampliado los horizontes en el campo de la investigación?

R: Sí, seguro. Lo ha revolucionado por completo. Que yo no haya utilizado más el Big Data no significa que no veas que ese campo está cambiando por completo el panorama, que es otra nueva revolución que está ahí. El problema es que se está acumulando a tal velocidad los datos y hay un volumen cada vez más grande, que te cuesta un poco seguir ese campo si no estás muy metido en él y no te gusta.

Porque estas cosas también te tiene que gustar, tiene que gustarte estar delante de la pantalla, viendo datos, algoritmos, etc.. Hay gente que le puede gustar mucho y en mí caso, me resulta interesante, pero no tengo ese sentimiento de decir ‘esto me gusta’, pero eso no quita que no sepa que está revolucionando la investigación por completo.

‘Los estudiantes son mi Big Data por así decirlo, las personas de las cuales me interesa saber su opinión sobre mis clases.’

P: Desde la perspectiva de divulgador, ¿cómo ve esta herramienta del Big Data?

R: Un campo a explorar. En cuanto a divulgación, puedes coger las mismas herramientas que se utilizan para analizar genomas y utilizarlas para analizar qué contenidos se ven más, desde qué países se ven, rango de edad, etc.; entonces sabiendo cómo conectar esos datos puedes hacer un contenido más específico para tener más impacto. Eso sería una forma de utilizarlo, pero, como en mi caso hago la divulgación como a mí me gusta, porque disfruto haciéndola y no tengo que correr por los lectores, no utilizo ninguna de estas herramientas. Si alguien me lee, perfecto, pero si nadie me lee tampoco pasa nada. No vivo de la divulgación. En caso de que sí viviera, a lo mejor sí me plantearía el Big Data para maximizar lo que estoy haciendo, pero no es mi caso. Yo me dedico a dar clase, y doy clase lo mejor que sé. De ahí intento coger datos, por ejemplo encuestas que paso a mis estudiantes. Los estudiantes son mi Big Data por así decirlo, las personas de las cuales me interesa saber su opinión sobre mis clases.

‘Creo que sí se debería hacer divulgación sobre el Big Data. Está revolucionando la vida de todos.’

P: ¿Qué fue lo que le motivó a que dedicara parte de su tiempo a la divulgación?

R: No sé si esto puedo decirlo (risas). Empecé en parte porque me gusta mucho contar anécdotas en clase, cosas que tengo apuntadas en un documento, y un día pensé: ‘¿y esto por qué no lo publico?’ Entonces, cuando existía el sitio ‘Geocities’, empecé a hacer una página web, pero el sitio cerró y decidí pasarlo al blog ‘Curiosidades de la microbiología’ y me fui animando. Hice un programa de radio y empecé a publicar en revistas. Hubo un tiempo en el que le dedicaba más tiempo porque habíamos pedido una serie de proyectos que no nos concedieron y entonces te ves con ‘tiempo libre’, aunque en realidad tienes que pensar en más proyectos, pero a mí, que no me gusta estar de brazos cruzados, me permitió meterme en esto de la divulgación un poco más a fondo.

P: ¿Le gustaría dedicarse a la divulgación en algún momento a tiempo completo?

R: No la verdad. Me gusta hacer la divulgación que a mí me gusta, más otro tipo de divulgación, más de disfrutar yo, soy más egoísta, no necesito estar al día de la información, de lo que la gente quiere, que es lo que hace un divulgador científico. Ten en cuenta que es mi tiempo libre, entonces, si mi tiempo libre no lo disfruto, mal vamos.

‘El potencial es tremendo, el quid de la cuestión es saber utilizarlo.’

P: ¿Cree que se debería hacer más divulgación sobre el Big Data en sí, o solamente debería ser una herramienta?

R: Creo que sí se debería hacer divulgación sobre el Big Data. Es una cosa que está revolucionando la vida de todos. Gran parte de las herramientas del Big Data nace de la biología, todos los algoritmos de comparación de secuencias, en vez de comparar secuencias puedes comparar otras cosas. Cuando vas al supermercado, ellos saben quién eres desde el momento que pagas con la tarjeta de crédito, saben qué tipo de compra has hecho, si aprovechas sus ofertas, el banco con tus movimientos también te conoce. Todo eso es un algoritmo como los de comparación de secuencias solo que le das otros items y eso es una cosa que la gente debe saber qué es, la gran cantidad de información que vamos dejando. Incluso en nuestro móvil, con todas las aplicaciones a las que se les da permiso. Entonces hay que decirle a la gente que ahora mismo se pueden hacer todas esas cosas, aunque la gente no sea consciente de ello.

P: ¿Qué usos se puede hacer del Big Data en temas de investigación en microbiología?

R: Muchísimos sin duda. Por ejemplo, en diagnosis para diagnosticar una enfermedad infecciosa: cuando el paciente está en la UCI y quieres saber si tiene o no infección, el tipo de infección que es, etc., hay una serie de pistas en el paciente que si las estudias conforme va avanzando y progresando, puede haber una inteligencia artificial (IA) que vaya recogiendo esos síntomas y hacer una predicción del tipo de infección sin que llegues a realizar un cultivo, ganando tiempo frente a esa infección, la IA va comparando diferentes historiales y te dice que cuando tienes estos síntomas es muy probable que tengas este tipo de infección sin llegar a ver al patógeno. Otro ejemplo puede ser en la búsqueda de nuevos antibióticos: tengo una muestra de microorganismos, entonces puedo ir a bases de datos a comparar secuencias y encontrar genes parecidos a productores de antibióticos. El potencial es tremendo, el quid de la cuestión es saber utilizarlo.

P: ¿Es posible que con todos los avances en Big Data esté ganando peso la investigación in silico y la automatización respecto al laboratorio tradicional?

R: Sí y no. Recuerdo que cuando estudiaba también se decía que los robots sustituirían a las personas y está claro que no ha sido así. Los robots son capaces de realizar el trabajo de una persona, pero necesitas a personas para programar las máquinas. La automatización te permite hacer otras cosas mientras ella se encarga de hacer los trabajos más manuales, la que tiene la última palabra y entiende qué está haciendo la máquina es siempre la persona; por eso, la máquina te puede hacer una preparación o comparar secuencias, pero la que se encarga de ver que tiene sentido y puede concordar lo que se ha hecho es la persona.