Entendiendo las causas y efectos en el Big Data
DARPA lanza el programa Big Mechanism para ir más allá del Big Data.
En la nota de prensa de DARPA se pone como ejemplo de un análisis tipo Big Data del siglo 19 cuando durante la epidemia de cólera de 1854 en Londres el doctor John Snow marcó las muertes por cólera en un mapa y encontró que en la zona más afectada había una bomba de agua. Por entonces no se conocían las causas de la enfermedad ni se conocían los gérmenes. Sin embargo el estudio fue eficaz relacionando muertes y localización para dar con el causante, en este caso, la bomba de agua estaba contaminada.
Hoy en día la cantidad de información disponible es muchísimo mayor pero se sigue necesitando de una persona para pasar de asociación a mecanismo causal. El ambicioso programa de DARPA pretende cambiar esto.
"Tener grandes cantidades de datos sobre economía, biología y sistemas climáticos no es lo mismo que entender la densa red de causas y efectos -que es a lo que nosotros llamamos el Big Mechanism- en esos sistemas." dijo Paul Cohen, el gerente del programa. "Desafortunadamente, lo que sabemos sobre el big mechanism está contenido en enormes, fragmentadas y a veces contradictorias literaturas y bases de datos, de manera que una sola persona no puede entender un sistema realmente complejo en su totalidad. Las computadoras deben ayudarnos."
El primer desafío que el programa Big Mechanism intentará afrontar son los caminos del cáncer, las interacciones moleculares que causan que una célula se vuelva y siga siendo cancerígena. El programa tiene tres áreas técnicas primarias: Las computadoras deberán leer resúmenes y publicaciones sobre la biología del cáncer para extraer los fragmentos de las vías del cáncer. A continuación, deberán unir estos fragmentos en unos caminos completos de escala y exactitud sin precedentes, y deberán averiguar como estos distintos caminos interactúan. Finalmente, deberán determinar las causas y efectos que deberán ser manipuladas quizás para prevenir o controlar el cáncer.
Ninguno de estos pasos es sencillo, pero la biología del cáncer es el lugar lógico donde empezar, y no solo por su importancia obvia sino porque el lenguaje de la biología molecular y la literatura sobre el cáncer enfatizan los mecanismos. Las publicaciones describen como las proteínas afectan la expresión de otras proteínas, y como estos efectos tienen consecuencias biológicas. Las computadoras deberán ser capaces de identificar las causas y los efectos en las publicaciones sobre la biología del cáncer más fácilmente que por ejemplo en la literatura sobre economía o sociología.
Lo bueno de los modelos de causas es que hacen predicciones, así que se puede volver a la base de datos y ver si es correcto o no, pudiéndose proponer nuevos experimentos y avanzar más rápidamente.