El Big Data en Salud adelantará años la investigación científica

Los investigadores en modelos predictivos en la ciencia se centran en encontrar algoritmos capaces de discriminar los datos que son realmente útiles para hacer las predicciones desde una fuente de Big Data. Investigadores del MIT lograron el año pasado automatizar un paso crucial para ello y consiguieron superar a los humanos en esa tarea logrando en unas horas lo que hubiera llevado meses. Ahora, en un nuevo paper presentado en la Conferencia Internacional IEEE el equipo describe cómo afrontar el resto del proceso, desde la preparación de los datos para su análisis hasta la especificación de los problemas que el sistema sería capaz de resolver. Los investigadores están seguros de que sus sistemas podrían llevar a cabo tareas que solían durar meses y conseguir los datos científicos útiles en sólo días.

Ambos trabajos, el del año pasado y este nuevo paper, se centran en los datos variables en el tiempo y asumen que el objetivo del análisis es producir un modelo probabilístico para predecir eventos futuros sobre la base de las observaciones actuales.

El primer documento describe un marco general para el análisis de datos variables en el tiempo. Se divide el proceso analítico en tres etapas:

El segundo documento describe un nuevo lenguaje para definir los problemas de análisis de datos y un conjunto de algoritmos que recombinan de forma automática los datos de diferentes maneras, para determinar qué tipos de problemas de predicción de los datos podrían ser útiles para la resolución.

De acuerdo con Kalyan Veeramachaneni, científico investigador principal en el Laboratorio del MIT para la Información y Sistemas de Decisión y autor principal de los documentos, el trabajo surgió a partir de la experiencia de su equipo con problemas de análisis de datos reales que le someta investigadores de la industria.

Para tener una idea de lo que implica el etiquetado y la segmentación, supongamos que un científico de datos cuenta con los datos del electroencefalograma (EEG) de varios pacientes con epilepsia y se aplica a identificar patrones en los datos que pudieran señalar el inicio de las convulsiones.
El primer paso es identificar los picos de EEG que indican las convulsiones. El siguiente es extraer un segmento de la señal de EEG que precede a cada convulsión. A efectos de comparación, los segmentos «normales» de la señal de segmentos de longitud similar, pero muy alejados de convulsiones, deben también ser extraídos. Los segmentos se denominan entonces como anteriores a una convulsión o no y la información de un algoritmo de aprendizaje se puede utilizar para identificar los patrones que indican la aparición de convulsiones.

Los autores del artículo LSF, Kanter, Veeramachaneni, y Gillespie definen un marco matemático general para describir este tipo de problemas de etiquetado y de segmentación. En lugar de las lecturas de EEG, por ejemplo, los datos podrían ser las compras realizadas por los clientes de una empresa en particular, y el problema podría ser determinar a partir de la historia de compra de un cliente si él o ella es probable que comprar un nuevo producto.
Allí, los datos pertinentes a los fines predictivos, no pueden ser el comportamiento de un cliente durante cierto período de tiempo, pero sí la información acerca de sus tres compras más recientes, cada vez que se produjeron. El marco es lo suficientemente flexible como para dar cabida a este tipo de especificaciones diferentes. Pero una vez que se toman esas especificaciones, el algoritmo de los investigadores realiza la segmentación y etiquetado correspondiente de forma automática.

El documento científico completo está disponible para su descarga gratuita en PDF, aquí.

Fuente: MIT News