Big data en tiempos de COVID-19

Última actualización el 22/junio/2020

Desde que China avisó que existía un nuevo virus que estaba ocasionando muertes en Wuhan -independiente de si lo hizo a tiempo o no- hasta hoy, se ha producido una cantidad abismal de información. La comunidad científica se ha volcado a estudiar el SARS-CoV-2 desde todas las aristas: genéticas, clínicas, farmacológicas, epidemiológicas, etc. No es rara la cooperación internacional entre científicos, esta venció incluso los muros invisibles de la Guerra Fría, pero definitivamente la generación de conocimiento actual ha sido poco más que inusual.

Pre-publicaciones

Los procesos de revisión por pares que podían durar meses, y en algunos casos superar el año, se aceleran. Innovándose nuevas formas de intercambiar información y empiezan hacerse comunes las pre-publicaciones donde, previa advertencia, se comparten los trabajos antes de ser revisados y publicados en revistas de prestigio. Obviamente esto conlleva errores y, si de por sí en publicaciones peer reviewed es posible encontrarlos, se multiplican en este mar de información.

Apertura editorial de la información

A esto agreguemos otro fenómeno que a muchos de los que solemos consultar fuentes médicas y/o de otras áreas de interés científico nos llamó la atención: La apertura del contenido. Tras la Segunda Guerra Mundial, cuando la ciencia era gestionada por gobiernos y militares, la información pasó a manos de grandes corporaciones editoriales. A finales de enero de este año Elsevier, quizá la más grande compañía de información científica, puso en marcha el «Novel Coronavirus Information Center« donde ofrece miles de artículos abiertos sobre COVID-19. Aun con esa «gratuidad» es seguro que a esta compañía el coronavirus no le ha afectado sus ingresos.

No son los únicos, antes PloS ONE y The Lancet con su «COVID-19 Resource Centre« se habían unido a esta nueva tendencia. Para darnos una idea hay casi 23,000 publicaciones desde enero y se duplican cada 20 días y más de 2,800 ensayos clínicos para los tratamientos se han registrado en Cochrane COVID-19. Si el conocimiento científico ya alimentaba en forma importante el big data actualmente podríamos decir que hay un subconjunto muy importante de macrodatos relacionados con COVID-19 por analizar.

Una nueva era en la información científica

The Conversation hace una alegoría entre lo que ocurre ahora y lo ocurrido en “Proyecto Manhattan” durante la Segunda Guerra Mundial. En aquel entonces el ejército gestionaba la logística de la investigación, hoy no ocurre esto, son las compañías privadas de información científica las que organizan a los grupos de investigación y lejos de hacer que cada grupo se encuentre trabajando aislado sin saber lo que hace el otro, como ocurrió en el Proyecto Manhattan, hoy todos tienen una amplia comunicación entre ellos.

Quienes me conocen sabrán que mis protestas por los costos de la información médica y científica son mi leitmotiv. Elsevier se caracteriza por eso, un artículo puede llegar a costar 70 dólares o más y para realizar un buen estudio de investigación o simplemente mantenerse actualizado, un médico requiere leer decenas de artículos a la semana. De esta cantidad los investigadores no recibirán nada, ni siquiera para el apoyo directo a sus protocolos de investigación y que continúen sus publicaciones.

https://twitter.com/boylucas/status/874517397318885376?s=20

Ni lo free es gratis

El «beneficio» para los científicos radica en que su paper sea leído y referido en nuevos artículos. Cuanto más se refiera a un autor mayor será la posibilidad de que sea patrocinado en próximos protocolos. Esto no sólo ocurre en otros países, así se maneja el Sistema Nacional de Investigadores (SNI) en México. Pero si los investigadores quieren dejar sus artículos en la versión open access, para que cualquiera pueda leerlo, deberán pagar a la editorial cifras que van desde 150 hasta 6,000 dólares, dependiendo del artículo y la revista en donde quieran ser publicados.

Siendo justos, el ejemplo del artículo de The Conversation gira en torno a Elsevier pero no es la única: Oxford Journals, PloS ONE, BioMed Central, Cell Press, Nature Plublishing Group, US National Academy of Sciences, entre otros, aplican las mismas políticas.

Pero como mencionaba, todo esto ha cambiado con la aparición del nuevo coronavirus, SARS-CoV-2. Además de «regalar» artículos Elsevier y las demás casas editoriales, han facilitado de forma efectiva la construcción de una comunidad científica internacional donde no sólo se comparten artículos sino que además se dan discusiones, cursos, etc. A pesar de esto, según Nicolás Robinson-García, un 20% de los nuevos artículos están aún bajo pago y pudieran crecer hasta un 50%. Así pues, estamos ante un nuevo paradigma de la ciencia donde las compañías deberán basar su negocio en algo diferente a los contenidos.

Big data, una nueva forma de analizar el conocimiento

Lo anterior ha traído consigo otros retos. En sus columnas en Science y Nature, Jeffrey Brainard y Virginia Gewin respectivamente, nos plantean que ante la enorme cantidad de información generada los científicos se encuentran ante un problema de organización y generación de herramientas de búsqueda y extracción de datos que ayuden a los investigadores y médicos a encontrar la información que buscan de manera rápida y precisa. Empiezan a recurrir a inteligencia artificial (IA) y minería de datos.

Si bien algunas de estas herramientas son complicadas de usar, otras son bastante intuitivas. Pero la principal barrera es que aun hay bastante escepticismo por parte de la misma comunidad científica en cuanto a que estas herramientas puedan valorar la calidad del trabajo, metodología utilizada o el resultado como tal, por nombrar algunas.

Google y Facebook en la ciencia

El 16 de marzo la Oficina de Política de Ciencia y Tecnología de la Casa Blanca trabajó con las editoriales y otras empresas tecnológicas (entre ellas: Google, la iniciativa Chan Zuckerberg y el Instituto Allen) para lanzar el Conjunto de Datos de Investigación sobre COVID-19 (CORD-19 por sus siglas en inglés) donde se incluyeron 59,000 artículos publicados y preimpresiones así como estudios de coronavirus desde 1950.

En contraparte, el equipo de la Bloomberg School of Public Health de la Johns Hopkins University lidereados por Kate Grabowski ha trabajado en crear el “Compendio de investigación del Nuevo Coronavirus 2019” (NCRC) buscan enfocarse en la calidad más que en la cantidad. Entre 40 científicos han revisado la literatura y seleccionado, hasta el momento, más de 80 artículos clasificados en temas como son vacunas, intervenciones farmacéuticas, etc., y además han realizado un resumen de cada uno.

Las redes sociales están teniendo también un impacto importante en la difusión de los estudios en pre-publicación, según reporta el grupo de Robinson-García basados en los informes de Altemetric.com. Los trabajos de investigación sobre COVID-19 han llegando a tener 10 veces más menciones que todas las publicaciones durante los primeros cinco meses del año pasado.

La información médica está en manos de la Inteligencia Artificial

Los primeros frutos de minería de datos se encuentran en una revisión de literatura basada en IA en Kaggle, un centro en línea para científicos del aprendizaje automático propiedad de Google Cloud. El trabajo está lejos de ser completamente autónomo, los algoritmos no siempre extraen correctamente la información en las tablas por lo que, estudiantes de medicina y otros voluntarios inactivos por la pandemia, han verificado la exactitud de cada uno de los manuscritos.

Desde hace poco más de 20 años que el internet se ha vuelto la forma en que las editoriales difunden la información médica los científicos de datos han desarrollado herramientas en aras de hacerla más amigable para quienes la consultan. En ese sentido, Jevin West y un equipo de la Universidad de Washington, han desarrollado una herramienta llamada SciSight para la búsqueda en CORD-19 pero aún tienen una baja difusión entre la comunidad científica.

Para Marco Liverani, investigador de la Escuela de Higiene y Medicina Tropical de Londres, la mayoría de los datos están infrautilizados y es posible generar conocimiento valioso utilizando conjuntos de datos secundarios.

Hay muchos datos para hundir los dientes, no sólo en la investigación histórica, sino también en los últimos años, cuando ha habido un gran volumen en todas las disciplinas.
Marco Leverani

Tips para un analista de datos

Pero aunque la práctica está de moda es complicada, por lo que pueden resultar útiles los tips brindados por Gewin en Nature para evitar errores:

Los autores deben dar la mayor cantidad de metadatos posibles de tal manera que faciliten la búsqueda tanto «manual» como «automatizada».
Debe contarse con todas las aprobaciones éticas y legales. Los datos de los participantes ser anónimos y no identificables.
Al utilizar los datos se debe comprender el contexto en el que fueron recopilados, las preguntas que se le realizaron al sistema, etc. Es decir, tomar en cuenta los protocolos, el cómo y dónde se recopilaron y el por qué se hizo y no únicamente usar los datos en bruto.
Comprobar la capacidad estadística del equipo.
Tener en cuenta las obligaciones legalesRetomando el punto de que el beneficio para los investigadores es ser referidos, si se publica un documento basado en datos compartidos hay que verificar que las personas que generaron los datos figuren como autores de la publicación original. Liverani considera: «cuando se trata de compartir datos, las organizaciones de investigación en áreas en desarrollo como África y Sudamérica pueden compartir los datos, pero los beneficios a menudo los obtienen los académicos en países con altos ingresos».

Inicia la era del datoísmo

Esto me recuerda el libro Homo Deus. Breve historia del mañana donde Yuval Noah Harari plantea que los seres vivos no somos más que algoritmos y como tales podemos ser estudiados matemáticamente. El autor considera que en un futuro muchas actividades del ser humano serán suplidas por la IA, incluyendo la práctica médica. Harari publicaba el libro en el 2015 y veía ese futuro basado en el «datoísmo» a mediano-largo plazo. Hoy, viendo cómo se manejan los datos en cuanto al COVID-19 se antoja veremos esa realidad en breve.

Publicado previamente en LJA.mx