Amosando publicacións coa etiqueta Big Data. Amosar todas as publicacións
Amosando publicacións coa etiqueta Big Data. Amosar todas as publicacións

luns, 25 de febreiro de 2013

Wordle

Hace ya unas cuantas entradas que hablamos en este blog de RSS. Wordle es una aplicación en línea que emplea RSS para construir nubes de palabras. Una nube de palabras es una técnica de visualización que se emplea en big data para mostrar en  una sola imagen el contenido de grandes volúmenes de texto. Se trata de una representación visual de las palabras que conforman un texto, en donde el tamaño es mayor para las palabras que aparecen con más frecuencia. Un ejemplo es la nube de etiquetas que aparece en el margen derecho de este blog.

Sin embargo, con wordle es posible realizar una nube con todas las palabras (no solo etiquetas) de cualquier blog o página web que disponga de feed RSS. Basta con acceder a la página www.wordle.net e introducir en la casilla correspondiente la dirección del blog o web. Esta es la nube de este blog.



Podemos comprobar con gran facilidad que en los últimos tiempos hemos estado dando cierta relevancia al radón domiciliario.

Pero además de analizar textos en la web, wordle permite introducir cualquier texto directamente y elaborar su nube de palabras. Ésta es la del libro Aplicabilidade do modelo CRISP-DM á cirurxía do cancro de pulmón.O problema da idade



En ambos casos (webs y textos), es posible modificar algunos parámetros como fuente, color, forma de la nube y orientación de las palabras. Para que funcione la aplicación es necesario tener instalado Java.

No digo que sea como ver la película, pero nos da cierta información sin leer el libro.

venres, 18 de xaneiro de 2013

Libro: minería de datos para o cancro de pulmón



Inda quentiño do prelo, pero xa está aquí. É o libro Aplicabilidade do modelo CRISP-DM á cirurxía do cancro de pulmón. O problema da idade, publicado pola Area de Normalización Lingüística da Universidade de Vigo á que dou dende aquí as grazas, personalizadas na figura do seu diretor Paulo Cabral. Tamén teño que agradecer, como non, á miña editora de cabeceira, Rita.

O libro recolle integramente o texto da tese de doutoramento homónima que defendin na antedita Universidade no pasado mes de marzo de 2012. Está publicado baixo unha licenza creative commons e pódese descargar de xeito gratuito na sección de recursos da miña web de cirurxía torácica, tanto no formato da tese (arquivo PDF, 256 páxinas en cor, 91,8 Mb), como no formato do libro (arquivo PDF, 186 páxinas en cor, 4,3 Mb).

Os nostálxicos poden solicitar unha copia impresa do libro (186 páxinas en BN) no enderezo libro@toracica.org (PVP 12€, IVE incluido. Gastos de envío non incluidos).

Algúns dos contidos máis interesantes tamén os partillarei neste blog.

venres, 11 de xaneiro de 2013

Statistics2013

Los médicos, especialmente los cirujanos, especialmente los cirujanos oncológicos, tenemos la obligación de entrenarnos para transmitir noticias adversas, pero esto se lo voy a cascar sin anestesia: hay que estudiar estadística. Y no se lo digo ahora para fastidiarle el día, sino porque puede ser un buen momento para ponerse las pilas. En primer lugar por lo de los propósitos de año nuevo y en segundo lugar porque 2013 ha sido elegido como el año internacional de la estadística.


La estadística está en todas partes, como pueden ver en el siguiente vídeo. Por esto es imprescindible para la vida diaria, no sólo para la actividad profesional. No hay mejor modo de colar una mentira que disfrazándola de estadística. Así que, si no queremos que nos la cuelen... pues a estudiar.



Ahora viene la parte buena. Para saber estadística (nivel usuario) no hay que ser bueno en matemáticas. De hecho, no se esfuerce: su portátil es mucho mejor que usted. Hace diez años había que ponerse con el programa de estadística (probablemente pirateado), el archivo de datos y el manual. El mío de cabecera era el libro SPSS para Windows. Programación y análisis estadístico, de Magdalena Ferrán Aranaz (Mc Graw-Hill). Creo que todavía sigue siendo muy útil, pero ahora se añaden infinidad de recursos en la red, como el módulo de estadística del Itinerario Fegas en youtube. Despues ya habrá tiempo de complicarse con el análisis multivariante y otros líos. Por otra parte, también tenemos  una mayor oferta de software libre como Epidat, o el proyecto R.


Al final, la estadística es cuestión de ponerse. ¿Por qué no hacerlo en el año internacional de la estadística?

mércores, 9 de xaneiro de 2013

El que no sabe lo que busca no entiende lo que encuentra

El que no sabe lo que busca no entiende lo que encuentra. Creo que esta frase de Claude Bernard, que ya nos enseñaba el Profesor Quintela en la Facultad de Medicina hace más de una década, es inolvidable para unos cuantos. Entre otras cosas, porque entre risas se aprende mucho mejor y a nosotros nos gustaba aplicarla a las escaramuzas amorosas propias de la edad. Pero este es otro tema.

La pregunta a investigar siempre es un problema para mi cuando pienso en la aplicación de técnicas de minería de datos a la investigación biomédica. Esta pregunta puede tener lugar en un ciclo de minería de datos dirigida. Pero la diferencia que marca la minenería de datos es, precisamente, encontrar respuestas a preguntas que ni nos habíamos planteado.


Sin embargo, despues de escuchar al Profesor Arturo González Quintela creo que lo tengo unpoco más claro. Lo que la minería de datos hace es dar alas a nuestra sagacidad accidental. Multiplica nuestra sagacidad y nos da fuerza para tirar del hilo. En realidad, nos ayuda a encontrar buenas preguntas, y no sólo por casualidad, sino buscándolas de forma proactiva en la gran maraña que forma big data. La minería de datos es Red Bull for serendipity.

mércores, 26 de decembro de 2012

Obama y la minería de datos (II)

Dan Wagner, jefe de la oficina de análisis de Obama 2012
El pasado 24 de noviembre ya publicaba en este blog una entrada sobre el revolucionario papel que los datos han jugado en la reelección de Barak Obama como presidente de los EE.UU. Pero como el tema no deja de impresionarme, aquí les traigo la versión extendida de esta misma historia, contada esta vez por Sasha Issemberg para Mit Technology Review, en tres capítulos:

How President Obama’s campaign used big data to rally individual voters, Part 1.

How President Obama’s campaign used big data to rally individual voters, Part 2.

How President Obama’s campaign used big data to rally individual voters, Part 3

Tenemos que empezar a valorar el porder de la información enterrada en la creciente inmensidad de los datos.

mércores, 12 de decembro de 2012

Big data 2013 y sanidad

La consultora RocaSalvatella acaba de publicar su top ten en tendencias tecnológicas para el próximo año 2013 y en el número uno está... ¡big data! 

Esta lectura me ha recordado otra de hace ya unos meses. Una de esas referencias "imprescindibles" que aparecen justo cuando ya tienes elegida hasta la corbata para leer la tesis doctoral, en este caso sobre data mining en cirugía del cáncer de pulmón. Se trata de un informe del McKinsey Global Institute (MGI) titulado Big data: The next frontier for innovation, competition, and productivity. Recomiendo encarecidamente el executive summary, porque también hay que disfrutar un poco de la vida.

Uno de los titulares de este informe es el siguiente:


"$300 billion potential annual value to US 
health care -more than double the total annual health care spending in Spain".

Es decir, que si el sector de la salud en EE.UU. consiguiese usar esta tecnología de una forma creativa y efectiva para potenciar la eficiencia y la calidad, MGI estima que el valor potencial de los datos en ese sector superaría los 300 billones ¿americanos? de dólares cada año, dos tercios de los cuales permitirían reducir los gastos del sistema nacional de salud entorno al 8%. Ahorro basado exclusivamente en eficiencia y calidad, antes de empezar a hablar de detección de fraude, errores y "desajuste fiscales". Y todo esto sin comprometer la salud de las personas. Más bien todo lo contrario: "mejorando los resultados de salud". 

Siguiendo en la misma línea también titulan:

"€250 billion potential annual value to Europe's public 
sector administration -more than GDP of Greece"

En definitiva, que a Papá Noel no le pido nada para mí. Le pido que nuestros regidores lean el citado informe estas navidades. Pero no el informe entero, me conformo con el executive summary. En el último párrafo de su página 12 dice: 

"El sector sanitario en EE.UU  es otro ejemplo de como la estructura de una industria impacta sobre la dificultad para la extracción de valor de los datos. Este es un sector que no sólo presenta un déficit de transparencia en cuanto a costes y calidad, sino también una estructura industrial en la cual los pagadores ganarán (al reducir los gastos por tratamientos innecesarios) con el uso de los datos clínicos. Sin embargo, las ganancias de los pagadores serán a expensas de los proveedores (menos procedimientos a facturar) de los que los pagadores tienen que obtener estos datos clínicos".

Ya ven, todo un canto a la "eficiencia" de la gestión privada de la salud.