Comparativa de uso de software estadístico en el mundo académico

Publicaron ayer un interesante post en r4stats bajo el título “R Passes SAS in Scholarly Use (finally)” (enlace). Aunque parezca la constatación de un hecho muy concreto, el artículo esconde una completa comparativa de popularidad, y evolución de uso, de más de cuarenta herramientas informáticas que pueden ser enfocadas hacia el análisis de datos.

Si estás interesado en descubrir qué tendencias se observan, de cara a aprender nuevas tecnologías, no dudes en dedicar unos minutos a examinar las distintas figuras que aparecen en dicho artículo.

A la vista de los gráficos, las principales conclusiones que se pueden extraer son:

  • IBM SPSS domina al resto de herramientas de manera indiscutible. Entre la gran variedad de análisis que ofrece, y su extremada facilidad de uso a través de intuitivos menús, no sorprende su gran popularidad. En mi opinión, si tienes un conjunto de datos ya preprocesado (o que no necesite mucha “limpieza”) a falta de lanzar sobre él cierto análisis estadístico (disponible en este programa), es la herramienta recomendada para todos los públicos.
  • R se posiciona en segundo lugar, superando a clásicos como SAS, Stata y Matlab. Su acceso gratuito y una comunidad que está creando extensiones (librerías o packages) a ritmo exponencial, parece compensan esa empinada curva de aprendizaje que caracteriza a este lenguaje de programación.
  • Si buscas aprender una nueva tecnología, los gráficos que más te interesarán serán los que aparecen al final del artículo. En ellos se aprecia cómo los lenguajes de programación Python y R marcan la senda de crecimiento, mientras que el uso de herramientas clásicas de pago, como SPSS y SAS, pierde considerable fuerza.

No obstante, antes de lanzarte de cabeza hacia cualquier herramienta a partir de las gráficas que presenta este artículo, una buena pregunta que puede acudir a tu mente sería: ¿cómo se han recogido los datos que han dado lugar a ellas? La respuesta no es, en absoluto, trivial, y ha dado para otro artículo publicado en el mismo portal (“How to Search for Data Science Articles“, enlace).

A partir del número de resultados encontrados en Google Scholar, para ciertas cadenas de búsqueda, es como han surgido las diferentes imágenes comentadas arriba. Ahora bien, como estoy seguro que te imaginarás, no puedes limitarte a abrir el navegador, entrar en el mencionado buscador y escribir directamente como términos de búsqueda “Python” o “R”, puesto que serán muchos los artículos caracterizados por dichas cadenas de texto que estén poco o nada relacionados con el análisis de datos.

Teniendo este problema en consideración, el autor ha generado queries un tanto más complejas, donde para algunas herramientas con su nombre basta, mientras que para otras son necesarias varias líneas que encadenan, de manera condicional, diversos términos, conceptos o librerías populares.

Es por ello que debemos ser cautos a la hora de actuar en base a los resultados recogidos en las gráficas del artículo, dado que el número de resultados arrojados por cierto buscador quizá no sea el mejor estimador para una característica dada, y, como no podía ser de otra forma, por la naturaleza subjetiva de las consultas escogidas para generarlos.

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s