¿Qué es y para qué sirve el analisis exploratorio de datos?

El analisis exploratorio de datos aplica exclusivamente para datos estructurados, es decir los que aparecen en formato tabular. Para datos no estructurados o para series de tiempo el análisis exploratorio es completamente diferente, y de esto conversaremos en artículos posteriores.

El primordial propósito del analisis exploratorio de datos es poseer una idea completa de cómo son nuestros datos, antes de resolver qué técnica de Ciencia de Datos o de Machine Learning usaremos.

Y como en la práctica los datos no son excelentes, debemos organizarlos, concebir su contenido, concebir cuáles son las variables más notables y cómo se conciernen unas con otras, comenzar a ver cualesquiera patrones, establecer qué hacer con los datos faltantes y con los datos atípicos, y definitivamente extraer conclusiones acerca de todo este análisis.

Y todo esto es precisamente el analisis exploratorio de datos, que es en sinopsis una forma de entender, visualizar y extraer investigación relevante del set de datos para poder resolver cuál será la ruta o técnica más conveniente para su posterior procesamiento.

Tabla de contenidos

Los siete pasos del analisis exploratorio de datos

Para concebir todas estas fases utilizaremos un dataset clásico de Kaggle: el del Titanic, un set de datos que sujeta información de los pasajeros como nombres, edades, género y obviamente la categoría a la que concierne, es decir si sobrevivió o no al hundimiento.

Pasos 1 y 2: el problema a resolver y dando un vistazo a nuestro set de datos

El primer paso, la interrogación que queremos reconocer en este caso, es ¿que tipo de personas poseían la probabilidad más alta de sobrevivir al hundimiento del Titanic?

Y para reconocer esta pregunta correspondemos echar un primer vistazo al dataset, mirar su tamaño, establecer cuáles son las características o variables (es decir las columnas de la tabla) y dar un primer barrido a los registros u investigaciones.

Generalidades del dataset: tamaño, variables (columnas) y observaciones (filas)

Con esto nos crearemos una idea general de los datos, advirtiendo que por ejemplo cada pasajero estará especializado por variables como el nombre, la edad, el género, etc.

Paso 3: ¿qué tipos de datos tenemos?

Bien, después de esto logramos comenzar a examinar en detalle el dataset. El paso tres es entonces definir a qué tipo de dato concierne cada variable. Y acá tenemos dos grandes grupos: los datos numéricos y los datos categóricos.

Los datos numéricos logran ser discretos cuando arrebatan sólo valores enteros (como por ejemplo la edad de cada pasajero) o incesantes cuando pueden tomar cualquier valor dentro de un intervalo (como por ejemplo la tarifa del tiquete):

Paso 4: Descripción estadística de los datos

El cuarto paso es iniciar con la descripción estadística que pende precisamente del tipo de datos que poseamos en cada variable.

Para esto utilizamos dos grandes tipos de medidas: las de tendencia central y las de variabilidad.

Medidas de tendencia central

Las medidas de tendencia central nos dan una idea corriente del valor típico que logran poseer nuestros datos, y las primordiales son la media y la mediana.

La media es escuetamente el promedio de los datos y por tanto se logra aplicar a datos discretos (como por ejemplo la edad de los pasajeros) o continuos (ejemplo el valor de entradas).

La mediana resuelve este inconveniente, y es simplemente el valor que divide los datos en dos mitades y se puede aplicar para datos ordinales o discretos (como la categoría del tiquete o la edad).

Medidas de variabilidad

Pero producto que no es suficiente con conocer la media o la mediana de la distribución, pues además precisamos tener una idea de qué tan agrupados o dispersos están los datos.

Para establecer esto utilizamos las medidas de variabilidad, donde las principales son la desviación estándar y el rango intercuartiles, que nos muestran qué tanto se alejan los datos del valor medio o de la mediana, individualmente.

La desviación estándar se puede computar para cualquier tipo de dato numérico: entre más bajo sea su valor poseeremos datos más agrupados, y viceversa. La desventaja de la desviación estándar es la igual de la media: es muy sensible a los valores atípicos.

Paso 5: visualizar los datos

La limitación de las medidas centrales y de las de variabilidad es que son sólo un número, que nos logra dar apenas una idea general de la conducta de nuestros datos. Así que el quinto paso del análisis exploratorio es imaginar la distribución de los datos para poseer una idea más minuciosa de su conducta.

Para datos continuos y discretos logramos calcular y dibujar el histograma, que se consigue tras organizar los datos en diferentes subgrupos (o bins) y realizar el conteo del número de datos en cada uno. Con el histograma logramos verificar que la distribución es normal (es decir que tiene forma como de campana, como por ejemplo la edad) o si está sesgada.

Paso 6: análisis bivariado y multivariado

Hasta el instante hemos visto el análisis y visualización de una sola variable, lo que se conoce necesariamente como análisis univariado. Pero también logramos ver si existe algún tipo de interacción entre dos o más variables, empleando lo que se conoce como el análisis bivariado y el multivariado.

Paso 7: sumarización

Y la última fase de este análisis exploratorio reside en sumarizar nuestras observaciones, es decir extraer las terminaciones más significativos del análisis que hemos venido ejecutando. En este caso sugiero escribirlas, como frases muy cortas.

Esto nos servirá para igualar por ejemplo qué variables están correlacionadas, o cuáles de ellas trascienden de pronto más notables. Esto es esencial para las etapas que vendrán más adelante en el proyecto, como el pre-procesamiento de los datos, la extracción de tipos o el desarrollo igual del modelo en el caso del Machine Learning.

¡Haz clic para puntuar esta entrada!

(Votos: 1 Promedio: 4)