Buscar

Introducción al Data Mining prediciendo la supervivencia a bordo del Titanic

Actualizado: 18 de abr de 2018

Si tuviéramos algunas variables y el indicador de supervivencia para una parte de los pasajeros del Titanic… ¿Podríamos predecir la supervivencia de la otra? En una corta introducción a la minería de datos y el aprendizaje automático con árboles de decisión respondemos esta pregunta. El video está orientado a principiantes que muy poco o casi nada y quieran aprender viendo un proceso muy sencillo.

Preguntas que podrían ser frecuentes:


1) ¿De dónde sacaron los datos?

Son una versión simplificada de los que se encuentran en Kaggle.com, una web de competencias de data mining online en la cual también hay muy buenos recursos para principiantes, como este caso del Titanic.


2) Veo que para algunos pasajeros falta el dato de la edad. ¿Qué pasa con ellos?

El algoritmo que usamos los procesa como una categoría diferente. Podría por ejemplo separar la edad en los siguientes tres grupos: [ > 20 |  <= 20 | sin dato ].


3) ¿La precisión de 79% es alta? ¿Contra qué se podría comparar?

Al medir por precisión se puede tomar como referencia cuál sería el desempeño asignando todos los casos como pertenecientes a la categoría más frecuente. Habiendo 61% no sobrevivientes, decimos que el 79% está al 46% ( [79 – 61] / [100 – 61] ) del modelo teórico perfecto, que tendría un 100% de precisión. En Kaggle.com modelos legítimos (algunos buscan en internet la lista de sobrevivientes) han alcanzado casi un 90% de precisión, al 74% del teórico perfecto. La máxima precisión posible varía según cada situación y dependerá del poder predictivo de las variables y la calidad y cantidad de registros disponibles.


4) ¿Por qué usaron IBM Modeler?

Elegimos Modeler porque resulta relativamente fácil de interpretar para quienes no tengan experiencia en el tema. Sin embargo, no es gratuita.


4) ¿Qué plataforma gratuita puedo utilizar?

Recomendamos los lenguajes de programación R o Python. En internet hay mucha información para hacerlo.

0 vistas