glosario

Algoritmo

En matemáticas, lógica, ciencias de la computación y disciplinas relacionadas, un algoritmo es un conjunto prescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite llevar a cabo una actividad mediante pasos sucesivos que no generen dudas a quien deba hacer dicha actividad. Dados un estado inicial y una entrada, siguiendo los pasos definidos se llega a un estado final y se obtiene una solución. En aprendizaje automático y minería de datos, se emplean algoritmos que brindan como solución modelos explicativos del problema planteado.

 

Ejemplos de algoritmos: Árbol de Decisión, Red Neuronal y el propio diseñado por nosotros mismos: DEVOBOOSTER.

Análisis Predictivo

En minería de datos consiste en diseñar esquemas de experimentación que permitan determinar si es posible o no obtener modelos predictivos para ser usados en implementaciones prácticas recurrentes. En dataEvo, diseñamos complejos laboratorios para desarrollar el proyecto de minería de datos más exitoso posible.

Aprendizaje Automático

Es una rama de la inteligencia artificial en el campo de las ciencias de computación que suele usar técnicas estadísticas para para darle a las computadoras la capacidad de aprender, encontrando patrones y generalizando comportamientos a través de información suministrada en forma de ejemplos. En aplicaciones de negocios con minería de datos podemos, por ejemplo, entregarle a un algoritmo casos de clientes para computar un modelo predictivo que diferencia a los que compran determinado producto de los que no.

 

Aprendizaje profundo

Una forma más compleja de aprendizaje automático, el aprendizaje profundo se refiere a sistemas con múltiples capas de entrada/salida, a diferencia de sistemas poco profundos, que cuenta con una sola capa de entrada/salida.

 

Árbol de Decisión

Ver video "Introducción al Data Mining prediciendo la supervivencia a bordo del Titanic"

AUC y GINI

En inglés, Area Under the Curve, el área debajo de la curva es una métrica de desempeño aplicable a casos de clasificación binaría. Indica el grado de separación logrado por la predicción dada, yendo de 0 (peor modelo posible) a 1 (mejor modelo posible).

0,5 indica el desempeño obtenible sin usar ningún modelo (predicción aleatoria). Es por esto último que esta métrica suele normalizarse (GINI) entre 0% y 100% tomando a 0,5 como mínimo y 1 como máximo.

Boosting

Ver video "Machine Learning: del árbol de decisión al bosque de árboles con boosting (XGBoost)"

Clasificación

 

Método de predicción que asigna cada punto de datos a una de las dos o más categorías predefinidas como objetivo. Por ejemplo: predicción del producto más afín a un cliente.

Cross Validation / Validación Cruzada

Ver video "Validación Cruzada (Cross Validation) en Machine Learning"

Datos de entrenamiento

 

Conjunto de datos utilizado para encontrar relaciones potencialmente predictivas que se utilizarán para crear un modelo.

 

Datos de prueba

 

Conjunto de datos separado de los de entrenamiento, utilizados para medir y comparar el rendimiento de los modelos predictivos entrenados.

DEVOBOOSTER

Es nuestro propio algoritmo predictivo, que en primera instancia toma a LightGBM y XGBoost y los optimiza para obtener el mejor resultado inicial posible. Luego de esto, trabaja con otros meta-algoritmos para seguir incrementando el desempeño iteración tras iteración, realizando ingeniería de variables de manera automática y obteniendo muestras combinadas de todo el espacio de solución presentado.

Entrenamiento

 

Es el proceso de crear un modelo a partir de datos, alimentándolos a un algoritmo predictivo que aprenda una representación del problema. También llamado "aprendizaje".

Feature Engineering

Ver Ingeniería de Variables.

Ingeniería de datos

Los ingenieros de datos construyen la infraestructura a través de la cual los datos se recopilan, limpian, almacenan y preparan para su análisis.

Ingeniería de Variables

Es el proceso de, a partir de las variables originales disponibles, crear nuevas variables predictivas que brinden nueva información que los algoritmos predictivos o bien nunca puedan deducir por su cuenta o bien requieran mucho esfuerzo para ello.

Por ejemplo, teniendo varios meses de historia de variables, se pueden realizar agregaciones temporales para obtener variaciones estadísticas como mínimos, máximos, promedios y desvíos estándar.

 

Suele ser una pieza clave del desempeño de un modelo predictivo exitoso, para la cual es fundamental tener conocimiento teórico de los algoritmos, del caso de estudio y además una buena dosis de ingenio, intuición y creatividad.

 

Inteligencia de Negocios (BI)

BI es el proceso de analizar datos históricos para encontrar información valiosa que permita mejorar la toma de decisiones en el futuro.

Laboratorio Fuera de Tiempo

Consiste en un esquema de pruebas de hipótesis para llegar al mejor sistema predictivo posible que tenga en cuenta los tiempos necesarios en la implementación real y recurrentemente retroalimentada de un proyecto de minería de datos.

LightGBM

Es una variación de XGBoost que trabaja hasta 7 veces más rápido para lograr el mismo poder predictivo.

 

Machine Learning

Ver Aprendizaje Automático

Modelo Predictivo

 

En minería de datos en general se agrupan en dos categorías, paramétricos y no paramétricos. Los primeros utilizan una función matemática para describir la solución (regresión logística) mientras que los segundos una serie de pasos algorítmicos para trabajar el espacio de variables brindado (árbol de decisión).

Regresión

 

Método de predicción cuyo objetivo es un valor numérico, representando una cantidad. Por ejemplo: predicción del valor futuro de un cliente.

Sobreajuste

 

Situación en la que un modelo está demasiado ajustado a los datos de entrenamiento y su desempeño cae abruptamente para los datos de prueba, sin reflejar la realidad de la relación subyacente entre las variables predictivas y el objetivo. En inglés se conoce como overfitting.

Variable

 

Indicador observable, registrado y componente de un modelo predictivo. Principalmente se dividen en numéricas y de cadena.

 

Variables Predictivas

 

También conocidas como variables independientes, constituye los datos de entrada (predictivos) del modelo. 

 

Variable Objetivo

 

También conocida como variable dependiente y target, es el resultado del modelo o la variable que se desea predecir.

XGBoost

 

Ver video "Machine Learning: del árbol de decisión al bosque de árboles con boosting (XGBoost)"