¿Qué es la validación cruzada en estadística? Definición con ejemplo

Por el equipo editorial de Indeed

Publicado el 14 de abril de 2022

Las estadísticas son importantes para comprender patrones y cómo pueden ayudar a los estadísticos a hacer predicciones. La validación cruzada es un método para determinar qué tan bien los modelos de aprendizaje pueden predecir usando los datos que reciben. Comprender la validación cruzada en estadísticas puede ayudarlo a saber por qué es un proceso importante en una industria tecnológica. En este artículo, definimos la validación cruzada, discutimos sus ventajas y desventajas y brindamos un ejemplo de su uso para ayudarlo a comprender cómo puede ayudar a mejorar la precisión de los modelos de aprendizaje predictivo.

¿Qué es la validación cruzada en estadística?

La validación cruzada es un método para verificar la validez de un modelo de prueba. Al analizar datos, los estadísticos suelen utilizar uno de los muchos modelos de prueba. La validación cruzada generalmente involucra modelos que usan datos para la predicción.

Para realizar una validación cruzada de su modelo elegido, retienen una parte de sus datos y la dejan sin probar. Los estadísticos entrenan su modelo predictivo con el primer conjunto de datos, llamado conjunto de entrenamiento. El conjunto reservado de datos es el conjunto de prueba o validación. Posteriormente, los estadísticos pueden usar el conjunto de prueba en el modelo y comparar los resultados con los resultados del conjunto de entrenamiento. Esto les ayuda a evaluar la precisión de las predicciones del modelo utilizando diferentes datos. También pueden determinar qué tan bien un modelo digital puede aprender de los datos.

¿Por qué es importante aprender sobre la validación cruzada en estadística?

La validación cruzada ayuda a los estadísticos a crear modelos predictivos precisos que pueden ayudar a crear software y otras tecnologías que las personas usan en su vida cotidiana. La precisión es importante para ayudar a crear tecnología más útil. Por ejemplo, el propietario de una empresa de productos frescos podría contratar a un estadístico para que use varios programas informáticos a fin de determinar cuánto producto podría crecer hasta alcanzar la madurez completa o cuánto podría estropearse antes de venderse. Si el software puede hacer predicciones precisas, puede ayudarlos a crear presupuestos y planes comerciales más precisos.

Tipos de validación cruzada en estadística

Hay dos tipos de validación cruzada en estadística, validación cruzada exhaustiva y validación cruzada no exhaustiva. Los dos tipos tienen cada uno sus propios subtipos. Aquí están los detalles de cada uno:

1. Validación cruzada exhaustiva

La validación cruzada exhaustiva divide los datos en cada combinación de conjuntos de entrenamiento y prueba. Existen varios subtipos primarios de validación cruzada exhaustiva. Algunos métodos comunes son:

Validación cruzada Leave-p-out (LpO CV)

Este subtipo establece un valor p mayor que uno, luego usa esa cantidad de datos como su conjunto de entrenamiento. Todos los datos restantes son su conjunto de prueba. Este método se repite hasta que utiliza todas las combinaciones de datos iguales a p.

Validación cruzada dejar uno fuera (LOO CV)

El LOO CV es una variación del método de exclusión, donde p es igual a uno. Este modelo deja un conjunto de datos a la vez y continúa hasta que el estadístico haya probado cada conjunto individual. Un beneficio de este modelo es que podría producir resultados menos sesgados.

2. Validación cruzada no exhaustiva

Una validación cruzada no exhaustiva aún divide sus datos, pero no en todas las combinaciones. En cambio, la mayoría de los métodos no exhaustivos crean subconjuntos más grandes, generalmente al azar. Algunos de los métodos de validación cruzada no exhaustiva más comunes incluyen:

validación cruzada k-fold

El método k-fold divide aleatoriamente los datos en k cantidad de subconjuntos. Cada subconjunto tiene la misma cantidad de conjuntos de datos y toma un turno como conjunto de prueba, con los subconjuntos restantes actuando juntos como el conjunto de entrenamiento. Este método continúa hasta que el estadístico prueba cada subconjunto.

Método de exclusión

Este método divide aleatoriamente los datos en un conjunto de entrenamiento y un conjunto de prueba. Este método solo usa estos dos conjuntos para estos propósitos específicos. El estadístico entrena el modelo una vez, luego prueba el modelo una vez.

Método de Montecarlo

Un método de Monte Carlo divide aleatoriamente los datos en subconjuntos y luego repite el proceso. Después de cada fase del conjunto de pruebas, todos los datos utilizados vuelven al conjunto de datos. Luego, los datos se dividen nuevamente en subconjuntos aleatorios. Debido a esto, los estadísticos pueden usar algunos datos con más frecuencia y rara vez o nunca usar otros datos.

Ventajas de utilizar la validación cruzada

La validación cruzada ofrece muchas ventajas a los estadísticos y otros profesionales que utilizan los modelos probados. La mayoría de estas ventajas implican la forma en que la validación cruzada utiliza sus datos para aumentar la precisión predictiva. Algunas de las principales ventajas de usar la validación cruzada incluyen:

Prueba conjuntos de datos grandes y pequeños

Dado que existen varios métodos de validación cruzada, los estadísticos pueden usarlo para probar diferentes tamaños de conjuntos de datos. Por ejemplo, mientras que la mayoría de los métodos pueden ayudar a probar modelos utilizando cualquier cantidad de datos, el método k-fold específicamente puede calcular bien pequeños conjuntos de datos. Esto ayuda a los estadísticos a probar sus modelos utilizando cualquier cantidad de datos que hayan recopilado.

Utiliza los datos de manera eficiente

La validación cruzada utiliza sus datos para entrenar y probar sus modelos. Esto ayuda a los estadísticos a construir modelos más precisos utilizando los datos que tienen actualmente. Esta eficiencia puede ayudar a ahorrar tiempo y dinero al crear y mejorar modelos predictivos.

Ofrece más métricas

La mayoría de los métodos de validación cruzada involucran múltiples fases de prueba, cada una de las cuales ofrece resultados. Esto le da al estadístico varias oportunidades para medir la precisión de las predicciones de su modelo. Tener más métricas para estudiar puede ayudar a los estadísticos a encontrar y solucionar problemas en su modelo, lo que puede ayudar a mejorar su precisión.

Desventajas de usar la validación cruzada

La validación cruzada también puede tener algunas desventajas. Conocerlos puede ayudar a los estadísticos a prepararse o resolver problemas con anticipación. Algunas desventajas comunes del uso de la validación cruzada incluyen:

Toma mucho tiempo

La mayoría de los métodos de validación cruzada implican realizar muchas pruebas. Cada una de estas pruebas requiere tiempo para realizarse. Algunos métodos de validación cruzada, específicamente el tipo exhaustivo, pueden tardar mucho tiempo en completarse. Si planea realizar una validación cruzada, considere programar tiempo adicional para realizar sus pruebas para ayudar a terminarlas antes de su fecha límite.

Aumenta los costos de computación

Las computadoras pueden ayudar a probar los modelos con validación cruzada. Algunos métodos, como el método LOO CV, pueden requerir mucha potencia informática para completarse. Estas computadoras pueden costar mucho dinero para comprar, instalar y encender. Algunos estadísticos podrían tener acceso a la potencia informática necesaria. Aquellos que no, podrían considerar aumentar el presupuesto de su proyecto antes de comenzar.

No tiene en cuenta la aleatorización

La aleatorización es parte de muchos métodos de validación cruzada. Los conjuntos de datos aleatorios a veces pueden ser demasiado similares o demasiado diferentes. En algunos métodos, la aleatorización puede significar no utilizar todos los datos recopilados. Cualquiera de estas situaciones puede impedir que el modelo sea más preciso. Aquellos que prueban modelos predictivos pueden evaluar conjuntos de datos utilizados para determinar si podrían haber afectado los resultados de sus pruebas.

Ejemplo de validación cruzada

Este es un ejemplo de cómo sería el proceso de validación cruzada. Este ejemplo utiliza el método k-fold con un conjunto de 10 piezas de datos. Estos números representan los datos:

3, 5, 9, 2, 0, 4, 3, 6, 8, 5

k = 5

Dado que el método utiliza subconjuntos iguales, k puede ser igual a cinco. Esto significa que hay cinco subconjuntos pares, cada uno con dos conjuntos de datos. Divide los grupos al azar. Los cinco subconjuntos podrían verse así:

Doblar 1: [9, 4]

Doblar 2: [5, 3]

Doblar 3: [8, 2]

Doblar 4: [0, 5]

Doblar 5: [6, 3]

Puede usar estos subconjuntos para entrenar muchos modelos. Si prueba la precisión de un modelo con los cinco, puede dejar que cada subconjunto se turne como conjunto de prueba, así:

Prueba uno: Tren con los pliegues 1, 2, 3, 4 y prueba con el pliegue 5.

Prueba dos: entrenar con los pliegues 1, 2, 3, 5 y probar con el pliegue 4.

Prueba tres: entrenar con los pliegues 1, 2, 4, 5 y probar con el pliegue 3.

Prueba cuatro: tren con los pliegues 1, 3, 4, 5 y prueba con el pliegue 2.

Prueba cinco: entrenar con los pliegues 2, 3, 4, 5 y probar con el pliegue 1.

Con cada prueba, ingrese los subconjuntos de entrenamiento y registre los resultados. Luego, ingrese el subconjunto de prueba y registre esos resultados. Después de las cinco pruebas, tiene una lista de resultados de entrenamiento y pruebas. Puede compararlos para ver qué tan preciso es el modelo. Luego, puede crear un informe de sus hallazgos para ayudar a sus colegas a comprender la precisión del modelo.

Similar Posts

Leave a Reply

Your email address will not be published.