Ganar Dinero Online

Tipos de validación cruzada y cuándo usarlos: hacia la IA

Estás leyendo la publicación: Tipos de validación cruzada y cuándo usarlos: hacia la IA

Publicado originalmente en Hacia la IA, la empresa líder mundial en noticias y medios de IA y tecnología. Si está creando un producto o servicio relacionado con la IA, lo invitamos a considerar convertirse en patrocinador de la IA. En Hacia la IA, ayudamos a escalar las empresas emergentes de IA y tecnología. Permítanos ayudarlo a dar rienda suelta a su tecnología a las masas.

Una mejor manera de probar sus modelos

Descripción general

La construcción de modelos de aprendizaje automático es un gran proceso que incluye varios pasos

Conjunto de datos
Preparación y preprocesamiento de datos
Análisis de datos expositivos
Selección e ingeniería de características
Construcción y Evaluación de Modelos

La validación cruzada es una de las partes más importantes de Construcción y evaluación de modelos.
Antes de experimentar con Cross-Validation, veamos qué es y por qué deberíamos preocuparnos por usarlo.

¿Por qué validación cruzada?

Digamos que tenemos un conjunto de datos de 10000 filas (muestra) y queremos construir un modelo con él. Una forma simple sería hacer una prueba de tren dividida de datos y hacer un modelo con eso. ¿¿bien??
Pero cuando entrenamos la división de prueba, asignamos random_state= algún valor. Puede ser cualquier cosa 0,42,69,100. Y cada vez que cambie el valor de random_state obtendrá un tren diferente y un conjunto de datos de prueba (no dude en comprobarlo, pero puede tomar mis palabras).
Y obtendrá un rendimiento de precisión diferente en cada división diferente, entonces, ¿cómo puede estar seguro de elegir el estado aleatorio correcto cuando cada uno tiene resultados diferentes?
Aquí es donde la validación cruzada es útil. Usamos la validación cruzada para hacer diferentes divisiones de nuestros datos para entrenar y probar nuestro modelo y promediamos la precisión general de esta iteración. para ver el rendimiento general de nuestro modelo.

🔥 Recomendado: Editar iMessages en iOS 16 parece una pesadilla cuando se chatea con iPhones antiguos

¿Qué es la validación cruzada?

Dividimos nuestro conjunto de datos en diferentes fragmentos de datos. Si tenemos 10000 filas y queremos tener 5 iteraciones. Podemos tener las primeras 8000 filas como datos de entrenamiento y las últimas 2000 filas como datos de prueba (suponga una división 80/20).
En la próxima iteración, podemos tener las primeras 6000 y las últimas 2000 filas como datos de entrenamiento y el resto de las 2000 filas como datos de prueba.
Hacemos diferentes 5 retenciones de datos que tienen diferentes datos de entrenamiento y prueba haciendo el mismo proceso.
Aquí hay una gran visualización de Cross-Validation. (Fuente: Kaggle)

Tipos de validación cruzada

Principalmente hay 5 tipos de validación cruzada

Enfoque de validación de retención
Dejar uno fuera Validación cruzada
Validación cruzada de K Fold
Validación cruzada de plegado K estratificado
Divisiones aleatorias repetidas del tren de prueba

El enfoque de validación de retención es nuestro método de división de prueba de tren regular en el que retenemos una parte de los datos con fines de prueba.
No discutiremos aquí la validación cruzada de Deje uno fuera y el enfoque de divisiones de trenes de prueba aleatorios repetidos porque apenas se usan y es posible que no los necesite para la mayoría de sus proyectos.
Usaré aquí el conjunto de datos de Breast Cancer Wisconsin para obtener una explicación. No entraré en detalles sobre cómo realizar excelentes pasos de ingeniería de características porque el objetivo principal de este artículo es la validación cruzada.

Preparación de datos

Ahora podemos construir nuestro modelo con estos datos y usar diferentes técnicas de validación cruzada.

🔥 Recomendado: 8 consejos para vivir con un solo ingreso cuando el dinero escasea

Enfoque de validación de retención

El resultado de este modelo es 0.9239766081871345
Esta es nuestra división de prueba de tren simple en la que retenemos una parte de nuestros datos para validación y usamos el resto para el modelo de entrenamiento.

Validación cruzada de K Fold

Puntuaciones =[0.9122807 0.92982456 0.89473684 0.98245614 0.98245614 0.98245614, 0.96491228 0.96491228 0.96491228 1.]
Puntaje Promedio = 0.9578947368421054
En K Fold Cross Validation hacemos k diferentes divisiones de nuestros datos. elija una parte de nuestro k-ésimo pliegue para la validación y use el resto de los datos para el entrenamiento.
Repita esta k vez dividiendo nuestros datos aleatoriamente cada vez, lo que da como resultado un nuevo conjunto de datos de prueba y tren.
Esto nos dará el rendimiento general de nuestro modelo en diferentes escenarios.

Validación cruzada de plegado K estratificado

Utilizamos este enfoque cuando trabajamos con un conjunto de datos desequilibrado.
Esto dará diferentes divisiones que preservarán los porcentajes de clases para que podamos tener un conjunto de datos adecuado para entrenar y probar nuestro modelo.

Puntuaciones =[0982456140894736840947368420947368420982456140982456140947368420982456140947368421[0982456140894736840947368420947368420982456140982456140947368420982456140947368421
Puntaje Promedio= 0.9614035087719298
Un conocimiento más profundo al respecto mira esto:

Validación cruzada estratificada de K Fold – GeeksforGeeks

Conclusión

Si desea utilizar la validación cruzada, vaya con la validación cruzada de plegado K y si su conjunto de datos está desequilibrado y no lo ha equilibrado de antemano, entonces puede optar por la validación cruzada de plegado K estratificado.
Obviamente, existen otras formas de realizar la validación cruzada, pero las que se mencionan aquí son las más utilizadas en la mayoría de los problemas.
Espero que les haya gustado este artículo. Si tiene algo que agregar o desea dar su opinión, hágalo porque me ayudará mucho a mí y a otros a mejorar.

🔥 Recomendado: Introducción al aprendizaje federado: hacia la IA

Los tipos de validación cruzada y cuándo usarlos se publicaron originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA

Tabla de Contenido

cruzada cuando hacia tipos usarlos validación

ICLR 2022: una selección de 10 documentos que no debe perderse: hacia la IA