IDECNN-Evolución diferencial mejorada de convolucional… – Hacia la IA

Estás leyendo la publicación: IDECNN-Evolución diferencial mejorada de convolucional… – Hacia la IA

Publicado originalmente en Hacia la IA.

Revisión: Evolución diferencial mejorada de IDECNN de la red neuronal convolucional (clasificación de imágenes)

En esta historia, nuestro trabajo de investigación, titulado: “Diseño de una arquitectura de red neuronal convolucional óptima utilizando un algoritmo de evolución diferencial” [1], se revisa. El artículo destaca el uso de la Evolución Diferencial (DE) como una estrategia de búsqueda para abordar el enfoque de Búsqueda de Arquitectura Neural (NAS). La investigación empleó ocho conjuntos de datos de imágenes bien conocidos y concluyó que IDECNN (método propuesto) tenía la capacidad de diseñar una arquitectura más adecuada en contraste con los 20 modelos de CNN ya existentes. Esta investigación se publica en Patterns, Elsevier en 2022.

Describir

  1. Introducción
  2. Marco general
  3. Breve discusión
  4. Resultados y Conclusión
  5. Introducción

El artículo analiza los desafíos de diseñar manualmente redes neuronales convolucionales (CNN) para diversas tareas, específicamente la clasificación de imágenes. Para abordar este problema, el artículo recomienda el enfoque de búsqueda de arquitectura neuronal (NAS), que automatiza el diseño de arquitecturas CNN. El artículo enfatiza que los enfoques meta-heurísticos, como la Evolución Diferencial (DE), se han convertido en una estrategia de búsqueda popular y efectiva para NAS. El enfoque propuesto en el artículo es un método mejorado basado en DE que automatiza el diseño de la arquitectura CNN basada en capas para tareas de clasificación de imágenes.

2. Marco general

El marco del trabajo propuesto se encuentra en [1].

El párrafo describe un algoritmo propuesto para crear una arquitectura ideal para un modelo CNN que se utilizará para la clasificación de imágenes. Inicialmente, un grupo de arquitecturas CNN se inicializa aleatoriamente y se entrena en una sección de los datos de entrenamiento, después de lo cual se clasifican en función de su función de aptitud del conjunto de datos de validación. La función de aptitud se basa en errores de clasificación. Los individuos experimentan mutaciones y cruces durante el proceso de DE para producir arquitecturas actualizadas cuya aptitud se evalúa. Los individuos más aptos de cada generación se seleccionan en función de su función de aptitud y este proceso continúa hasta que se cumple una condición de parada. La arquitectura CNN óptima se elige en función del puntaje de aptitud más bajo de los individuos mejor seleccionados y se prueba en el conjunto de datos de prueba para determinar su rendimiento final.

🔥 Recomendado:  Cómo obtener $ 50 al instante (más de 20 mejores formas en 2023)

3. Breve discusión

El párrafo analiza el proceso de inicialización de la población en el algoritmo Neural Architecture Search (NAS) propuesto en el artículo. Una población es un grupo de N individuos que se ubican aleatoriamente dentro del espacio de búsqueda. Cada individuo se compone de capas de convolución, agrupación y totalmente conectadas (FC) con hiperparámetros elegidos al azar. Cada individuo tiene una longitud limitada y debe tener una capa de Convolución como primer componente y una capa de FC como último componente. Los hiperparámetros de cada capa se seleccionan de rangos predeterminados, mientras que otros parámetros se basan en estudios previos.

El pasaje analiza la utilización de la mutación en el marco de la computación evolutiva, específicamente en la optimización de las redes neuronales convolucionales (CNN) a través del algoritmo de evolución diferencial (DE). En este enfoque, se emplea el esquema de mutación DE/best/1 para crear un vector donante vi para cada vector diana xi en la generación actual. El método propuesto, IDECNN, calcula la diferencia entre dos individuos (xr1, xr2) de la población (P) que son distintos del vector objetivo, considerando los tipos de capa que los componen. Si la j-ésima dimensión de los individuos seleccionados aleatoriamente tiene el mismo tipo de capa, se restan los valores de sus hiperparámetros asociados. Si los valores de la j-ésima dimensión en xr1 y xr2 son diferentes en términos de tipo de capa, el algoritmo copiará la j-ésima capa de xr1, incluidos sus hiperparámetros correspondientes, para representar la diferencia entre las dos. El mejor individuo de la población se elige después de verificar los límites, y se usa un factor de escala F y un número aleatorio r para seleccionar una capa de xbest o (xr1-xr2) para calcular el vector donante vi. Ecuación (3) en referencia [1] describe la operación de mutación propuesta, que es la siguiente:

🔥 Recomendado:  Un intento de conocer los resultados reales de las elecciones parlamentarias de Rusia de 2021… – Hacia la IA

El algoritmo propuesto empleó una operación cruzada para mejorar la variación en la población. La mutación generó un vector donante, que luego se usó para producir un vector de prueba al cruzarlo con el vector objetivo. El documento utilizó un cruce binomial, que se basó en una tasa de cruce y un número aleatorio. Se estableció la longitud del vector donante y se seleccionó un valor aleatorio dentro de su rango. Para cada dimensión del vector de prueba, se generó un número aleatorio. Si el número aleatorio era menor que la tasa de cruce o era igual al valor elegido, se tomaba el valor correspondiente del vector donante. Si no, se tomó del vector de destino. Un ejemplo de este proceso se presenta en la Figura 6 de la referencia [1].

Durante la etapa de selección, la aptitud de cada individuo de la población se evalúa calculando el error de pérdida de clasificación basado en una función de aptitud. También se determina la aptitud del vector de prueba ui obtenido mediante entrecruzamiento y mutación. El vector objetivo xi y el vector de prueba ui se comparan en función de sus valores mínimos de error de pérdida, y se selecciona el individuo superior para la siguiente generación. Este proceso de selección mantiene un tamaño de población constante y aumenta las posibilidades de seleccionar individuos con valores de aptitud superiores para la próxima generación. Ecuación (4) en referencia [1] proporciona la operación de selección propuesta, que es la siguiente:

4. Resultados y Conclusión

Resultados de errores de clasificación de IDECNN y métodos/modelos de última generación. La tabla está tomada de [1].

🔥 Recomendado:  La visión de un estudiante investigador sobre la IA conversacional: hacia la IA

Para resumir, el método IDECNN se probó en ocho conjuntos de datos de imágenes de uso común, y los resultados demostraron que superó a otros métodos de última generación en seis de los ocho conjuntos de datos según la mejor media y SD de la tasa de error de clasificación. En particular, IDECNN logró el mejor rendimiento en el conjunto de datos MNIST, con la mejor tasa de error del 0,29 %, una tasa de error media del 0,38 % y una tasa de error SD del 0,09 %. Además, demostró un rendimiento superior en los conjuntos de datos MBI, MRB, MRD, CS y RECT-I. Estos resultados indicaron que el enfoque IDECNN propuesto es efectivo para generar arquitecturas CNN que pueden lograr una alta precisión en las tareas de clasificación de imágenes. Además, las arquitecturas CNN generadas se aplican en la clasificación de imágenes de aplicaciones del mundo real que involucran imágenes biomédicas de rayos X de neumonía y enfermedad por coronavirus 2019 (COVID-19). Los resultados indican la efectividad del enfoque propuesto para generar un modelo de CNN apropiado.

Referencia:

[Patterns, Elsevier] [2022]

  1. Diseño de una arquitectura de red neuronal convolucional óptima utilizando un algoritmo de evolución diferencial


Reseña: Evolución diferencial mejorada de IDECNN de la red neuronal convolucional (Imagen… se publicó originalmente en Hacia la IA en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.

Publicado a través de Hacia la IA