Conoce a los ganadores del hackathon ‘Dare In Reality’

Estás leyendo la publicación: Conoce a los ganadores del hackathon ‘Dare In Reality’

Genpact, en colaboración con el equipo de Fórmula E Envision Racing y MachineHack, completó con éxito el hackathon Dare in Reality para científicos de datos y profesionales del aprendizaje automático el 22 de noviembre. ¿La meta? Para ayudar al equipo de carreras a mejorar su rendimiento en el campeonato mundial de monoplazas internacionales totalmente eléctricos. El hackatón recibió a más de 5200 participantes y más de 10 000 presentaciones en solo dos semanas.

“La idea de organizar el hackathon Dare in Reality era permitir que los profesionales de la ciencia de datos, los ingenieros de aprendizaje automático, los profesionales de la IA y otros entusiastas de la tecnología trabajaran en una declaración de un problema del mundo real”, dijo Krishna Rastogi, líder de producto y arquitecto técnico de MachineHack. . “El hackathon ha tenido uno de los números más altos de participantes y presentaciones en MachineHack, donde las clasificaciones se basaron en la métrica RMSLE para predecir los tiempos de vuelta de los pilotos en las rondas de calificación antes de una carrera. Nuestros participantes han resuelto el problema de muchas formas innovadoras”.

Echemos un vistazo a los ganadores que impresionaron a los jueces con sus habilidades con los datos y se llevaron a casa premios en efectivo y obsequios muy codiciados.

Rango 01: Igor Maléev

Maleev fue coronado ganador del hackathon Dare in Reality. Maleev se interesó en la ciencia de datos mientras estudiaba un doctorado en matemáticas y estadística. Tiene experiencia trabajando como científico de datos en el espacio publicitario y minorista y es consultor de ciencia de datos en este momento.

Enfoque ganador

Fig 1: Distribución de datos de Prácticas Libres y grupos de Clasificación

Maleev dice que la idea principal que lo ayudó a ganar fue entrenar al modelo en el segmento verde de la figura 1. Después de entrenar y probar estos datos, estuvo muy cerca de obtener el puntaje en la tabla de clasificación durante la competencia. El resto fue muy técnico y consistió en ingeniería de características, limpieza de datos y entrenamiento y ajuste del modelo.

Mira el código aquí.

Rango 02: Mahesh Yadav y vakada naveen

Yadav se interesó en el aprendizaje automático cuando vio asistentes virtuales inteligentes, pero su exposición total se produjo después de ingresar al IIT Madras como investigador académico en septiembre de 2020.

Naveen siempre ha estado fascinado por la representación de cómo la IA podría hacer maravillas en películas futuristas como Yo, Robot. Incluso su proyecto B Tech de último año sobre aprendizaje automático se centró en esta área. Ha asegurado un lugar para obtener una maestría a través de la investigación en IIT Madras en el área de Transformadores de visión y lenguaje.

🔥 Recomendado:  Obtener un pico del flujo de trabajo de big data/computación en la nube con AWS: hacia la IA

Enfoque ganador

Yadav y Naveen siguieron un enfoque de tres fases, que incluía:

  • Preprocesamiento de datos
  • Construcción del modelo
  • Métodos de ensamblaje

Preprocesamiento de datos

El equipo preprocesó las columnas de tiempo reemplazándolas con valores flotantes, que luego se separaron en columnas categóricas y numéricas. El equipo normalizó las características sesgadas. Después de aplicar la codificación one-hot para manejar las columnas categóricas y la normalización en el conjunto de datos se realiza mediante MinMaxScaler. Se realizó un análisis de componentes principales (PCA) en el conjunto de datos para reducir la dimensionalidad.

Construcción del modelo

Yadav y Naveen probaron una variedad de modelos, como redes neuronales con diferentes arquitecturas, aumento de gradiente de luz, Xgboost, regresión de vector de soporte, aumento de gradiente y bosques aleatorios. Las redes neuronales funcionaron mejor en comparación con otros modelos. Probaron el ajuste de hiperparámetros para las redes neuronales y encontraron algunas de las mejores arquitecturas para usarlas en el ensamblaje.

Métodos de ensamblaje

Yadav y Naveen ejecutaron varias arquitecturas de redes neuronales, probaron diferentes conjuntos de datos de entrenamiento cada vez y realizaron un seguimiento de los mejores modelos. Los enfoques de conjunto que probaron incluyen apilamiento con redes neuronales como metaaprendices, apilamiento con modelos de aprendizaje automático como metaaprendices, promedio simple y promedio ponderado. Dijeron que el mejor modelo que enviaron fue el promedio simple de las predicciones de los mejores modelos de redes neuronales.

Mira el código aquí.

Rango 03: Sylas John Rathinaraj

Inicialmente, Rathinaraj era un desarrollador de SAS y se interesó en el análisis predictivo en 2017. Se centró en aprender cursos de estadística, análisis exploratorio de datos (EDA), aprendizaje automático, ciencia de datos y aprendizaje profundo de Coursera y Udemy. Esta es la primera vez que se clasifica entre los cinco primeros en un hackathon.

Enfoque ganador

Aquí, Rathinaraj transformó toda la información capturada en el tiempo en segundos y codificó con etiquetas todas las características categóricas. La variable objetivo se transformó logarítmicamente para reducir la asimetría en la distribución. Después de eso, se eliminaron las funciones redundantes, junto con la función altamente correlacionada.

Con eso, se creó una nueva función, que es el tiempo empleado en los tres sectores, menos el tiempo PIT. Creó más características que muestran la mejora que ocurrió en todos los sectores. Junto con eso, Rathinaraj también creó una variable a partir de la información de la columna ‘evento’, simplemente tomando el grupo de práctica libre y calificación, y eliminó todos los sufijos numéricos. Luego creó una característica adicional como valores codificados de frecuencia para cada variable categórica.

Construcción del modelo

En este paso, se eliminaron, agregaron y seleccionaron funciones para evitar el sobreajuste, ya que los datos de prueba contienen solo las ubicaciones 6, 7 y 8 de la vuelta del grupo de clasificación. Evaluó el modelo LightGBM, CatBoost y XGboost pero para la predicción final, y utilizó el modelo CatBoost con validación cruzada de cinco veces.

🔥 Recomendado:  Todo lo que necesita para comenzar con los anuncios de pago de Google

Hablando de su experiencia, Rathinaraj dijo: “Ha pasado algún tiempo desde que comencé a participar regularmente en los hackatones de MachineHack. Ha sido un viaje extremadamente emocionante para mí y, de hecho, muy útil para mi aprendizaje”, dijo Rathinaraj.

Mira el código aquí.

Rango 04: Praveen Kumar Bandla

Bandla se encontró con el término “ciencia de datos” cuando tomó un curso de minería de datos comerciales mientras estudiaba para obtener su MBA en IIM Calcuta. Se enganchó instantáneamente por la forma en que se pueden emplear las matemáticas y la programación para ayudar a resolver problemas comerciales complejos. Mientras trabajaba en EXL, tuvo la oportunidad de trabajar con un cliente de seguros de EE. UU. con su equipo de análisis. Continuó con un PGP en ciencia de datos, ofrecido por Simplilearn en asociación con la Universidad de Purdue e IBM. Desde entonces, ha estado participando en hackatones de ML y ha aprendido mucho de estas competencias.

Enfoque ganador

Para empezar, Bandla trabajó para comprender el conjunto de datos y las funciones que se proporcionaron. Investigó el contexto del enunciado del problema para obtener una mejor comprensión de la tarea. Después de esto, realizó EDA para explorar la distribución de características y su relación con la variable objetivo. Después de descubrir las funciones que quería usar, entrenó modelos básicos para tener una idea de su posición en la tabla de clasificación.

Él dijo: “Entonces, experimentaría con la transformación de características, la ingeniería de características, el ajuste de modelos, el impulso, el apilamiento, etc. Esto me daría una idea de cómo funcionan los modelos complejos con el conjunto de datos dado en comparación con los más simples. En esta competencia, descubrí que los modelos más simples funcionan mejor que los modelos complejos”.

Mira el código aquí.

Rango 05: mahima aroa

Arora viene con una licenciatura en matemáticas y una maestría en investigación de operaciones. Solo ha pasado un año desde que Arora comenzó a trabajar, pero la experiencia la ha abierto a diferentes conceptos, una variedad de herramientas y una gran posibilidad de explorar y aprender más.

Enfoque ganador

Después de explorar los datos, Arora comenzó con una limpieza de datos que incluía corregir los formatos de diferentes variables y convertirlos en una forma utilizable. Luego, Arora realizó un análisis univariado y bivariado para comprender mejor los datos. En el siguiente paso, fusionó los datos meteorológicos con el conjunto de datos original y los agregó en la combinación de ubicación, evento y fuente de datos. Con esto, calculó la media de cada una de las columnas y la fusionó con el conjunto de datos original. La imputación se realizó sobre columnas con un 60-70% de datos faltantes.

🔥 Recomendado:  Una guía rápida para usar los anuncios de Instagram Reels como un jefe

Después de esto, Arora convirtió las variables categóricas en variables ficticias y eliminó las columnas irrelevantes. Dividió los datos en entrenamiento y validación y comenzó a construir un modelo utilizando el regresor XGBoost, el bosque aleatorio y los algoritmos de aumento de gradiente. Usó la validación cruzada de k-fold para ajustar sus modelos y ajustó XGBoost Regressor con “Mean Squared Log Error” como una función objetiva, lo que le dio el mejor rendimiento en sus datos de validación.

La experiencia de Arora en MachineHack ha sido enriquecedora y satisfactoria. Dijo: “Desde la limpieza de los datos y la aplicación de diferentes algoritmos hasta el ajuste fino, el modelo ha aumentado mi comprensión general de este campo. Estos hackatones brindan una excelente plataforma para aprender y competir en un entorno saludable para mejorar y mejorar su conocimiento existente”.

Mira el código aquí.

Soluciones listas para usar, alto grado de habilidades mostradas

El hackathon Dare in Reality vio a los participantes aportar soluciones listas para usar para resolver el problema innovador que se les había presentado. Haber mostrado un nivel tan alto de habilidades en el hackathon Dare in Reality seguramente lo convirtió en un gran éxito.

“Nos sorprendió la cantidad de soluciones cuidadosamente consideradas que recibió el hackatón para nuestro desafío”, dijo el equipo de Envision Racing. “Con la comunidad de ciencia de datos demostrando un nivel tan alto de innovación, los cinco ganadores deberían estar particularmente orgullosos de su éxito. Ya estamos explorando cómo podemos adaptar sus ideas para ayudar al equipo a obtener una ventaja en la calificación”.

Tabla de Contenido