Conozca a los ganadores del Machine Learning Hackathon de Swiss Re & MachineHack

Estás leyendo la publicación: Conozca a los ganadores del Machine Learning Hackathon de Swiss Re & MachineHack

Swiss Re, en colaboración con MachineHack, completó con éxito el Machine Learning Hackathon que se llevó a cabo del 11 al 28 de marzo para científicos de datos y profesionales de ML para predecir puntajes de riesgo de accidentes para códigos postales únicos. ¿El objetivo final? Construir un modelo de aprendizaje automático para mejorar los precios de los seguros de automóviles.

El hackathon vio más de 1100 registros y más de 300 participantes de candidatos interesados. De esos, se pidió a los cinco primeros que participaran en una exhibición de soluciones que se llevó a cabo el 6 de abril. Las cinco entradas principales fueron evaluadas por Amit Kalra, director general de Swiss Re, y Jerry Gupta, vicepresidente sénior de Swiss Re, quienes se relacionaron con los participantes principales, entendieron sus soluciones y presentaciones y proporcionaron sus comentarios y puntajes. ¡De ahí surgieron los tres primeros ganadores!

Echemos un vistazo a los ganadores que impresionaron a los jueces con sus habilidades de análisis y se llevaron a casa premios en efectivo y obsequios muy codiciados.

Rango 01: Rahul Pednekar

Pednekar cuenta con más de 19 años de experiencia laboral en TI, gestión de proyectos, desarrollo de software, soporte de aplicaciones, diseño de sistemas de software y estudio de requisitos. Le apasionan las nuevas tecnologías, especialmente la ciencia de datos, la IA y el aprendizaje automático.

“Mi experiencia radica en la creación de visualizaciones de datos para contar la historia de mis datos y el uso de la ingeniería de funciones para agregar nuevas funciones para dar un toque humano en el mundo de los algoritmos de aprendizaje automático”, dijo Pednekar.

Método

El enfoque de Pednekar constaba de siete pasos:

Análisis exploratorio de datos (EDA)

Para EDA, Pednekar ha analizado el conjunto de datos para averiguar la relación entre:

  • Número de víctimas por mes
  • Número de víctimas por día
  • Número de víctimas por hora
  • Número de víctimas por tipo de día
  • Los días más peligrosos para viajar
  • Número de víctimas por condiciones de luz
  • Número de víctimas por el límite de velocidad
  • 20 autoridades locales peligrosas (carretera) con el registro más alto de accidentes de tráfico en el Reino Unido
  • 20 autoridades locales (autopistas) más seguras con el registro más alto de accidentes de tráfico en el Reino Unido
  • Número de bajas por la fuerza policial
  • Número de víctimas según las condiciones de la carretera
  • Número de víctimas según el tipo de carretera
  • Número de víctimas con paso de peatones
  • Frecuencia del número de víctimas
  • Frecuencia del número de vehículos involucrados
  • Distribución de vehículos implicados en accidentes de tráfico
🔥 Recomendado:  Más de 10 mejores sitios de escritura independiente para aumentar sus ingresos en 2023

Imputación de valor nulo y creación de varias funciones relacionadas con la fecha y la hora

Imagen: Rahul Pednekar

Ingeniería de características (entrenamiento del conjunto de datos), columna Conversión a objetos

Imagen: Rahul Pednekar

Fusión de conjuntos de datos e ingeniería de características

Aquí, Pednekar fusionó los conjuntos de datos de “Población” y “Red de carreteras” con el tren usando la combinación izquierda. Creó columnas de Latitud y Longitud extrayendo datos de las columnas “WKT” en Roads_network.

Él procedió a

  • Descartar columnas con “código postal” duplicado
  • Coloque estas columnas: “Rural Urban”, “WKT”, “roadFuncti”, “formOfWay”
  • Imputa valores nulos con “999”

Y agregó nuevas características:

  • Densidad por la fuerza policial
  • Población por cuerpo de policía

Modelado y Predicción

Pednekar completó los siguientes pasos:

  • Use la validación cruzada K-Fold usando K = 10
  • Entrene el modelo utilizando CB Regressor con parada temprana = 100 iteraciones y prediga el número de víctimas.
  • Predicción final = Acumule los datos en el nivel de código postal y cree una columna como “accident_risk_index”.

Imagen: Rahul Pednekar

Imagen: Rahul Pednekar

Pednekar ha disfrutado muchísimo participando en este hackathon. Él dijo: “El equipo de MachineHack y la plataforma son increíbles, y me gustaría recomendar lo mismo a todos los profesionales de la ciencia de datos. Me gustaría agradecer a Machinehack por brindarme la oportunidad de participar en varios desafíos de resolución de problemas de ciencia de datos”.

Consulta el código aquí.

Rango 02: Sachin Yadav

El viaje de ciencia de datos de Yadav comenzó hace un par de años y, desde entonces, ha sido un participante activo en hackatones realizados en diferentes plataformas. “Aprender de otros competidores y absorber sus ideas es la mejor parte de cualquier competencia de ciencia de datos, ya que amplía el alcance de su pensamiento y lo hace mejor después de cada competencia”, dice Yadav.

🔥 Recomendado:  Ingresos pasivos para adolescentes (Guía definitiva de 2023)

Acercarse

  • El enfoque inicial de Yadav consistía en buscar formas de utilizar los datos de la población y la red de carreteras junto con los datos de los trenes y las pruebas. Debido a la gran cantidad de valores no coincidentes para el campo de código postal, decidió no utilizar los datos de población y red de carreteras.
  • Comenzó con el análisis exploratorio de datos, con lo cual se hizo evidente que el objetivo era de distribución de Poisson.
  • La métrica de evaluación fue MSE, pero después de comparar la puntuación inicial del objetivo de aprendizaje MSE con Poisson, Yadav decidió seguir adelante con el modelo de Poisson.
  • El ajuste de hiperparámetros no le dio buenos resultados a Yadav. Por lo tanto, se quedó con los parámetros del modelo de referencia. Además, la combinación o el apilamiento de diferentes modelos tampoco dieron como resultado una buena puntuación.
  • Finalmente, realizó la selección de funciones del conjunto existente de funciones y envió el modelo Catboost con tres validaciones cruzadas de Kfold para el envío final.

“Las competencias de MachineHack son únicas y tienen un caso de negocios diferente en cada uno de sus hackatones. Brinda un campo en el que podemos practicar y aprender nuevas habilidades aplicándolas a un caso de dominio particular. Genera confianza en cuanto a lo que funcionaría y lo que no en ciertos casos. Aprecio el arduo trabajo que está realizando el equipo para organizar tales competencias”, agrega Yadav.

Consulta el código aquí.

Puesto 03: Prudhvi Badri

Badri ingresó al campo de la ciencia de datos mientras cursaba una maestría en informática en la Universidad Estatal de Utah en 2014 y había tomado clases relacionadas con estadísticas, programación Python e IA, y escribió un trabajo de investigación para predecir usuarios malintencionados en las redes sociales en línea.

“Después de mi educación, comencé a trabajar como científico de datos para una empresa emergente de fintech y construí modelos para predecir el riesgo de incumplimiento de pago para los clientes. Actualmente trabajo como científico de datos sénior para una empresa de seguridad de sitios web. En mi rol, me enfoco en construir modelos ML para predecir el tráfico de Internet malicioso y bloquear ataques en sitios web. También soy mentor de científicos de datos y los ayudo a construir proyectos geniales en este campo”, dijo Badri.

🔥 Recomendado:  Los tweets de Michael Owen sobre su NFT provocan una protesta publicitaria

Acercarse

Badri se centró principalmente en la ingeniería de características para resolver este problema. Creó funciones agregadas como mínimo, máximo, mediana, suma, etc., agrupando algunas columnas categóricas como Day_of_Week, Road_Type, etc. Creó funciones a partir de datos de población como sex_ratio, male_ratio, female_ratio, etc.

Agrega: “No he utilizado el conjunto de datos de carreteras que se ha proporcionado como datos complementarios. Creé un total de 241 características y usé una validación cruzada de diez veces para validar el modelo. Finalmente, para el modelado, utilicé un modelo de conjunto ponderado de LightGBM y XGBoost”.

Badri ha sido miembro de MachineHack desde 2020. “Estoy emocionado de participar en las competencias, ya que son únicas y siempre me ayudan a aprender sobre un nuevo dominio y me permiten probar nuevos enfoques. Agradezco la transparencia de la plataforma que comparte los enfoques de los principales participantes una vez que finaliza el hackathon. Aprendí muchas técnicas y enfoques nuevos de otros miembros. Espero participar en más hackatones en el futuro en la plataforma MachineHack y animo a mis amigos y colegas a participar también”, concluyó Badri.

Consulta el código aquí.

El Hackathon de aprendizaje automático de Swiss Re, en colaboración con MachineHack, terminó con una explosión, con los participantes presentando soluciones listas para usar para resolver el problema que tenían enfrente. ¡Tal exhibición de habilidades hizo que el hackathon fuera intensamente competitivo y divertido y seguramente hizo que el desafío fuera un gran éxito!

Tabla de Contenido