Estás leyendo la publicación: Swiss Re lanza Machine Learning Hackathon para predecir la puntuación de riesgo de accidentes para códigos postales únicos
Swiss Re, la organización de reaseguros líder en el mundo, en colaboración con MachineHack, está lista para lanzar una Hackatón de aprendizaje automático de 11 al 28 de marzo para predecir puntuaciones de riesgo de accidentes para códigos postales únicos. Los tres primeros ganadores tienen la oportunidad de ganar premios por valor de INR 1,5 lakh.
Con presencia en 25 países, la estrategia tecnológica de Swiss Re aprovecha los datos y la tecnología para desarrollar soluciones más inteligentes e innovadoras para las cadenas de valor de los clientes.
Swiss Re aplica nuevas perspectivas, conocimientos y capital para anticipar y gestionar el riesgo a fin de crear soluciones más inteligentes. El Global Business Solutions Center (BSC) de Swiss Re en Bangalore cuenta con más de 1300 profesionales que aprovechan la experiencia, los conocimientos y el pensamiento innovador para crear nuevas oportunidades comerciales.
El hackathon comienza el 11 de marzo de 2022 a las 6:00 p.m.
Haga clic aquí para participar en el hackathon.
Declaración y descripción del problema
Swiss Re está invitando a científicos de datos, profesionales de aprendizaje automático y análisis a desarrollar un modelo de aprendizaje automático para mejorar los precios de los seguros de automóviles.
Según IBEF, “la producción nacional de automóviles aumentó a una tasa compuesta anual del 2,36 % entre los años fiscales 2016 y 2020, con 26,36 millones de vehículos fabricados en el país en el año fiscal 2020. En general, las ventas de automóviles nacionales aumentaron a una tasa compuesta anual del 1,29 % entre los años fiscales 2016 y 2020, con 21,55 millones de vehículos vendidos en el año fiscal 2020”. El aumento de vehículos en las carreteras también generará múltiples desafíos, y las carreteras serán más vulnerables a los accidentes. El aumento de las tasas de accidentes también genera más reclamos de seguros y aumentos en los pagos para las compañías de seguros.
Para planificar de manera preventiva las pérdidas, las compañías de seguros aprovechan los datos de accidentes para comprender el riesgo en las unidades geográficas, por ejemplo, código postal/distrito, etc.
En este desafío, le proporcionamos el conjunto de datos para predecir el “Índice_de_riesgo_de_accidentes” frente a los códigos postales.Índice_de_riesgo_de_accidentes (promedio de víctimas en un código postal) = suma(Número_de_víctimas)/recuento(ID_de_accidente).
Ejemplo de trabajo:
Datos del tren (dados) | ||
Accidente_ID | Código postal | Número_de_bajas |
1 | AL1 1JJ | 2 |
2 | AL1 1JP | 3 |
3 | AL1 3PS | 2 |
4 | AL1 3PS | 1 |
5 | AL1 3PS | 1 |
Modelado de datos de trenes (resumidos a nivel de código postal) | |||
Código postal | Característica_derivada1 | Característica_derivada2 | Accident_risk_index |
AL1 1JJ | _ | _ | 2 |
AL1 1JP | _ | _ | 3 |
AL1 3PS | _ | _ | 1.33 |
Directrices para el envío
- Los participantes deben predecir el ‘Índice_de_riesgo_de_accidentes’ en test.csv y contra el código postal en los datos de prueba
- Luego envíe su ‘my_submission_file.csv’ en la pestaña de envío de la página de hackathon.
Consejo profesional: Se requiere que los participantes realicen la ingeniería de características para el primer resumen de los datos del tren a nivel de código postal y creen una columna como “Accident_risk_index” y optimicen el modelo contra el nivel de código postal.
Pocas hipótesis para ayudarte a pensar: “Ocurren más accidentes en la última parte del día ya que son horas de oficina que causan congestión”
“Los códigos postales con más vías de un solo carril tienen más accidentes”
(*** En la hipótesis anterior, se pueden formar características como office_hours_flag y #single _carriles)
Además, le proporcionamos datos de la red de carreteras (contiene información sobre la carretera más cercana a un código postal y sus características) y datos de población (contiene información sobre la población a nivel de área). Esta información es para aumentar las funciones, pero no es de uso obligatorio.
Criterios de evaluación
error_cuadrado_medio(y_verdadero, y_pred, cuadrado=falso)
- Este hackathon admite tablas de clasificación públicas y privadas.
- La clasificación pública se evalúa sobre el 30 % de los datos de prueba.
- La tabla de clasificación privada estará disponible al final del hackathon, que se evaluará en el 100 % de los datos de prueba.
- La puntuación final representa la puntuación obtenida en función de la mejor puntuación en la tabla de clasificación pública.
premios
- Primer premio: 75.000 INR
- Segundo precio: INR 50,000
- Tercer premio: 25.000 INR
El hackatón finalizará el 28 de marzo de 2022 a las 18:00 h.
Haga clic aquí para participar en el hackathon.
Detalles del conjunto de datos
- Train.csv – 4,78,741 filas x 27 columnas
- Test.csv – 1,21,259 filas x 27 columnas
- Sample Submission.csv: consulte la sección ‘Evaluación’ en la página de MachineHack para obtener más detalles sobre cómo generar un envío válido.
entrenar.csv y prueba.csv:
- ‘ID_de_accidente’,
- ‘Fuerza policial’,
- ‘Número_de_vehículos’,
- ‘Número_de_bajas’,
- ‘Fecha’,
- ‘Día_de_la_semana’, ‘Hora’,’
- ‘Autoridad_Local_(Distrito)’, ‘Autoridad_Local_(Carretera)’,
- ‘1st_Road_Class’,
- ‘Número_de_la_primera_carretera’,
- ‘Tipo_carretera’,
- ‘Límite de velocidad’,
- ‘2nd_Road_Class’,
- ‘2nd_Road_Number’,
- ‘Paso_de_peatones-Control_humano’,
- ‘Cruce_de_peatones-Instalaciones_físicas’,
- ‘Condiciones_de_luz’,
- ”Las condiciones climáticas’,
- ‘Condiciones_de_la_superficie_de_la_carretera’,
- ‘Condiciones_especiales_en_el_sitio’,
- ‘Calzada_Peligros’,
- ‘Área_urbana_o_rural’,
- ‘Asistió_un_oficial_de_policía_a_la_escena_de_un_accidente’,
- ‘estado’,
- ‘código postal’,
- ‘país’
# Población: 8,035 filas x 10 columnas
población.csv:
- ‘código postal’,
- ‘Rural Urbano’,
- ‘Variable: Todos los residentes habituales; medidas: Valor’,
- ‘Variable: Hombres; medidas: Valor’,
- ‘Variable: Mujeres; medidas: Valor’,
- ‘Variable: Vive en un hogar; medidas: Valor’,
- ‘Variable: Vive en establecimiento comunal; medidas: Valor’,
- ‘Variable: Escolar o estudiante a tiempo completo de 4 años y más en su domicilio fuera de término; medidas: Valor’,
- ‘Variable: Área (Hectáreas); medidas: Valor’,
- ‘Variable: Densidad (número de personas por hectárea); medidas: Valor’
# Red Vial: 91,566 filas x 8 columnas
carreteras_red.csv:
- ‘WKT’,
- ‘carreteraClassi’,
- ‘RoadFuncti’,
- ‘formaDePaso’,
- ‘longitud’,
- ‘principalRou’,
- ‘distancia al punto más cercano en rd’,
- ‘código postal’
Criterios de evaluación: Error cuadrático medio
Nota: todas las variables de destino están codificadas en el conjunto de datos de entrenamiento para mayor comodidad. Envíe los resultados de la prueba de una forma codificada similar para que podamos evaluar sus resultados.
Descalificación:
- Si alguno de los detalles ingresados se encuentra incorrecto, Analytics India Magazine y Swiss Re se reservan el derecho de descalificar a cualquier participante.
- Cualquier uso de conjuntos de datos externos está estrictamente prohibido. Los participantes serán descalificados si se encuentran utilizando cualquier conjunto de datos externo.
Habilidades:
- Optimización del error cuadrático medio de la raíz
- Predicción de riesgos
- Ingeniería de características
El hackathon comienza el 11 de marzo de 2022 a las 6:00 p.m.
El hackatón finalizará el 28 de marzo de 2022 a las 18:00 h.
Haga clic aquí para participar en el hackathon.