Ganar el desafío de predicción criptográfica más desafiante: el enfoque de los ganadores

Estás leyendo la publicación: Ganar el desafío de predicción criptográfica más desafiante: el enfoque de los ganadores

Rocket Capital Investment (RCI), en asociación con MachineHack, completó con éxito el torneo de blockchain más largo el 5 de septiembre de 2022. El objetivo era incentivar lo mejor en aplicaciones de aprendizaje automático para finanzas.

Con sede en Singapur, la institución financiera con licencia RCI combina su experiencia financiera con pronósticos de aprendizaje automático externo a través de un torneo de blockchain en los mercados financieros. A través de esta competencia, RCI pretendía utilizar una plataforma descentralizada para obtener e incentivar las mejores aplicaciones de aprendizaje automático para la industria financiera.

De las muchas entradas recibidas, solo las mejores llegaron a la cima. La revista Analytics India habló con algunos de los mejores para comprender su trayectoria en la ciencia de datos, su enfoque ganador y su experiencia general en MachineHack.

Veamos los que impresionaron a los jueces con sus habilidades con los datos.

Manish Pathak – Científico de datos sénior

Pathak es un graduado de BITS Pilani que comenzó a explorar la ciencia de datos en su último año. Con todas las matemáticas complicadas que aprendió durante la universidad y la experiencia en el manejo de datos a gran escala utilizando Big Data, estaba naturalmente inclinado a contribuir con la comunidad de ciencia de datos.

Enfoque ganador

Cada semana, el conjunto de datos de entrenamiento era un dato estructurado numérico con más de 2000 funciones y aproximadamente un lakh de observaciones. El objetivo era continuo. A lo largo del período de competencia, Pathak entrenó diferentes regresores en el conjunto de datos con la correlación de Spearman como métrica. Los regresores que entrenó eran principalmente regresores potenciadores basados ​​en árboles, como XGBoost, CatBoost y LightGBM. También entrenó Random Forest y Neural Networks en desafíos de unas pocas semanas.

🔥 Recomendado:  Mejor VPN fuera de los países de 14 ojos 2023 (5, 9, 14 Eyes Alliance)

Dado que el conjunto de datos era enorme, LightGBM y XGBoost fueron relativamente más rápidos que CatBoost. Sintonizó los hiperparámetros utilizando métodos de optimización bayesianos sin ningún CV k-Fold ya que el tiempo era una limitación.

Dado que el conjunto de datos se basó en el tiempo, utilizó los datos más recientes (alrededor del 10 %) como su conjunto de validación. A continuación, Pathak usó un promedio ponderado de las predicciones de diferentes regresores para optimizar la correlación de Spearman y verificó la clasificación de las predicciones ordenándolas.

Saurabh Sawhney – Consultor de ciencia de datos

La ciencia de datos fascinó a Sawhney incluso antes de escuchar el término. Después de muchos años de práctica como cirujano ocular, decidió empuñar el teclado. Su área de interés actual son las aplicaciones de Visión por Computador. Además de probar suerte en varios hackatones, es mentor de estudiantes de IA/ML los fines de semana.

Enfoque ganador

Sawhney comenzó evaluando la importancia de las funciones y probando diferentes modelos utilizando diferentes cantidades de funciones. Encontró que usar las 160-200 funciones principales era adecuado para capturar la información contenida.

Evaluó varios modelos antes de decidirse finalmente por un conjunto de Random Forest y XGBoost. Dado que la variable objetivo es esencialmente secuencial, también experimentó con varios modelos de series temporales, pero los resultados de esos experimentos no fueron satisfactorios.

Para tener en cuenta alguna influencia de la posición de la moneda de la semana anterior, calculó este valor para todas las monedas cuando fue posible. Luego, lo combinó con la predicción del conjunto, utilizando la media ponderada para asignar una ponderación del 4 % al último valor de la moneda y una ponderación del 96 % a la predicción del conjunto.

🔥 Recomendado:  Cómo cancelar Youtube Premium

Andrey Bessalov – Científico de datos

Después de completar sus estudios de matemáticas hace una década, Bessalov comenzó a trabajar como científico de datos. Ha participado en hackatones de ML en las plataformas durante dos años y ha aprendido mucho de estas competencias. Sus competencias más memorables son: Renew Power, Dare in Reality Hackathon 2021 y Rocket Capital Crypto Forecasting.

Enfoque ganador

1) Preparación de conjuntos de datos:

● Bessalov tomó los últimos tres meses para el conjunto de evaluación;

● Para el conjunto de entrenamiento, tomó todos los demás períodos con una brecha (retención) de 1 mes al conjunto de validación. Por ejemplo, uno puede elegir: 2022-06-01 a 2022-09-01 para el conjunto de validación, el primer mes disponible a 2022-05-01 para el conjunto de entrenamiento y así sucesivamente.

2) Características:

Cuando Bessalov entrenó el modelo final, utilizó todas las características numéricas: 2010 en total.

3) modelo:

Entrenó el modelo Xgboost con una parada anticipada en el conjunto de validación y los siguientes parámetros:

‘objetivo’: ‘reg:error al cuadrado’,

‘eta’: 0.05,

‘max_ depth’: 6, # -1 significa sin límite

‘submuestra’: 0.7, # Proporción de submuestra de la instancia de entrenamiento.

‘colsample_bytree’: 0.7, # Proporción de submuestra de columnas al construir cada árbol.

‘reg_alpha’: 0, # Término de regularización L1 en pesos

‘reg_lambda’: 0, # Término de regularización L2 en pesos

Enfoques probados:

● Reparó el conjunto de validación e intentó encontrar el conjunto de entrenamiento (la cantidad de meses para el conjunto de validación) que proporciona la mejor puntuación de correlación de Spearman.

● Exploró las características calculando el índice de estabilidad y luego trató de eliminar las características inestables (con diferentes criterios) del modelo.

🔥 Recomendado:  ¿Trust Wallet necesita verificación de identidad? ¿Es seguro?

● Trató de entrenar diferentes modelos y luego los apiló linealmente (tomó todas las combinaciones lineales posibles con un paso de 0,01):

○ Xgboost

○ Bosque aleatorio

○ Modelos lineales

Soluciones listas para usar, alto grado de habilidades mostradas.

El CryptoPrediction Challenge vio a los participantes aportar soluciones listas para usar para resolver el problema innovador que se les había presentado. Tener un nivel tan alto de habilidades en CryptoPrediction Challenge seguramente lo convirtió en un gran éxito.