Estás leyendo la publicación: El lenguaje brillante de los carriles
En el día de la IA de Tesla, el equipo de Autopilot reveló las mejoras y actualizaciones masivas en su software. En general, Full Self Driving (FSD) ha lanzado 35 actualizaciones de software hasta la fecha. Ashok Elluswamy, director de piloto automático, anunció que alrededor de 160 000 clientes en todo el mundo han estado ejecutando el software beta del piloto automático y el sistema de conducción autónoma. Este es un salto de 2.000 clientes el año pasado.
El equipo de Autopilot explicó cómo se entrena y funciona el sistema FSD, desde las redes neuronales hasta los datos de entrenamiento y la planificación, junto con la infraestructura de entrenamiento, el compilador de IA y las etapas de inferencia, y más.
Red de ocupación
La Red de Ocupación es una red neuronal basada en múltiples cámaras que predice el entorno circundante del automóvil utilizando imágenes inferidas. El proceso de predicción tiene lugar dentro del sistema del vehículo y no depende del servidor; por lo tanto, también puede predecir el movimiento y la posición futuros de los objetos circundantes.
La red de ocupación utiliza las ocho cámaras del vehículo, capturando imágenes de 12 bits, para detectar objetos alrededor del automóvil y crear un único espacio vectorial 3D de ocupación volumétrica unificada. Dado que se basa en entradas de video, también puede detectar instantáneamente, en menos de 10 milisegundos, cambios en el entorno, como cruzar peatones, escombros o acelerar automóviles, y ajustar la velocidad y la posición del automóvil en relación con la incertidumbre.
Además, el equipo también está desarrollando las redes Neural Radiance Fields (NeRF) al tratar los vectores de salida de la red de ocupación como entradas para NeRF. Usando imágenes de las cámaras en los vehículos, NeRF puede reconstruir mallas densas en 3D usando renderizado volumétrico.
La red está entrenada con un gran conjunto de datos etiquetados automáticamente sin ninguna interacción humana. El equipo construyó tres supercomputadoras internas que comprenden 14 000 GPU para capacitación y etiquetado automático. Los videos de capacitación se almacenan en 30 petabytes de caché de almacenamiento, con medio millón de videos que entran y salen del sistema diariamente.
Idioma de los carriles
En el método de detección de carriles anterior, Tesla utilizó la segmentación de instancias 2D Pixelwise, que solo podía detectar el carril del águila y los carriles adyacentes. Esto solo funcionó de manera eficiente en caminos bien diseñados y estructurados como las autopistas. Pero en las carreteras dentro de las ciudades, las intersecciones y los carriles son bastante complejos.
Tesla presentó ‘FSD Lanes Neural Network’, que consta de tres componentes:Componente de visión, Componente de mapa, y Componente de idioma.
El ‘Componente de visión’ consta de un conjunto de capas convolucionales, capas de atención y otras capas de redes neuronales que, utilizando los videos de las ocho cámaras de los vehículos, producen una representación visual. Luego, esta representación visual se mejora con el ‘Componente de mapa’ que tiene el mapa de navegación a nivel de carretera que se denomina ‘Módulo de guía de carril’.
El módulo de indicación de carril consta de capas de redes neuronales que brindan información sobre la intersección, la cantidad de carriles y otras características de la carretera que las cámaras de los vehículos podrían no identificar fácilmente en tiempo real. Los primeros dos componentes producen un tensor de mundo denso 3D.
Este tensor de mundo denso se trata como una imagen de entrada y se combina con el lenguaje desarrollado por Tesla para codificar carriles y topología de carriles llamado “Lenguaje de carriles”, que es el tercer componente, utilizando LLM en los que las palabras y los tokens son las posiciones de los carriles del espacio.
Datos de entrenamiento
Etiquetar los datos de entrenamiento de medio millón de videos que pasan a través de las supercomputadoras todos los días es una tarea gigantesca. El equipo construyó un Etiquetado automático máquina para Lanes Network que, utilizando imágenes de video de la cámara del vehículo, puede reconstruir espacios vectoriales en 3D con la combinación de la red de ocupación y el lenguaje de carriles recientemente desarrollado. Para crear una malla vectorial a partir de un solo viaje, el sistema solo tarda aproximadamente 30 minutos.
Luego, utilizando ‘Reconstrucción de viajes múltiples’, se combinan y combinan imágenes de diferentes autos. Esto crea un mapa en un tiempo aún menor y solo requiere la intervención humana al final para finalizar la etiqueta de la salida.
Para corregir algunas de las etiquetas en las que el sistema de etiquetado automatizado enfrentaba problemas, como vehículos estacionados, camiones, vehículos en caminos con curvas o estacionamientos, el equipo corrigió 13 900 etiquetas de video manualmente para optimizar todo el motor de datos.
Gracias a su biblioteca de videos acelerada basada en PyTorch, el equipo notó una velocidad de entrenamiento de +30 %. Usando los datos generados de la red de ocupación, el idioma de los carriles y los modelos de reconstrucción 3D generados por NeRF, el equipo creó un Simulación. En este mundo creado en 3D, el equipo introdujo nuevos desafíos, entornos y objetos para entrenar al sistema en diferentes situaciones cambiantes, como diseños de carreteras, biomas, condiciones climáticas y más.
Elon Musk dijo que la versión beta de FSD estaría disponible en todo el mundo a finales de este año. “Pero, para muchos países, necesitamos aprobación regulatoria. Por lo tanto, estamos algo bloqueados por la aprobación regulatoria en otros países”, explicó Musk, “Desde un punto de vista técnico, estará listo para pasar a una versión beta mundial a fines de este año”.