Descripción general de DBAI@NeurIPS’21: hacia la IA

Estás leyendo la publicación: Descripción general de DBAI@NeurIPS’21: hacia la IA

El Taller sobre Bases de Datos e IA (DBAI) se llevó a cabo con éxito en diciembre pasado en conjunto con el virtual Conferencia NeurIPS’22. El propósito de DBAI es aspirar a una conversación sobre el poder de la estructura de datos relacionales y los sistemas de bases de datos relacionales (RDBMS) cuando se trata de algoritmos de aprendizaje automático (ML). La investigación en las áreas de aprendizaje relacional, álgebra relacional y programación probabilística ha demostrado los beneficios de explotar la estructura de datos relacionales cuando se trata de integrar el conocimiento del dominio, evitar cálculos redundantes y administrar flujos de trabajo, entre otros, cuando se trata de tareas de ML. Sin embargo, todavía existe una desconexión entre el mundo relacional y el mundo del aprendizaje automático, ya que esto se manifiesta más notablemente por la cantidad de tiempo que se pierde en desnormalizar los datos y moverlos fuera de las bases de datos para entrenar modelos ML. Además, aunque la intersección de los sistemas de bases de datos con ML es un área candente en la gestión de datos, es probable que sea la primera vez que se analizan las bases de datos relacionales en un taller de NeurIPS. Por lo tanto, otro objetivo de DBAI es llamar la atención sobre las posibilidades que puede generar una sinergia entre las dos comunidades. Esta publicación de blog brinda una descripción general de DBAI’22 y destaca los temas principales que se discutieron en las charlas invitadas y aportadas, así como durante el panel de discusión.

🔥 Recomendado:  Introducción a la matriz de confusión: hacia la IA

Tira cómica de xkcd.com que se burla de los sistemas de aprendizaje automático que parecen un montón de álgebra lineal y datos que los usuarios revuelven constantemente para obtener la respuesta correcta
Fuente: xkcd.com

DBAI se llevó a cabo en la zona horaria del este y tuvo una asistencia en línea de 35 personas. Además, se organizaron reuniones de alrededor de 15 estudiantes y profesores en cuatro universidades. Nosotros (los organizadores) estamos muy agradecidos a Snorkel IA y IA relacional por su generoso patrocinio que financió las inscripciones y almuerzos para las reuniones físicas. El cronograma del taller tenía como objetivo charlas más cortas, de modo que se pudiera acomodar a un grupo diverso de oradores con experiencia en ML o gestión de datos y de la academia y la industria. Así, hubo 7 charlas invitadas y 5 aportadas, así como un panel de discusión.

El taller abrió sus puertas con la perspicaz presentación de Dan Olteanu (Universidad de Zúrich) sobre un enfoque de primeros principios que explota la estructura algebraica y combinatoria del procesamiento de datos relacionales para mejorar el rendimiento en tiempo de ejecución del aprendizaje automático. Luego, Paroma Varma (SnorkelAI) compartió su trabajo de vanguardia sobre programación etiquetado datos de capacitación, seguido por Arun Kumar (UC San Diego), quien destacó cómo las preocupaciones de escalabilidad, usabilidad y manejabilidad en todo el ciclo de vida de las aplicaciones ML/AI pueden abordarse a través de la lente de los sistemas de bases de datos. David Chiang (Universidad de Notre Dame) y Eriq Augustine (UC Santa Cruz) cambiaron la agenda hacia temas de ML más puros y presentaron ideas interesantes sobre diferentes notaciones para relaciones ponderadas o probabilísticas y sobre la aceleración del aprendizaje relacional estadístico. Finalmente, Molham Aref (RelationalAI) compartió sus ideas sobre el aprendizaje profundo en datos relacionales, mientras que Olga Papaemmanouil (Universidad de Brandeis) presentó una visión prometedora y resultados preliminares de componentes de bases de datos optimizados para IA.

En cuanto a las charlas aportadas, estas abarcaron muchos temas interesantes, cubriendo la programación de datos con bases de conocimiento, índices aprendidos y administradores de búfer, así como bibliotecas de álgebra relacional para canalizaciones de ciencia de datos y razonamiento numérico en bases de datos relacionales. Aquí también hubo una representación equilibrada de laboratorios industriales y universidades.

Panel de discusión

DBAI concluyó con un panel de discusión muy interesante entre Guy Van den Broeck (UCLA), Alexander Ratner (SnorkelAI), Konstantinos Karanasos (Microsoft’s Gray Systems Lab), Molham Aref y Arun Kumar sobre las cargas de trabajo de IA dentro de las bases de datos, moderado por Parisa Kordjamshidi.

A continuación se presenta un resumen de los puntos principales que surgieron de esta discusión:

Después de dos décadas de investigación e implementaciones de aprendizaje automático en RDBMS, los sistemas de bases de datos no han sido un argumento convincente para que los científicos de datos muevan sus flujos de trabajo allí. Actualmente está en marcha una fase de transición, en la que la comunidad de bases de datos con toda la experiencia del pasado está buscando características cruciales, como el control de versiones y el gobierno de datos, que harían que los DBMS sean atractivos para los científicos de datos, y donde la definición de RDBMS el aprendizaje automático se vuelve menos rígido con la adopción de lagos de datos y la interoperabilidad con sistemas como TensorFlow y formatos abiertos como ONNX.

Tira cómica de dilbert.com burlándose de que demasiadas personas quieren construir una base de datos.

Fuente: dilbert.com

  • Además de lo anterior, mantenerse al día con toda la innovación que está ocurriendo en ML y traerla al DBMS se ha vuelto bastante difícil y probablemente una expectativa poco realista. Por ejemplo, la aceleración que
    Los compiladores optimizados de hardware de sistemas como TensorFlow traen a ML necesita un trabajo sustancial para ser replicado en DBMSes. Dado esto, los enfoques que combinan un DBMS con un acelerador y descargan diferentes partes del flujo de trabajo donde se ejecutarán mejor están cobrando impulso. Esto ya está, por ejemplo, implementado en Redshift ML y servidor SQLdonde los datos se exportan sin problemas a SageMaker o Aprendizaje automático de Azure donde se ejecuta la parte ML.
  • Por otro lado, la optimización de consultas, la reutilización de computación y la escalabilidad, que son áreas bien estudiadas en los sistemas de bases de datos, no cuentan con el soporte suficiente en las plataformas ML.
  • Muchas veces la gente usa el álgebra relacional y SQL indistintamente, pero en realidad son dos cosas diferentes. Esto significa que todavía hay espacio para la innovación a nivel de lenguaje, lo que puede aumentar la usabilidad de los RDBMS para los flujos de trabajo de ciencia de datos. Al mismo tiempo, no hay ningún problema fundamental en la traducción de API populares de operadores relacionales, como Pandas, a SQL y, por lo tanto, permitir que el usuario siga escribiendo Python u otro lenguaje de su preferencia.
  • Hasta ahora, el aprendizaje profundo se ha centrado en los datos de percepción, es decir, los datos visuales o del habla, y todos los puntos de referencia que se utilizan comúnmente en los trabajos de investigación abordan tareas como el reconocimiento de imágenes y los modelos de lenguaje. Los datos estructurados se ignoran en gran medida, posiblemente en parte debido a la falta de transferibilidad del conocimiento entre conjuntos de datos y tareas, aunque esto no se investiga a fondo. Por lo tanto, para llamar la atención en esta dirección, es necesario crear puntos de referencia de tareas del mundo real sobre datos relacionales o gráficos de conocimiento, por ejemplo, aprender la correlación entre las ventas y el clima o los datos de tráfico. Tiene sentido que tales puntos de referencia probablemente provengan de la industria.
  • El aprendizaje relacional estadístico (SRL) no ha despegado tanto como el aprendizaje profundo. Una razón para esto podría ser la capacidad de diseño de las redes de aprendizaje profundo para componer características de nivel superior a partir de un nivel inferior, mientras que en SRL la ingeniería de características se produce a través de la expresión de restricciones. Dicho esto, las redes neuronales gráficas es donde viven la mayoría de las ideas de SRL hoy en día. Además de esto, muchas veces el modelado estadístico expresado en lenguajes de programación probabilísticos como Stan, encapsula una estructura que no se denomina explícitamente relacional, pero que de hecho comparte un terreno común con el álgebra relacional.

Observaciones finales

En general, estamos muy contentos con el contenido del 1.er DBAI, ya que incluyó presentaciones interesantes y un panel de discusión constructivo. Me gustaría agradecer sinceramente a mis compañeros organizadores (Nikolaos Vasilogou, Parisa Kordjamshidi, Maximilian Schleich, Kirk Pruhs y Zenna Tavares), los miembros del PC, los oradores y panelistas, los patrocinadores, los voluntarios y, por último, pero no menos importante, los autores y asistentes. por contribuir cada uno a su manera a hacer de DBAI’21 un taller exitoso. Realmente espero que pronto tengamos la oportunidad de organizar otro DBAI.