Google AI lanza el conjunto de datos de similitud de frases de patentes, un nuevo conjunto de datos de coincidencia semántica contextual de frase a frase calificado por humanos

Estás leyendo la publicación: Google AI lanza el conjunto de datos de similitud de frases de patentes, un nuevo conjunto de datos de coincidencia semántica contextual de frase a frase calificado por humanos

El etiquetado de partes del discurso, la respuesta a preguntas, el reconocimiento de entidades nombradas, el reconocimiento de voz, la conversión de texto a voz, el modelado de lenguaje, la traducción, la conversión de voz a texto y el modelado de temas son solo algunas de las numerosas tareas que se incluyen en el amplio categoría de PNL. El modelado de temas es el proceso de examinar los contenidos de una colección de texto desde la perspectiva del curso.

El lenguaje típico en las solicitudes de patentes es legal y muy técnico, con frases sensibles al contexto que pueden tener significados muy diferentes del habla cotidiana. La búsqueda en el corpus de más de 100 millones de documentos de patentes puede llevar mucho tiempo y dar lugar a numerosos resultados perdidos debido al uso de terminología amplia y no estándar. Debido a la continua expansión del corpus de patentes, existe la necesidad de crear modelos de PNL más beneficiosos para este campo.

El conjunto de datos Patent Phrase Similarity es un novedoso conjunto de datos contextuales de coincidencia semántica de frase a frase calificados por humanos. Ofrecemos clases de calificación granular similares a WordNet, como sinónimos, antónimos, hipónimos, holónimos, merónimos y relacionados con el dominio, además de puntajes de similitud que normalmente se incluyen en otros conjuntos de datos de referencia. De acuerdo con los hallazgos preliminares, los modelos que se han ajustado con precisión en este nuevo conjunto de datos superan a los modelos pre-entrenados convencionales.

El conjunto de datos de similitud de frases de patentes

El investigador desarrolló el conjunto de datos Patent Phrase Similarity, que contiene numerosas muestras, para ayudar a entrenar la última generación de modelos de vanguardia. Muchos modelos de PNL tienen problemas con los datos que contienen frases inconexas con palabras clave similares. Muchos casos de coincidencias de palabras clave antagónicas que coinciden con frases no relacionadas se pueden encontrar en el conjunto de datos de similitud de frases de patentes. El conjunto de datos consta de 48 548 elementos con 973 anclas únicas y se divide en grupos de entrenamiento (75 %) y validación (5 %).

🔥 Recomendado:  Audience Content Intelligence: sepa de qué está hablando su audiencia en este momento

Establecer el conjunto de datos

Para crear los datos de similitud de frases de patentes, primero revisamos los 140 millones de documentos de patentes en el corpus de patentes de Google y extraemos automáticamente frases clave en inglés, la mayoría de las cuales son frases nominales (por ejemplo, “sujetador”, “ensamblaje de elevación” y ” impresión en tinta”, entre otros) y frases útiles. Luego, elegimos al azar alrededor de 1,000 de las frases filtradas, a las que nos referimos como frases de anclaje, que se conservaron después de ser filtradas y se mantuvieron en al menos 100 patentes. Localizamos las patentes correspondientes de cada frase ancla, así como todas sus clasificaciones CPC. Las clases de CPC de contexto para la frase ancla en particular se eligen al azar de un conjunto de hasta cuatro clases de CPC coincidentes.

Empleamos dos técnicas para pregenerar frases de destino: coincidencia parcial y un modelo de lenguaje enmascarado (MLM). Elegimos frases al azar de todo el corpus que solo coinciden parcialmente con la frase ancla (p. ej., “reducción”, “reducción de ruido”, “formación de material” y “material de formación”) para hacer coincidencias parciales. Para hacer MLM, elegimos frases de las patentes que contienen una frase ancla específica, las enmascaramos y luego usamos el modelo Patent-BERT para pronosticar candidatos para el texto que ha sido enmascarado. Luego, todas las oraciones se limpian, incluidas las minúsculas, la eliminación de puntuación y la eliminación de algunas palabras vacías (como “y”, “o” y “dicho”), antes de enviarlas para su evaluación a evaluadores profesionales. Cada par de frases es evaluado por separado por dos evaluadores expertos en el campo de la tecnología.

🔥 Recomendado:  ¿Cuántos datos usa TikTok?

Además, cada calificador crea frases objetivo completamente nuevas con varias calificaciones. En particular, los estudiantes deben proponer algunos objetivos no relacionados y de baja similitud que solo coincidan parcialmente con el ancla original y algunos objetivos de alta similitud. Los calificadores se reúnen para discutir sus calificaciones y determinar las calificaciones finales en este punto.

Evaluación del conjunto de datos

La competencia Kaggle de combinación de frases de patentes de EE. UU. utiliza el conjunto de datos de similitud de frases de patentes para evaluar su rendimiento. Unos 2000 concursantes de todo el mundo participaron en el desafío porque fue muy popular. Los equipos de mayor rendimiento aplicaron con éxito varias estrategias, incluidos modelos de conjuntos de variaciones BERT e indicaciones (consulte la discusión completa para obtener más detalles). Los mejores resultados de la competencia se muestran en la siguiente tabla, junto con varias líneas de base preparadas de nuestro estudio. Para que los modelos posteriores distingan entre varias clasificaciones de similitud, se utilizó la métrica de correlación de Pearson para calcular la correlación lineal entre los valores previstos y reales.

Las líneas de base en el estudio son de tiro cero porque usan modelos comerciales sin ajustarlos más para el nuevo conjunto de datos (usamos estos modelos para incorporar las frases ancla y objetivo por separado y calcular la similitud de coseno entre ellas). Los resultados de la competencia Kaggle muestran que al utilizar nuestros datos de entrenamiento, uno puede superar significativamente los algoritmos actuales de PNL. Al comparar las puntuaciones de un evaluador con la suma de las puntuaciones de los dos evaluadores, también hemos aproximado el desempeño humano en esta tarea. Los hallazgos muestran que, incluso para los expertos humanos, esta no es una tarea particularmente simple.

🔥 Recomendado:  15 formas de obtener créditos gratuitos de Google Play

Correlación de Pearson para Model Training

Modelo Capacitación Correlación de Pearson
palabra2vec Disparo cero 0.44
Patente-BERT Disparo cero 0,53
Oración-BERT Disparo cero 0,60
Kaggle 1er lugar sencillo afinado 0.87
Conjunto Kaggle 1er lugar afinado 0.88
Humano 0,93

Desempeño de modelos bien conocidos usando zero-shot (zero-tuning), modelos modificados usando el conjunto de datos Patent Phrase Similarity como parte de la competencia Kaggle y desempeño humano único.

Reflexiones finales y trabajo futuro

El corpus de patentes se puede utilizar para desarrollar puntos de referencia de aprendizaje automático que son más desafiantes. Por ejemplo, las extensas solicitudes de patentes del conjunto de datos de texto C4 se utilizan para entrenar el modelo T5. Los modelos BigBird y LongT5 también utilizan el conjunto de datos BIGPATENT.

Este artículo está escrito como un artículo de resumen de investigación por el personal de Marktechpost basado en el trabajo de investigación ‘Conjunto de datos de coincidencia semántica de frase a frase de patentes‘. Todo el crédito de esta investigación es para los investigadores de este proyecto. Revisar la papel, conjunto de datos y artículo de referencia.

Por favor no olvides unirte Nuestro subreddit de ML

Echa un vistazo a https://aitoolsclub.com para encontrar 100 de Cool AI Tools