Google ha presentato al SIGIR PatentSemTech Workshop, alla fine di agosto 2022, Patent Phrase Similarity, un nuovo set di dati di corrispondenza semantica da frase a frase contestuale valutato dall’uomo e il documento di accompagnamento. Il set di dati di Google si concentra sui termini tecnici dei brevetti e contiene circa 50mila coppie di frasi classificate, ognuna con una classe CPC (Cooperative Patent Classification) come contesto. Oltre ai punteggi di somiglianza, che sono in genere inclusi in altri set di dati di benchmark, include classi di classificazione granulari simili a WordNet, come sinonimo, antonimo, iperonimo, iponimo, olonimo, meronimo e correlato al dominio.
Questo set di dati (distribuito sotto la licenza Creative Commons Attribution 4.0 International) è stato utilizzato da Kaggle e USPTO come set di dati di riferimento nella competizione U.S. Patent Phrase to Phrase Matching per attirare maggiore attenzione sulle prestazioni dei modelli di apprendimento automatico sul testo tecnico. I risultati iniziali mostrano che i modelli ottimizzati su questo nuovo set di dati offrono prestazioni sostanzialmente migliori rispetto ai modelli generali pre-addestrati senza messa a punto.
Cosa contengono i documenti di brevetto
I documenti di brevetto utilizzano in genere un linguaggio legale e altamente tecnico, con termini dipendenti dal contesto che possono avere significati molto diversi dall’uso colloquiale e persino tra documenti diversi. Il processo di utilizzo dei metodi tradizionali di ricerca dei brevetti (ad esempio, la ricerca per parole chiave) per cercare attraverso il corpus di oltre cento milioni di documenti di brevetto può essere noioso e portare a molti risultati mancati a causa del linguaggio ampio e non standard utilizzato. Ad esempio, un “pallone da calcio” può essere descritto come un “dispositivo ricreativo sferico”, “pallone sportivo gonfiabile” o “palla per gioco palla”. Inoltre, il linguaggio utilizzato in alcuni documenti di brevetto può offuscare i termini a loro vantaggio, quindi una più potente elaborazione del linguaggio naturale (NLP) e la comprensione della somiglianza semantica possono dare a tutti l’accesso per fare una ricerca approfondita.
Google dichiara che utilizzando i propri dati di addestramento per i termini tecnici dei brevetti si possono ottenere miglioramenti significativi rispetto ai modelli NLP esistenti.