Nos últimos meses, estivemos traballando no etiquetado manual de textos para a creación dun corpus Gold Standard no ámbito do proxecto ESMAS-ES+. Estes textos servirán como base para o desenvolvemento posterior do anotador automático. Hoxe, 15 de xullo, unha parte da equipa reuniuse para debater cal pode ser, do punto de vista computacional, a forma máis plausíbel de proceder. Saíron á luz cuestións moi interesantes como os modelos transformadores BERT multilingües para a predicción de palabras en contexto, a clasificación de unidades léxicas segundo clases semánticas na ontoloxía léxica ou a necesidade de expansión de vocabulario para o adestramento do sistema de anotación.
Ben se nota nas nosas caras pensativas que andamos a cavilar en como deseñar a interface do etiquetador e en como avaliar a anotación semántica automática. A resposta encóntrase sempre grazas ao traballo en grupo e podedes ter a certeza de que hoxe xurdiron grandes ideas! Avante!