Desarrollo de Recursos para el Análisis Sintáctico Automático del Español: AVALON, una gramática formal y CSA, un corpus sintácticamente analizado M.a Paula Santalla del Río1
[email protected] 1 Departamento de Lengua española Universidad de Santiago de Compostela
XXVII Congreso de la Sociedad Española para el Procesamiento del Lenguaje Natural Huelva, septiembre, 5-7, 2011 ge
M.a Paula Santalla
DRASAE
Datos del proyecto Título y acrónimo: Desarrollo de Recursos para el Análisis Sintáctico Automático del Español: AVALON, una gramática formal y CSA, un corpus sintácticamente analizado, DRASAE Período de realización: 2011-2013 Investigadora principal: M.a Paula Santalla Otros investigadores miembros del equipo solicitante: Iria del Río, Guillermo Rojo, Susana Sotelo. Investigadores contratados: Fco. Mario Barcala, Eva M.a Domínguez Sede: Universidad de Santiago de Compostela Entidad financiadora: Dirección Xeral de Investigación, Desenvolvemento e Investigación de la Consellería de Economía e Industria de la Xunta de Galicia URL: http://gramatica.usc.es/proxectos/drasae/ M.a Paula Santalla
DRASAE
ge
Objetivos Mejora y desarrollo de un recurso lingüístico preexistente, una gramática formal del español (AVALON) Creación del entorno necesario para la producción de un corpus sintácticamente analizado (CSA), desarrollo del corpus
ge
M.a Paula Santalla
DRASAE
Desarrollo de AVALON Gramática formal en el formalismo AGFL, a partir de la cual puede generarse un analizador sintáctico automático, para el análisis sintáctico exhaustivo del español Modular vertical (módulo frasal y clausal) y horizontalmente (módulos de tipos de frases y cláusulas). Completado el módulo frasal, el proyecto se propone completar los que sea posible de los módulos de tipos de cláusulas Haciéndolo a partir de la extracción jerarquizada de datos acerca de tipos de cláusulas de BDS (Base de Datos Sintácticos, USC): número de argumentos explícitos, frecuencia de orden de argumentos explícitos, frecuencia de la combinación de presencia de clíticos, voz y esquema verbal M.a Paula Santalla
DRASAE
ge
Desarrollo de CSA Corpus sintácticamente analizado de manera exhaustiva, en consonancia con AVALON Desarrollo manual, modelo wiki. . . (entorno colaborativo y controlado para la edición por múltiples usuarios de páginas web), corpus inicial: prosa de ARTHUS (narrativa, ensayo y prensa, teatro), apoyo en el análisis de BDS BDS: análisis clausal funcional, argumentos del verbo—CSA: a ello añade: organización jerárquica de las cláusulas, análisis frasal, análisis de lo que rebasa el nivel clausal y frasal (tratamiento de la oración y “sintaxis textual”). De un análisis plano-unidimensional a un análisis jerárquico-bidimensional
Proceso: segmentación, almacenaje en aplicación wiki, selección de segmento de análisis por el anotador, análisis manual (55 etiquetas de funciones y unidades) apoyado en BDS, procesamiento para visualización en forma de árbol ( Linguistic Tree Constructor, Treebolic2, phpSyntaxTree, TreeForm Syntax Tree, Syntax Tree Drawer. . . ) M.a Paula Santalla
DRASAE
ge
AVALON y CSA Codifican el mismo tipo de análisis Convergen en dos sentidos: AVALON progresa para en el futuro servir para el enriquecimiento automático de CSA, CSA se crea y progresa para proporcionar al desarrollo de AVALON datos reales acerca de aquello de lo que no los proporciona BDS: estructuras de frases, jerarquización de cláusulas, nivel oracional, “sintaxis textual” A corto o medio plazo: secciones desgajadas de AVALON se utilizarán para análisis semiautomático de CSA ge
M.a Paula Santalla
DRASAE
Gracias a todos
ge
M.a Paula Santalla
DRASAE