Gerardo Sierra Martínez - Instituto de Ingeniería, UNAM

computacionales capaces de descodificar y generar lenguajes naturales, en sus distintos ... ciencias de la información y, por supuesto, la ingeniería lingüística.
361KB Größe 23 Downloads 150 vistas
Gerardo Sierra Martínez La interdisciplina que reúne los conocimientos necesarios para la construcción de sistemas computacionales capaces de descodificar y generar lenguajes naturales, en sus distintos niveles, es lo que hoy se ha dado por llamar ingeniería lingüística. Varias son las líneas de investigación en la ingeniería lingüística, pero para los fines de ubicar su aplicación a la lingüística forense es suficiente mencionar cuatro: procesamiento de lenguaje natural (también conocido por sus siglas como PLN), extracción y recuperación de información, minería de textos y aprendizaje automático. Esta disciplina, que desde mediados de 1999 se desarrolla en el Grupo de Ingeniería Lingüística del Instituto de Ingeniería, es crucial para el avance en la lingüística forense. Por su parte, la lingüística forense, que de manera sencilla podemos definirla como la interfaz entre lenguaje y derecho, tiene como objetivo utilizar el conocimiento lingüístico en cuestiones legales. Dicho conocimiento implica una serie de métodos, herramientas y técnicas que no solo proporcionan la lingüística, sino otras áreas interrelacionadas, como la ingeniería acústica, la psicología, la sociología, las ciencias de la información y, por supuesto, la ingeniería lingüística. Entre las áreas de aplicación de la lingüística forense cabe destacar la fonética forense, la detección de plagio y atribución de autoría, la detección de información relevante para el caso de fraudes, el significado de contratos y estatutos, el significado e interpretación de leyes y textos legales, y el análisis de marcas registradas tales como palabras o frases en el lenguaje. El ejercicio de la lingüística forense en nuestro país se ha limitado a ocasiones en que profesionales de la lengua fungen como “testigos expertos” o “peritos en lingüística” y emiten una opinión relacionada con algún asunto legal. Comúnmente, estas opiniones son emitidas sin tomar en cuenta métodos y herramientas específicamente diseñados para la labor forense, mientras que en otros países la profesionalización de la lingüística forense es una realidad. Como parte de las actividades de la Red Temática de Tecnologías de la Información y Comunicaciones (TIC) de CONACYT se proponen seis Grandes Retos para abordar desde esta área algunos de los grandes problemas sociales y económicos de México, siendo uno de ellos concerniente a la seguridad. Para esto, entre otras medidas se ha propuesto un proyecto semilla orientado a desarrollar herramientas de las tecnologías del lenguaje para la lingüística forense. Con este fin, el Grupo de Ingeniería Lingüística, participante activo de la Red TIC, lleva a cabo algunos proyectos aplicados a resolver problemas concretos de la lingüística forense. Uno de ellos ha sido orientado a la detección de plagio de dos textos en controversia mediante la aplicación de técnicas del PLN.

Instituto de Ingeniería, Universidad Nacional Autónoma de México, UNAM

Uno de los métodos existentes para detectar el plagio entre textos es la estilometría, que es la medición de indicadores de estilo de los autores para encontrar similitud estilística. Mediante la estilometría se puede realizar un dictamen relacionado con detección de plagio, en particular para el que se ha hecho por medio de la paráfrasis; es decir, usando enunciados o textos que cuentan con el mismo contenido semántico que los originales, pero que se presentan bajo una estructura sintáctica diferente.

Para realizar los experimentos, cada texto se representa como un vector de medidas estilométricas. Se toma como indicadores de estilo la longitud de palabra, la longitud de oración, la longitud de párrafo, el uso de puntuación y la comparación de las palabras funcionales y de las no funcionales para determinar qué grado de similitud existe entre dos documentos en conflicto. Los vectores son analizados mediante técnicas de aprendizaje de máquina y métodos estadísticos para determinar la pertinencia de las medidas. Para ello se utiliza la prueba denominada “consistencia de estilo”: en ésta se utiliza un corpus denominado ‘de referencia’, el cual consiste en un texto alterno de cada uno de los autores inmersos en el conflicto para comprobar si existe o no consistencia de estilo entre el texto en conflicto y otro texto del mismo autor. De esta forma, puede reforzarse la teoría que se obtiene de la primera prueba, ya sea la idea de que existe plagio o de que se debe desechar esa posibilidad. Ambas pruebas se realizan con base en la prueba estadística de la X2, con la que se busca obtener el grado de similitud estilística y comprobar si existe consistencia de estilo entre los textos de referencia y los textos en conflicto. Si se rechaza la hipótesis nula de la X2 con un 0.05% de significancia se puede concluir que los textos pertenecen a autores distintos, mientras que si se acepta la hipótesis nula se concluye que los textos pertenecen al mismo autor.

Instituto de Ingeniería, Universidad Nacional Autónoma de México, UNAM

Otro método de análisis que utilizamos es la energía textual (Enertex), que es un algoritmo que permite codificar un documento como un sistema de pequeños imanes o spines con valor +1 ó 0. En esta representación, las ocurrencias de las palabras de un documento representan un spin de valor +1 y su ausencia como 0. El método, que es independiente del lenguaje, codifica las ligas entre palabras y frases como un grafo. De esta manera, se calcula la energía entre frases por las interacciones entre palabras al interior de la frase y entre las frases del mismo documento. Técnicamente se utilizan los caminos de longitud 2 en el grafo correspondiente. Más que las palabras en sí, lo que importa es su la relación entre ellas, es decir, su función. La energía textual puede ser deducida a través de dos grafos: uno de palabras y frases del documento y el otro de palabras por palabras. En un grafo de palabras y frases, las aristas son las frases y los arcos las palabras en común. El otro grafo permite de calcular las interacciones de las palabras entre ellas. Técnicamente se utilizan los caminos de longitud 2 en el grafo correspondiente para deducir la energía textual. Estando el documento codificado como una matriz S de P frases y M palabras, la energía textual es calculada por: E = (S x ST)² donde ST es la matriz transpuesta de S. E es una matriz de P x P, que indica la similitud de una frase dada, en relación con todas las demás. La energía textual es por lo tanto, una nueva medida de similitud.

Instituto de Ingeniería, Universidad Nacional Autónoma de México, UNAM

Enertex permite identificar las relaciones entre frases que no necesariamente comparten tienen palabras en común sino a través de frases vecinas. Así, el uso de sinónimos en un documento puede ser detectado eficazmente a través de su función. Mediante la energía de frases se determinan dos tipos de similitud, una semántica o temática (aproximada por la energía textual) y la otra léxica (aproximada por el uso del vocabulario). El método no solo asigna un rango de similitud entre los a dos textos, independientemente de su tamaño, sino además proporciona las frases que tienen mayor cercanía. En resumen, en el lenguaje probatorio o evidencial la lingüística forense requiere de técnicas, métodos y herramientas de la ingeniería lingüística, una de las áreas emergentes y de mayor fuerza de las tecnologías de la información. Con estas es posible optimizar el proceso de datos y la obtención de resultados para tener mayor grado de confianza en dictámenes y opiniones expertas. De esta manera, la interacción del conocimiento lingüístico y de las herramientas de la ingeniería lingüística contribuye a resolver cuestiones legales de manera mucho más completa que si actuaran de manera independiente.

Instituto de Ingeniería, Universidad Nacional Autónoma de México, UNAM