2. LOS DOCUMENTOS DE TEXTO Y SU ESTRUCTURA
2.1 INTRODUCCIÓN Todo proceso del conocimiento, de alguna forma, necesita ser comunicado o transmitido y el texto es precisamente la principal manera en que esto puede ser logrado [1]. Pero antes de definir lo que es un texto, se hace necesario introducir el concepto de documento, en la medida que son los documentos quienes pueden contener un texto específico. En definitiva, un documento se considera aquí como una unidad de información digitalizada, con un contenido específico; normalmente contiene texto codificado digitalmente, aunque también es usual referirse a documentos que contienen otro tipo de medios como audio y video [1]. Un documento tiene una estructura y una sintaxis específica que es definida por la aplicación o por la persona que lo crea. También contiene una semántica determinada y adicionalmente, puede tener asociado un estilo de presentación el cual define la manera en que un documento puede ser mostrado en pantalla o en papel [1]. La siguiente gráfica (fig 2.1.) resume los conceptos anteriores:
Sintaxis
Texto + Estructura + otros medios
Estilo de presentación
Semántica Fig 2.1. Características de un documento [1]
Luego de introducir el concepto de documento se define un texto como un conjunto de símbolos consecutivos con una sintaxis determinada que comunica algún conocimiento (semántica) y se presenta con algún estilo específico. Ahora bien, de acuerdo a los conceptos definidos, se puede notar que un documento puede contener o no una estructura asociada, es aquí donde se habla de “documentos estructurados” para el primer caso y “Documentos no estructurados” para el segundo caso.
Se puede encontrar semiestructurados”.
incluso
otra
clasificación
intermedia:
“Los
documentos
Los documentos normalmente hacen uso de los “metadatos” para definir su estructura. Un metadato es en esencia un conjunto de datos que describen el propio documento de texto al que están asociados (ver sección 2.3). Los metadatos son expresados en lo que se conoce como “lenguajes de marcado ”, aunque no siempre estos lenguajes de marcado se utilizan para describir metadatos. En este capitulo se exponen entonces las características de los documentos estructurados y no estructurados, más tarde se amplía el concepto de metadato y al final se exponen los lenguajes de marcado que son una herramienta para la aplicación de metadatos.
2.2 LA ESTRUCTURA DE LOS DOCUMENTOS DE TEXTO Los documentos en general se pueden tratar como unidades con cierta información que debe ser transmitida. Un documento puede contener diferentes tipos de datos como texto, audio o video; y cada uno de estos tipos de datos puede ser manipulado de diferentes formas, pero en este documento solo se pretende exponer las características de los documentos que contienen texto. Un documento de texto puede presentar la información en distintas formas. Como lo expresa S. Abitebou [2]: “Los datos pueden residir de diferentes maneras, desde datos no estructurados en sistemas de archivos hasta datos altamente estructurados en los sistemas de bases de datos relacionales”. Esta referencia a la estructura de un texto expone la existencia de un grado de “orden” para contener la información. Este “orden” o estructura es inherente a todo documento y permite efectuar una clasificación de los documentos de texto en estructurados, semiestrucurados y no estructurados. Se definen entonces los diferentes tipos de documentos de texto en cuanto a su estructura: Estructurados: Contienen información tabulada o delimitada naturalmente, está grabada en un archivo o en una tabla de una base de datos. [3] Semiestructurados: Datos que carecen de rigidez, esquema regular, o cambios constantes en el esquema. [2] No estructurados: Cualquier tipo de texto que esté en una representación tabular o formato delimitado. [3] Esta primera definición de los diferentes tipos de documentos de texto deja entrever una serie de características fundamentales que se expondrán a continuación:
Los documentos de texto no estructurados carecen de una estructura o una delimitación de su contenido que pueda ser interpretada o entendida a través de alguna interfaz de software. Esto significa que las partes de un documento de texto no pueden ser diferenciadas a un nivel básico y primitivo, el documento en sí funciona como un único dato a los ojos de cualquier interfaz con la que es presentada. Un visor de archivos de texto, por ejemplo, no proporciona una opción por medio de la cual pudieramos observar solo el titulo de un documento, o el último párrafo, ni siquiera podría diferenciarnos el autor del texto aunque este apareciera al final de la información. Para este visor (interfaz) , el documento funciona como una sola unidad de información la cual no puede ser dividida. De otro lado, existen representaciones de datos en las que el texto se encuentra ampliamente dividido y clasificado. Este es el caso de las bases de datos relacionales. Si se quisiera organizar la información de un documento de texto dentro de una base de datos, sería preciso saber de antemano todos los datos que se buscan representar y crear una estructura para guardarlos. Esta estructura sería bastante rígida e inmodificable y clasificaría sus datos de acuerdo al tipo (entero, texto, fecha). La imposibilidad de que un documento de texto no estructurado diferencie su información dentro de su propio contenido hace necesario transformarlo y agregarle cierta información para que este documento pueda ser manipulado y se pueda obtener de él la información necesaria de una manera rápida y precisa. Representar los datos de un documento de texto dentro de una base de datos hace que se pierda bastante información implícita referente al manejo del lenguaje. No es lo mismo decir: “En el año 2015, la Unión Europea planea lanzar desde la base de korou, en la Guyana francesa, la primera expedición tripulada a Marte” a decir: “Año: 2015, Promotor: Unión Europea, Actividad: Lanzamiento primera misión a Marte, Lugar: Guyana Francesa”; se han perdido elementos del lenguaje que en un momento dado pueden ayudar a inferir cierta información. Por ejemplo, la palabra “planea” desaparece, lo cual hace entender que se trata de un evento factible más no seguro, información que sería imposible inferir en el segundo esquema que es equivalente al que se maneja en una base de datos relacional. Como se verá, es posible marcar los datos de un documento de texto o incluso agregar nuevos datos que tengan que ver con el mismo, de una manera más estructurada. Esta forma de marcar los documentos y dividir sus datos entrega lo que se conoce como documentos de texto semiestructurado. Una marca es un dato extra que se introduce dentro del texto para delimitar sus partes. Las marcas deben ser definidas de tal manera que no se confundan con la información original del texto. Sin embargo, es usual encontrar documentos semiestructurados que representan la información de una manera muy similar a como lo hace una base de datos, pero aún así, siguen conservando flexibilidad en su estructura la cual puede cambiar en cualquier momento; estos documentos no necesariamente contendrán un texto con todas las características del discurso, tendrán más bien una serie de datos puntuales sin perder su característica de semiestructuración.
Los datos semiestructurados pueden ser irregulares o incompletos y tienen una estructura que puede cambiar rápido o impredeciblemente [4]. Esta estructura se conoce también como “esquema” y es inherente a todo documento de texto. Guozheng Ge [5] define una serie de características para un documento de texto semiestructurado: -
Carece de un esquema (estructura) explícito
-
La estructura de marcado de la información no tiene una gran rigidez.
-
Existe una distinción difusa entre el esquema o estructura de información y los datos
-
El esquema puede ser posterior a la estructuración del documento y puede ser de un tamaño indefinido.
La figura 1.3. ilustra los diferentes tipos de estructura que puede tener un documento de texto.
En el año 2015, la Unión Europea planea lanzar desde la base de korou, en la Guyana francesa, la primera expedición tripulada a Marte. Una versión modificada del cohete Ariane será la nave que permitirá a tres arriesgados astronautas cumplir con esta misión.
En el año 2015, la Unión Europea planea lanzar desde la base de korou, en la Guyana francesa, la primera expedición tripulada a Marte