Modelo de Datos Estadísticos Temporalmente Extendido: Un Enfoque Relacional Fredi Palominos Villavicencio1 Departamento de Matemática y Ciencia de la Computación, Universidad de Santiago de Chile.
Adoración de Miguel Castaño Departamento de Lenguajes y Sistemas Universidad Carlos Tercero de Madrid
Resumen Aunque muchos procesos y aplicaciones estadísticas, en particular las Bases de Datos Estadísticos, demandan gestión de datos temporales, la Dimensión Temporal -aspectos cronológicos asociados a la información- no ha sido incorporada como un elemento fundamental en el diseño y funcionalidad del software estadístico. Una consecuencia inmediata de esta carencia, es una limitación en la semántica de la información y en los resultados del tratamiento, como también una menor claridad en la organización de los datos. En este trabajo se propone un Modelo para Bases de Datos Estadísticos, donde la Dimensión Temporal de los datos es una componente fundamental. El énfasis principal se ha puesto en aquellos aspectos que tienen relación con la dinámica del modelo y se presentan operadores especialmente adaptados y/o concebidos para el tratamiento de Microdatos y Macrodatos Estadísticos. Se circunscribe al ámbito del Modelo Relacional [4], y mantiene la simplicidad y funcionalidad que, desde hace algunos años, han convertido a dicho modelo en un estándar de facto. El modelo de datos que se propone, puede ser aplicable a distintos ámbitos y disciplinas, tales como la economía, la salud pública, la administración, etc.
1.
Introducción
Muchos tipos de investigaciones estadísticas, como los censos, requieren el tratamiento de grandes volúmenes de información. En dicho tratamiento intervienen muchas personas, con diferentes fines y necesidades. Frecuentemente, cumplir estos fines obliga a que procesos computacionalmente costosos se repitan muchas veces. La forma en que tradicionalmente se aborda el tratamiento de los datos estadísticos no favorece la integración de la información y de los resultados, limita la semántica, obliga a los estadísticos a adquirir un exagerado dominio de las herramientas informáticas, reduce el alcance del análisis de la información estadística, etc. Desde el punto de vista informático, esta situación también tiene diversas consecuencias: Tiempos de respuesta altos, mala utilización de los recursos, costosas inversiones en equipamiento, etc. En una gran parte del software estadístico comercial, los datos se organizan de forma tabular, sin establecer vínculos entre las tablas que representen asociaciones entre los datos. La información relativa a la Dimensión Temporal, tan importante en la información estadística, se incorpora pobremente, como cualquier otro tipo de dato y no redunda en estructuras más significativas y representativas de la realidad en la que los datos se circunscriben. Las bases de datos estadísticos contribuyen, sin duda, a mejorar el entorno en el que se mantienen y procesan los datos estadísticos, pero no deben excluir la dimensión temporal, por la importancia que ésta tiene para muchos tipos de investigaciones estadísticas. Las Bases de Datos Estadísticos han sido diseñadas con el propósito de admitir tareas de agregación y tabulación en oficinas estadísticas y para compartir datos estadísticos entre investigadores [11]. Son relativamente recientes y como concepto aún no está bien delimitado, faltándole precisión en cuanto a su alcance y contenido. Esta situación puede advertirse con mucha claridad en[1], [6] y [12], donde las definiciones propuestas por los diferentes autores, distan mucho unas de otras. Dos definiciones más certeras y rigurosas pueden encontrarse en [7] y [5]; en ellas se observa una clara separación entre microinformación (información base) y macroinformación (información agregada de la información base). Dichas ideas son, en cierta medida, complementarias. La afirmación de [5], que supone la existencias de dos sistemas de administración de bases de datos, en el fondo reconoce de forma implícita la existencia de dos bases de datos, como se afirma en [7]. Una 1
Proyecto DICYT Nº 049633PV
1
definición más precisa del concepto, con un mayor alcance respecto de los sistemas de información tradicionales, se puede encontrar en [9]. En este trabajo se presenta un Modelo de Datos Estadísticos temporalmente extendido, en el que las asociaciones que habitualmente existen entre la información y el tiempo en que dicha información se origina, se integran en el modelo como un elemento fundamental de la estructura, con lo que se consigue un significativo incremento de la semántica. El modelo define ámbitos diferentes para la microinformación y la macroinformación, con operadores acordes a cada tipo de dato, especialmente aquellos relativos al tratamiento de la macroinformación. Dicho enfoque tiene importantes consecuencias respecto del acceso a la información de la base de datos, ya que mejora la disponibilidad de los datos y reduce considerablemente la necesidad de repetir procesos computacionalmente costosos.
2.
Conceptos Fundamentales
Las unidades individuales que componen una población poseen una serie de cualidades, propiedades o rasgos comunes que en estadística se denominan caracteres [2]. En la terminología propia del diseño de bases de datos, dichos caracteres suelen llamarse atributos, pero debido a que en estadística el término atributo tiene otro significado -tal como el término carácter en informática-, nos referiremos a dichos caracteres como características. Las observaciones realizadas en una población se medirán en términos de características cualitativas y/o cuantitativas. Tras realizar el proceso de observación, se obtiene un conjunto de datos, en general multidimensionales, que se denomina microdatos. Dichos microdatos se refieren por ejemplo a personas, familias, empresas, etc. Del procesamiento de los microdatos se derivan los denominados macrodatos, que es información agregada de los microdatos. Los datos acerca de los datos, es decir, la documentación del sistema, constituida por definiciones, nombres, descripciones, periodos de referencia, disponibilidad, fiabilidad, análisis, metodología, etc., constituye lo que se denomina metadatos 2[7]. Entendemos por Dimensión Temporal de los datos, aquellos aspectos cronológicos que tienen algún tipo de asociación con los datos, de interés para el sistema de información estadística. La Dimensión Temporal se incorpora por medio de un tipo especial de dato, denominado marca temporal, que tiene por objeto situar los datos en el tiempo. En función del tipo de aplicación y de su sensibilidad a la Dimensión Temporal, los sistemas de información, y en particular las Bases de Datos, pueden requerir estructuras de datos que, en ocasiones, son extremadamente complejas (en [14] se define el marco teórico más aceptado en el ámbito de las Bases de Datos Temporalmente Extendidas y en [9] se define una extensión temporal del Modelo Relacional [4], fundamentada en cuatro niveles de sensibilidad a la dimensión temporal, que incrementa la semántica respecto del marco enunciado en [14]). Todas las investigaciones estadísticas están relacionadas de una u otra forma con la Dimensión Temporal, por lo que, según el tipo de asociación, se definen los siguientes tipos de investigaciones: Investigaciones No periódicas: Son aquellas en las que. Si bien toda investigación estadística tiene siempre un periodo o momento de referencia (referencia temporal3), en estas investigaciones, la Dimensión Temporal no tiene un papel relevante en el estudio en lo que a la semántica, al almacenamiento y al tratamiento de los datos se refiere, debido a que la investigación se realiza una única vez porque no existe interés en observar las variaciones experimentadas por el fenómeno a lo largo del tiempo. Investigaciones Periódicas: Son aquellas que se repiten en periodos de tiempo o momentos regulares, que son significativos para la investigación. En cada periodo o momento de referencia, a través de muestras que pueden ser independientes, se recopila un conjunto de datos con una estructura similar. La evolución del fenómeno se estudia observando la variación experimentada por las mismas agregaciones en distintas referencias temporales. Investigaciones Continuas: Como en el caso anterior, el proceso de recopilación de la información se repite en diferentesreferencias temporales, sin embargo, un determinado porcentaje de unidades individuales se vuelven a incluir en la muestra siguiente. En este tipo de investigaciones reviste también interés, además de la variación experimentada por las mismas agregaciones en distintas referencia temporales al igual que en el caso anterior, poder determinar la evolución del fenómeno en lo que se refiere a esas unidades estadísticas concretas que se
2 Queremos llamar la atención sobre el hecho de que fue, precisamente, en el campo estadístico donde surgió la denominación de metadatos tan extendida actualmente. 3 Hay investigaciones estadísticas que están referidas a un cierto momento en el tiempo (por ejemplo, los Censos de Población y Vivienda) y otras cuya referencia temporal es un determinado periodo, como un mes o un trimestre (por ejemplo el IPC).
2
mantienen en sucesivos periodos o momentos, es decir, interesa estudiar la vida de las unidades estadísticas que se conservan en las sucesivas muestras, a fin de observar los cambios que se han producido en las mismas. En el Modelo de Datos Estadísticos que presentamos se adopta un tipo especial de organización que responde a un nivel de sensibilidad denominado de Relación, en el que una relación se subdivide en una colección de subconjuntos disjuntos, cada uno de ellos asociado a un determinado punto en el tiempo. La información temporal se incorpora por medio de características cuantitativas asociadas a un determinado dominio temporal. El modelo es apropiado para la gestión de investigaciones periódicas y también para investigaciones continuas, a excepción de aquellas explotaciones en las que se requiera el seguimiento de las unidades estadísticas que se mantienen en sucesivos periodos a fin de seguir su evolución4.
3
Bases de Datos Estadísticos Temporalmente Extendidas
Una Base de Datos Estadísticos Temporalmente Extendida es la unión de dos bases de datos, denominadas Microbase y Macrobase de Datos Estadísticos. Ambas bases de datos contienen información temporal que permite mantener la historia de una determinada parcela del mundo real. Los macrodatos, que componen la Macrobase, se generan a partir de los microdatos por medio de consultas formuladas en un lenguaje de manipulación de datos con operadores especiales, que debe, además, impedir que se vulnere el secreto estadístico. La Macrobase, debido a que contiene solamente información derivada, es en sí redundante, pero dado que los macrodatos no se actualizan sino que se calculan dicha redundancia no produce inconsistencias. La Macrobase permite mantener de forma accesible conjuntos de macrodatos que son, o pueden ser, de uso común a varias aplicaciones estadísticas. Así, pueden utilizarse de forma inmediata, sin repetir innecesariamente su proceso de generación que, como ya se ha advertido, en muchos casos puede ser largo y costoso. El tratamiento de la micro y macroinformación, ya sean consultas, modificaciones o generación de macrodatos, debe hacerse de forma separada, apoyándose en la metabase. Existen algunas funciones que requieren llegar hasta las unidades individuales (Microbase), mientras que otras sólo necesitan acceder a los macrodatos de la Macrobase. Por tal motivo, es necesario definir, para ambas bases de datos, estructuras y operadores diferentes, adecuados a cada tipo de datos y a cada tipo de usuario. El modelo de datos que se propone se circunscribe al ámbito de las Bases de Datos Relacionales. Ha sido especialmente extendido a fin de captar la semántica de la dinámica temporal contenida en los datos estadísticos. En las dos secciones siguientes se describe el Modelo de Datos Estadístico Temporalmente Extendido que, como ya se ha dicho, se concibe como la unión de dos Bases de Datos (Microbase y Macrobase de Datos Estadísticos). El énfasis del trabajo que aquí exponemos se ha puesto en la dinámica del modelo, es decir, en aquellos operadores concebidos para la generación de macrodatos y también en los que se utilizan para la explotación de los macrodatos, funcionalidad difícil de llevar a cabo con los operadores relacionales clásicos, exigiendo la definición de un álgebra especial.
4
Microbase de Datos Estadísticos (µ)
4.1
Estructura
4.1.1
Dominios
En el modelo de datos relacional, los dominios son conjuntos nominados de valores atómicos de un mismo tipo de datos a los que se pueden aplicar ciertas restricciones. En el contexto estadístico, y particularmente en el contexto del modelo de microbase de datos estadísticos temporalmente extendido que se presenta, se deben distinguir los siguientes tipos de dominios: Dominios Cualitativos: Conjuntos finitos que contienen modalidades no cuantificables, que generalmente se describen mediante palabras o códigos numéricos o alfanuméricas. Dominios Cuantitativos: Conjuntos que contienen valores numéricos, que se asocian a características que pueden cuantificarse o medirse. Dominios Imágenes: Son la imagen de otros dominios bajo una determinada función. Formalmente, sea D un dominio y f una función definida sobre D, entonces el conjunto I=f(D) es el dominio imagen definido por f sobre D.
4 El Modelo de Datos Estadísticos Temporalmente Extendido que se estudia en [9] es más completo y contempla también otros niveles de sensibilidad
3
Dominios Temporales: Son conjuntos de valores numéricos, expresados en una misma unidad de medida temporal. Toda característica C, sea cualitativa (A) o cuantitativa (V), se define sobre un dominio que se denota Dom (C)
4.1.2
Esquema de Relación
Un esquema de relación describe las características o propiedades de un determinado tipo de unidades estadísticas, o de las interrelaciones entre las mismas, que son de interés para el sistema de información. Un esquema de relación de la µ se define sobre el conjunto de dominios D1, D2, ...... Dn, ,no necesariamente distintos, y se representa por el siguiente conjunto: E = { Ci, Dom(Ci) } donde Ci es una característica de la unidad estadística descrita por E y Dom(Ci) el dominio sobre el cual está definida. A fin de simplificar la notación, a veces se prescinde de los dominios. Así, tendríamos: E = {Ci} = { K, A1, A2, ...,Aq, V1, V2, ... , Vr } donde las características Ci pueden ser bien atributos Ai, i=1, 2, ..., q (es decir, {Ai} representa las q características cualitativas del esquema de relación E), o bien variables Vj, j=1,2, ..., r (es decir, {Vj} representa las r características cuantitativas del esquema de relación E).K ha sido introducida especialmente y representa la característica (o el conjunto de características) que forman la clave primaria de la relación. En muchos casos es una característica artificial (definida así a fin de proteger el secreto estadístico), que no pertenece a las unidades estadísticas y que se utiliza como un identificador para facilitar algunas operaciones sobre la microbase. Dicha clave debe cumplir las propiedades de Unicidad y Minimalidad del Modelo Relacional clásico [4] (por lo que a veces deberá llevar incorporada una marca temporal5). Las características que representan la información temporal se incluyen como un tipo especial de característica cuantitativa, sobre las que podrán aplicarse, además de los operadores habituales en el tratamiento de variables cuantitativas, aquellos operadores que permitan hacer un uso más semántico y acorde con el tipo de dato que dichas variables representan.
4.1.3
Relación
Una relación de la Microbase de Datos Estadísticos, que en general denotamos por la letra griega ξ, definida sobre el esquema E es un conjunto de tuplas xj, tal que cada tupla se define como el conjunto: xj = { (Ci,c ij) / Ci ∈ E y cij ∈ Dom (Ci) } En este modelo, las relaciones tienen las mismas propiedades que en el modelo relacional clásico.
4.1.4
Restricciones
Como la microbase de datos estadísticos es en la práctica un caso particular de base de datos relacional, debe cumplir las restricciones de Integridad de Entidad e Integridad Referencial del Modelo Relacional clásico6.
4.2
Operadores
Como la microbase de datos estadísticos, corresponde a un caso particular del modelo de datos relacional, los operadores válidos en este entorno son los mismos del modelo relacional clásico, sobre los cuales se definen operadores especiales para la generación de macrodatos.
5
Generación de Macrodatos
La generación de macrodatos se hace por medio de la aplicación de las funciones especiales y de los criterios de clasificación que a continuación se definen: Una Proyección Intervalada, que en adelante denotamos como PI, es el resultado de aplicar una función sobre el dominio de una característica, es decir, produce un dominio imagen del dominio original. Formalmente, sea C una característica y sea D el dominio sobre el cual dicha característica está definida, una Proyección Intervalada g es una función tal que, g : D → PI[C] (g(D) = PI[C]), tal que cumple las siguientes condiciones: 5
El análisis de cómo se ven afectadas las claves primarias por la incorporación de la dimensión temporal queda fuera del alcance de este trabajo que está centrado en la dinámica del modelo propuesto; en [9] se analiza este tema. 6 Existen otras restricciones propias del modelo temporal en las que no entramos es este trabajo que, como hemos dicho, está centrado en la dinámica.
4
1) φ ∉ g(D) y 2) ∀ x ,y ∈ g(D ), x ∩ y = φ. Llamaremos Proyección Intervalada Identidad (PII), a una proyección intervalada g, tal que además cumple que, ((∀x, x∈D), g(x) = x). Es decir, g es una función identidad. Un Espacio de Clasificación (EC) es una estructura de datos que representa un cierto criterio de agrupación de los microdatos contenidos en una relación. Produce una reagrupación de los microdatos en subconjuntos disjuntos denominados casillas. La definición y descripción de dicho espacio, se hace vía un producto cartesiano de Proyecciones Intervaladas definido como sigue: Sea ξ una relación de la Microbase de Datos Estadísticos con esquema E = { K, A1, A2, ...,Aq, V1, V2, ... , Vr } y sean Q = {1,2, ...,q} y R = {1,2, ...,r}, conjuntos que contienen los subíndices de las características cualitativas y cuantitativas de ξ respectivamente, entonces el Espacio de Clasificación es el conjunto definido por la siguiente expresión: EC = ( Π g i ( D i ) ) X ( Π g j ( D j ) ) i∈L j∈J donde L ⊆ Q, J ⊆ R y (g h, h ∈ L ∪ J), son PI definidas sobre los correspondientes dominios de las características. El Espacio de Clasificación es un espacio euclideo e=n+s dimensional, donde n y s representan las cardinalidades de los conjuntos L y J respectivamente. Cada una de las dimensiones corresponde a una de las Proyecciones Intervaladas cuyo producto cartesiano define el Espacio de Clasificación. Una casilla del Espacio de Clasificación, que representamos por la tupla (a1, a2, ...., ae) o simplemente < a >, es tal que, cada (ai, i=1,...,e), representa uno de los intervalos definidos por las Proyecciones Intervaladas que generan dicho espacio. Debido a que el Espacio de Clasificación puede verse afectado por las restricciones semánticas impuestas a los datos, en la práctica, su cardinalidad puede ser menor que el número de elementos que define el producto cartesiano de las Proyecciones Intervaladas. La aplicación del Espacio de Clasificación sobre una relación cualquiera, llamémosle ξ, producirá una agrupación de sus tuplas en torno a las casillas definidas por dicho espacio, formando una colección de conjuntos disjuntos. Denotaremos por ξ
al conjunto de tuplas originado por la casilla . Así, ξ=
∪
ξ
∈ EC
Cada tupla x de ξ, pertenecerá a uno y solo uno de los subconjuntos definidos por las casillas del Espacio de Clasificación. Se llama Función de Agregación Simple, denotada por F, a una función que se aplica sobre las tuplas de una relación ξ , (F: ξ → ℜ, donde ℜ es el conjunto de los Números Reales), tal que: F(ξ) = ∑ f(x) x ∈ξ y f(x) es una expresión algebraica definida en términos de las características del Esquema de Relación. La Función de Agregación, que denotaremos por ℑ, se define de tal forma que ℑ = , donde cada (Fi, i=1, ..., w) es una Función de Agregación Simple. Así, ℑ : ξ→ℜw, es tal que ℑ (ξ) = (F1(ξ), F2(ξ), ..., Fw(ξ)) y ℑ (ξ) ∈ ℜw. La Función de Agregación debe cumplir la propiedad de aditividad [3]. Una función cumple dicha propiedad si, y solo si, dadas dos relaciones ξ1 y ξ2, tales que ξ1 ∩ξ2 = φ, entonces ℑ(ξ1 ∪ξ2) = ℑ(ξ1) + ℑ(ξ2). El paso de la Microbase de Datos Estadísticos a la Macrobase, se hace por medio de la aplicación de la que se denomina Función de Tabulación, que se define como: Τ (ξ) = ℑ ( EC ( ϕ (ξ) ) )
5
donde ϕ(ξ) es una composición de operadores relacionales que construyen o seleccionan los microdatos, a partir de los cuales se generarán las agregaciones. EC es el Espacio de Clasificación en el que se agruparán las tuplas, y ℑ es la función de tabulación que define las agregaciones en cada uno de los conjuntos de tuplas, asociados a cada casilla de EC.
6
Macrobase de Datos Estadísticos (Μ)
6.1
Estructura
6.1.1
Dominios
En la Macrobase son necesarios tres tipos de dominios: Dominios Cuantitativos: Conjuntos de valores numéricos correspondientes a los escalares que generan las Funciones de Agregación Simple que componen la Función de Agregación o algunas de las proyecciones intervaladas del Espacio de Clasificación (por ejemplo, algunas Proyecciones Intervaladas aplicadas sobre las propiedades temporales). Dominios Imágenes : Análogos a los definidos para la Microbase de Datos Estadísticos, que están asociados a las características que representan las proyecciones intervaladas del Espacio de Clasificación.
6.1.2
Esquema de Relación
Conjunto de características { P1, P2, ..., Pe, S1, S2, ..., Sw }, que denotaremos por ΕΤ, tal que Pi, i=1, ...,e representan las características definidas por las Proyecciones Intervaladas del Espacio de Clasificación y Sj, j=1, ...,w representan las características definidas por las Funciones de Agregación Simple que componen la Función de Agregación.
6.1.3
Relaciones
Una relación de la Macrobase de Datos Estadísticos se genera por medio de la aplicación de una Función de Tabulación sobre una relación de la Microbase de Datos Estadísticos. Formalmente se define como Τ (ξ) = ℑ ( EC ( ϕ (ξ) ) ), siendo el conjunto: {(,) / ∈ EC y = ℑ (ξ )} La Clave Primaria de la relación de macrodatos la constituye el conjunto de características que representan las Proyecciones Intervaladas del Espacio de Clasificación.
6.1.4
Reglas de Integridad
La relaciones de la Macrobase de Datos Estadísticos deberán cumplir las reglas de integridad del Modelo Relacional clásico, más la siguiente regla adicional, que elimina las casillas vacias: Una tupla (,) existe en Τ, si y solo si ξ ≠ φ
6.2
Operadores de la Macrobase de Datos Estadísticos
La representación relacional de los macrodatos, proporciona grandes ventajas desde el punto de vista operacional; sin embargo, debido a que semánticamente las características que representan la información generada por la función de agregación son distintas a las características que representan la información de gestión, dicha información no puede tratarse con los operadores relacionales clásicos. Por tal motivo es necesario definir un álgebra especial, que contemple los siguientes conceptos y operadores:
6.2.1
Compatibilidad de Macrodatos
Se dice que dos relaciones de Macrodatos, digamos Τ1 = ℑ1 ( EC1 ( ϕ (ξ1) ) ) y Τ2 = ℑ2 ( EC2 ( ϕ (ξ2) ) ), son compatibles si, y solo si, cumplen las siguientes condiciones: 1) ξ1 ∩ ξ2 = φ 2) ξ1 y ξ2 son compatibles en la Unión según el Modelo Relacional clásico, y 3) EC1 = EC2 y ℑ1 = ℑ2
6.2.2
Unión de Macrodatos
6
Sean las relaciones Τ1 = ℑ1 ( EC1 ( ϕ (ξ1) ) ) y Τ2 = ℑ2 ( EC2 ( ϕ (ξ2) ) ), tales que ξ1 y ξ2 son compatibles en la Unión según el Modelo Relacional Clásico y EC1 = EC2 y ℑ1 = ℑ2, entonces, la Unión de las relaciones de Macrodatos Τ1 y Τ2, denotada por, Τ1 UM Τ2 , es el conjunto: { (,) / ∃ (,) ∈ Τ1, ∃ (,) ∈ Τ2, y = + }
6.2.3
Diferencia de Macrodatos
Sean las relaciones Τ = ℑ ( EC ( ϕ (ξ) ) ) y Τ1 = ℑ1 ( EC1 ( ϕ (ξ1) ) ), tales que cumplen la condición de compatibilidad de macrodatos, entonces, la Diferencia de Macrodatos entre la relación Τ respecto de la relación Τ1, denotada por Τ -M Τ1, se define como: { (,) / ∃ (,) ∈ Τ, ∃ (,) ∈ Τ1, y d = - }
6.2.4
Macro-Unión
Sean las relaciones Τ1 = ℑ1 ( EC1 ( ϕ (ξ1) ) ) y Τ2 = ℑ2 ( EC2 ( ϕ (ξ2) ) ), tales que: 1) Cumplen la condición de compatibilidad de macrodatos, 2) ∀ (,) ∈ Τ1 ¬∃ (,) ∈ Τ2 3) ∀ (,) ∈ Τ2 ¬∃ (,) ∈ Τ1, entonces, la Macro-Unión de relaciones de Macrodatos (adaptación del operador propuesto en [10]), denotada por, Τ1 ΜU Τ2, se define como: { (,) / (,) ∈ Τ1 ó (,) ∈ Τ2 }
6.2.5
Selección de Casillas
Sean la relación Τ = ℑ ( EC ( ϕ (ξ) ) ). Análogamente al Modelo Relacional Clásico, la Selección de casillas aplicada sobre la tabla de Macrodatos Τ en función del predicado de selección ρ(), denotado por σM, selecciona de la relación Τ, todas aquellas tuplas (casillas) que cumplen el predicado de selección ρ().
6.2.6
Cortes Longitudinales y Transversales
Establecen formas de acceder a los datos, que están directamente relacionadas con la información temporal contenida en las Relaciones de Macrodatos. Corte Longitudinal: Permite obtener una secuencia histórica -serie cronológica-, de una o más agregaciones. Formalmente, un Corte Longitudinal, es una Relación de Macrodatos Τ=ℑ(EC(ϕ(ξ))), tal que el Espacio de Clasificación (EC), está definido, entre otras, sobre una característica temporal. Esto generará agregaciones que se construyen en torno a ciertos intervalos temporales o bien, una secuencia específica de puntos en el tiempo. Corte Transversal: Permite obtener una o más agregaciones en un estado específico de la Macrobase de Datos Estadísticos. Formalmente, sea Τ=ℑ(EC(ϕ(ξ))), definida como en el caso anterior, entonces, un Corte Transversal sobre Τ, denotado por δ i (Τ), se define como δ i (Τ) = σMT(i) (Τ), es decir, la tupla (o conjunto de agregaciones), cuya Marca Temporal (MT) tiene el valor i.
6.2.7
Agregación de Macrodatos
Permite generar nuevos macrodatos a partir de relaciones de la Macrobase (M). Sea Τ ∈ Μ, EC un Espacio de Clasificación definido sobre Τ, y ℑI una Función de Agregación construida en base a Funciones de Agregación Simple, que son funciones identidad, entonces, una Agregación de Macrodatos es una operación sobre Τ, que genera una nueva relación de macrodatos, definida como sigue: Τ‘ = ℑI ( EC (ϕ(Τ) ) )
6.2.8
Desagregación de Macrodatos por Ponderación
Sea Τ ∈ Μ, y ξP ∈ µ, con esquema {C,P} tal que: 1) Dom(P) = [0,1] (Dom(P) ⊂ ℜ) y 2) (∑ p = 1, ∀(c,p), (c,p) ∈ ξP),
7
entonces, la Desagregación de Macrodatos por Ponderación, denotada por Τ XT ξP, genera una Relación de Macrodatos definida por el siguiente conjunto: { (d,) / ∀ (c,p) ∈ ξP , y ∀ (,) ∈ Τ, ∃ (d,), donde d = p* y d = (a1, a2, ..., ae, p), p∈P }7
7
Conclusiones
Muchos de los modelos de datos estadísticos propuestos, incluso los más recientes (ver [11]), no incorporan la información temporal como un elemento esencial en la estructuración de los datos. El tratamiento y la representación de los macrodatos es confuso, debido a que en muchos casos y a pesar de que es claro que la microinformación y la macroinformación están implícitamente relacionadas, se intenta generar un entorno conceptual, donde el principal foco de atención esta puesto en los macrodatos. El modelo de datos propuesto en este trabajo incorpora la Dimensión Temporal como componente fundamental de la organización y estructura de la base de datos, propone un entorno donde los microdatos y los macrodatos se almacenan en estructuras de datos comunes -enfoque relacional-, cuenta con lenguajes de datos adecuados a las diferentes funciones propias de los usuarios de la base de datos estadísticos. El modelo que define con claridad y precisión la forma cómo los datos estadísticos deben estructurarse tanto a nivel de micro como de macroinformación, puede servir de base para la propuesta de una metodología de diseño conceptual de Bases de Datos Estadísticos.. A diferencia de lo que ocurre con otras propuestas que incluyen la Dimensión Temporal, con este modelo es posible utilizar Sistemas de Gestión de Bases de Datos comerciales, como soporte para instrumentar Bases de Datos Estadísticos Temporalmente Extendidas (tanto microdatos como macrodatos). Utilizando un SGBD comercial8, con el objeto de comprobar y poner en práctica las ideas planteadas en este trabajo, se ha implementado un prototipo de Lenguaje de Datos Estadísticos. Los resultados obtenidos son acordes con lo esperado por los autores. El modelo propuesto permite un mejor aprovechamiento de los recursos informáticos, ya que el rendimiento de Sistema dependerá en gran medida del diseño conceptual y, en particular, de la utilidad de las agregaciones generadas y la cantidad de usuarios que vean en ellas la fuente de información apropiada para sus necesidades. La menor frecuencia de acceso a los microdatos redunda en mejores tiempos de respuesta para los usuarios.
Bibliografía [1]
G. Barcaroli, G. Di Batista, E. Fortunato, C. Leporelli. Design of Statistica Information Media: Time Performance and Storage Constraints, Statistical and Scientific Database Management, Fourth International Working Conference SSDBM, Springer-Verlag, 1988.
[2]
M. A. Casas. Curso Básico de Estadística Descriptiva, Ed. Instituto Nacional de Educación Pública, Madrid, España, 1986.
[3]
M. C. Chen, L. McNamee, M. Melkanoff, A Model of Summary Data and Its Applications in Statistical Databases, Proc. on IV International Working Conference in SSDBM, Ed. Springer-Verlag, 1988.
[4]
E. F. Codd, A Relational Model of Data for Large Shared Data Banks, CACM 13, N 6, June, 1970.
[5]
A. D'Atri y F. L. Ricci, Interpretation of Statistical Queries to Relational Databases, Fourth International Working Conference SSDBM, Springer-Verlag, 1988.
[6]
Z. Michalewicz, K. Chen, Ranges and Trakers in Statistical Databases, Fourth International Working Conference SSDBM, Springer-Verlag, 1988.
[7]
A. de Miguel Derecho a la Información Frente al Derecho a la Intimidad , Ed. Instituto Nacional de Estadísticas, Madrid, España, 1983.
[8]
J. C. Klensin, When the Metadata Exceed the Data: Data Management with uncertain data, Statistical and Computing, Vol. V, Nº 1, March 1995.
7 8
El operador * representa el producto de un escalar por un vector. ORACLE y Pro*C
8
[9]
F. Palominos, Análisis de la Dimensión Temporal en las Bases de Datos y su Aplicación a los Sistemas Estadísticos, tesis doctoral presentada en la Facultad de Informática de la Universidad Politécnica de Madrid, España, 1992.
[10]
M. Rafanelli, F. Ricci, A. Sabastio, An Algebra for Macrodata, Tech. Rep. IASI, December, 1985.
[11]
M. Rafanelli, Agregate Statistical Data: Models for their Representation, Statistical and Computing, Vol. V, Nº 1, March 1995.
[12]
H. Sato, A Data Model, Knowledge Base, and Natural Lenguage Processing for Sharing and Large Statistical database, Fourth International Working Conference SSDBM, Springer-Verlag, 1988.
[13]
A. Segev, A. Shosshani, The representation of de Temporal data Model in the Relational Environment, Fourth International Working Conference SSDBM, Springer-Verlag, 1988.
[14]
R. Snodgrass, I. Ahn, A Taxonomy of Time in Databases. ACM Sigmod Record, Marzo, 1985.
9