La Extracción de Objetos de Aprendizaje con ... - Semantic Scholar

Technische Universität Darmstadt, Alemania (2004). Master en Informática por la Universidad Federal de. Pernambuco, Brasil, (1990). Ingeniera de Sistemas en.
2MB Größe 11 Downloads 82 vistas
IEEE-RITA Vol. 5, Núm. 2, May. 2010

49

La Extracción de Objetos de Aprendizaje con Metadatos de Diseño Pedagógico Regina Motz, Claudia Badell, Martín Barrosa, Rodolfo Sum

Title—Learning Object Extraction with Pedagogical Design Metadata. Abstract—The generation of digital objects is a costly task and also there are very few tools that support the extraction of learning objects from existing digital materials. In this paper we present the general architecture of a system to extract learning objects from digital material, such as for example HTML pages or Word documents. One of the main features of the proposal is that objects are annotated with metadata generated according to the characteristics of instructional design. Index Terms—Learning Object Metadata, Natural Language Processing.

I. INTRODUCCIÓN

A

CTUALMENTE la adopción y uso de la educación a distancia es cada vez más amplia, esto gracias a que permite salvar las limitaciones geográficas y temporales de los esquemas tradicionales de enseñanza. Al momento de preparar un curso a distancia sobre cualquier área temática, se cuenta con mucha información proveniente de diversos tipos de fuentes. Dado que las características de estos cursos requieren tener en cuenta diferentes aspectos a los considerados en cursos presenciales, como la adecuación al perfil del alumno o interactividad, entre otros; seleccionar los materiales y modificarlos para este tipo de curso, tiene un elevado costo y requiere gran cantidad de tiempo y dedicación. En la actualidad existen herramientas como Atutor [5] y Moodle [6] que facilitan al docente el armado de cursos a distancia. Estas herramientas trabajan con paquetes SCORM [7] conteniendo los distintos materiales del curso, junto a un conjunto de metadatos según el estándar LOM [8]. En general estos paquetes se pueden ver como ricos contenedores de materiales sobre un área temática, pero no son construidos de forma que sus componentes puedan ser reutilizados. Esto es debido a la diversa granularidad de los recursos que se les agregan y a la falta de carga de metadatos en el proceso. En este contexto, surge la necesidad de poder extraer en forma automática Objetos de Aprendizaje (de aquí en más denominados ODAs).

R. Motz, C. Badell, M. Barrosa y R. Sum pertenecen a la Facultad de Ingeniería de la Universidad de la República, Julio Herrera y Reissig 565, Montevideo, Uruguay (email: [email protected], [email protected], [email protected] y [email protected]). DOI (Digital Object Identifier) Pendiente

Existen varias definiciones de lo que es un ODA, en APROA [1] se define como “la mínima estructura independiente que contiene un objetivo, una actividad de aprendizaje, un metadato y un mecanismo de evaluación, el cual puede ser desarrollado con tecnologías de información y comunicación (TIC) de manera de posibilitar su reutilización, interoperabilidad, accesibilidad y duración en el tiempo” y [2] como “material educativo digital, auto contenido y reutilizable, poseedor de información que permite describir su contenido (metadata)”. La IIE [3] lo define como “cualquier objeto, digital o no, que puede ser utilizado, reutilizado, o referenciado en el proceso de enseñanza apoyada por la tecnología” y Wiley [4] como “cualquier recurso digital que puede usarse repetidamente para facilitar el aprendizaje”. .De las definiciones anteriores, y de muchas otras, se puede destacar un punto en común, que es el hecho de que deben ser reutilizables, para no replicar el esfuerzo que lleva la generación de contenidos educativos para distintas organizaciones. El uso de ODAs se está consolidando en la comunidad de los educadores, valorándose positivamente sus características de re-utilización e interoperabilidad. Estas características se ven acrecentadas cuando se trabaja con ODAs de granularidad fina. Un ODA de granularidad gruesa puede ser un curso completo, mientras que ODAs de granularidad fina pueden ser ejemplos, definiciones, ejercicios. La herramienta que este trabajo presenta es un extractor de ODAs de granularidad fina. Otra característica importante de la propuesta es que los ODA son generados en forma automática desde el material digital y son provistos con metadatos que permiten su valoración respecto a su adecuación a un diseño pedagógico. Algunas de las fuentes de información existentes para la extracción de ODAs pueden ser páginas HTML, documentos con formato PDF, wiki’s, paquetes SCORM [7] , etc. Por lo tanto, una solución al problema debe contemplar esta diversidad de fuentes, así como la posibilidad de cambiar el área temática objetivo y los aspectos pedagógicos relevantes. Otra característica importante de la solución es que debe permitir cambiar e incorporar nuevos motores de extracción y módulos de evaluación de calidad. En este trabajo presentamos la arquitectura del sistema Looking4LO para la extracción de ODAs desde materiales digitales como pueden ser páginas web de cursos o documentos doc. La solución propuesta cuenta con las características mencionadas en el párrafo anterior. Se destaca además que la arquitectura propuesta, provee guías de

ISSN 1932-8540 © IEEE

50

IEEE-RITA Vol. 5, Núm. 2, May. 2010

Fig. 1. Diagrama del Sistema LooKIng4LO.

extracción y generación de metadatos de acuerdo a la adecuación de los ODAs a un diseño pedagógico. Para que la reutilización de los ODAs pueda ser realizada con criterios pedagógicos, estos deben ser extraídos de forma que pertenezcan a tipos básicos de elementos pedagógicos, entre los cuales se encuentran las definiciones, los ejemplos, ejercicios, teoremas, demostraciones, etc. Para entender el contexto de uso de la herramienta en la Sección II se presenta una descripción general de la misma, analizando componentes pedagógicos y metadatos extraíbles. En la Sección III se describe la arquitectura general del sistema Looking4LO. En la Sección IV se presentan las tecnologías utilizadas para implementar el motor de extracción. Finalmente en la Sección V brindamos algunas conclusiones y trabajos futuros. II. COMPONENTES PEDAGÓGICOS Y METADATOS EXTRAIBLES Esta sección presenta el proceso general del sistema Looking4LO, desde la entrada de fuentes al módulo extractor, hasta la obtención de un paquete SCORM que contiene los ODAs obtenidos a partir de ellas. El diagrama de la Figura 1 ilustra este proceso. Para la búsqueda y generación de ODAs, se reciben dos entradas que actúan como condicionantes a la hora de determinar si clasifica o no la información de cierta fuente. Dichas entradas son el modelo de dominio y el diseño pedagógico. El modelo de dominio plantea el área temática que está siendo abordada, y el diseño pedagógico indica las características pedagógicas buscadas sobre la fuente. Los ODAs resultado, serán aquellos que cumplan las condicionantes planteadas por estas dos entradas. El Modelo Pedagógico se usa para identificar las estructuras formadas por elementos que cumplen una función didáctica dentro de un curso (componentes pedagógicos), como ser definiciones, ejercicios, demostraciones de teoremas, etc. Por lo tanto, los componentes pedagógicos que recibe el sistema indican qué tipo de información se quiere extraer sobre un tema particular. Los Componentes Pedagógicos son modelados mediante un conjunto de reglas. El Modelo de Dominio se refiere a un área temática de interés. Su función consiste en definir cualquier objeto o entidad que se quiera representar, y se utiliza para modelar el tema sobre el que se busca generar ODAs. Temáticas de

interés pueden ser matemática, programación de computadoras, historia, cocina o cualquier otra sobre la que se quiera generar ODAs. Cada dominio particular se modela a través de una ontología. Una ontología es un modelo de datos que representa un dominio y se utiliza para razonar sobre él. Según la W3C, “Una ontología define los términos a utilizar para describir y representar un área de conocimiento. Las ontologías son utilizadas por las personas, las bases de datos, y las aplicaciones que necesitan compartir un dominio de información (un dominio es simplemente un área de temática específica o un área de conocimiento, tales como medicina, fabricación de herramientas, bienes inmuebles, reparación automovilística, gestión financiera, etc.). Las ontologías incluyen definiciones de conceptos básicos del dominio, y las relaciones entre ellos, que son útiles para los ordenadores [...]. Codifican el conocimiento de un dominio y también el conocimiento que extiende los dominios. En este sentido, hacen el conocimiento reutilizable” [8]. Las Fuentes son cualquier elemento digital que contenga material desde donde generar ODAs. Dado que la variedad de fuentes posibles es muy amplia, se diseñó el Sistema de forma que pueda evolucionar a nuevos formatos y estrategias de extracción. El prototipo actual toma como fuentes documentos DOC, PDF y PPT. La salida del sistema LooKIng4LO es un conjunto de ODAs, donde cada uno de ellos posee metadatos que indican, entre otros, la temática relativa a la ontología de dominio utilizada, y la correspondencia con algún componente pedagógico. Un ODA es modelado como un elemento que contiene texto, más una estructura (árbol n-ario) de metadatos que lo describe. Cada elemento de esta estructura de metadatos, tiene un nombre, valor y un conjunto de elementos hijos del mismo tipo. Esta estructura permite manejar metadatos definidos en formato LOM y extensiones realizadas sobre esta. Un ODA tiene cuatro conjuntos de metadatos que clasifican esta información de acuerdo al origen desde donde es obtenida: 1. MD-Fuente: metadatos disponibles a nivel de cada fuente o recurso. Se refiere a la información asociada al archivo, como autor, fecha de creación, etc. En el caso de un paquete SCORM, también se refiere a los metadatos disponibles en el archivo manifest; entre estos, se distingue tres niveles: globales a todo el paquete, asociados a los recursos y los que aplican específicamente a un archivo contenido en un recurso. 2. MD-Generales: son generados automáticamente por el Sistema y contienen información sobre el contenido del documento, como el idioma. 3. MD-Específicos: generados automáticamente y específicos a un tipo de componente pedagógico. Pueden existir diferentes tipos de metadatos específicos para cada tipo de componente pedagógico (ejercicios, ejemplos, definiciones, etc.). Por ejemplo, nivel de interactividad puede ser aplicado a un ejercicio pero no a una definición, tiempo de lectura puede ser relevante para una definición o ejemplo, pero tal vez no para un ejercicio. 4. MD-Externos: se añaden en forma manual por el usuario del Sistema. Se asocian a todos los ODAs generados

ISSN 1932-8540 © IEEE

MOTZ, BADELL, BARROSA Y SUM: LA EXTRACCIÓN DE OBJETOS DE APRENDIZAJE CON METADATOS...

Fig. 2. Clasificación de los metadatos de un ODA.

durante la ejecución, y para estos, se debe proporcionar su nombre y valor. Esta clasificación de los metadatos permite mantener en los ODAs toda la información disponible al momento de realizar la extracción, en contrapartida con integrarla utilizando alguna estrategia para resolver automáticamente los conflictos encontrados. Sin embargo, hay una excepción con los metadatos MD-Fuente; cuando la fuente es un paquete SCORM se obtienen los mismos integrando los tres niveles de metadatos que este puede contener (generales del SCORM, a nivel de recursos y a nivel de cada recurso). El algoritmo asigna mayor prioridad a los metadatos más “cercanos” al recurso, complementando estos con el nivel superior. Es decir, en caso de conflicto, se mantiene el valor del nivel más bajo, y donde no exista un metadato se lo toma del nivel inmediato superior si está disponible en él. Por lo tanto, se realiza una integración desde lo más general a lo más específico, manteniendo lo específico en caso de conflicto. En la Figura 2 se muestra un diagrama con la clasificación de las cuatro agrupaciones de metadatos definidos previamente. La Figura 2 representa el texto de un documento fuente que pertenece al paquete SCORM, y a su derecha un ODA que contiene un segmento de dicho texto (recuadro negro), que se corresponde a uno de los componentes pedagógicos buscados. Es de especial atención desde el punto de vista pedagógico la categoría Educational de LOM que traen los Objetos de Aprendizaje empaquetados en el Standard SCORM. Dentro de la categoría Educational se encuentra el metadato Learning Resource Type, donde distinguimos a los siguientes tipos: • Gráfico: diagram, graph, slide, figure. • Texto: exercise, simulation, questionnaire, index, table, narrative text, exam, experiment, problem statement, self assessment, lecture, definition, example, FAQ, theorem, activity, conclusion, demonstration, objective, midterm examination. Además se agregan los tipos que son significativos para la organización del curso: notice board (cartelera), time-table (horarios), program (programa), scheduler (cronograma), automatic receiver (entrega de tareas online). Para los mails, foros y newsgroup se usa el formato VCARD.

51

En la Tabla se indican los Componentes Pedagógicos, y Metadatos Específicos implementados en el prototipo actual del Sistema Looking4LO. Se extrae un tipo de metadato específico para cada uno de los componentes pedagógicos implementados, y un tipo de metadato general, que aplica a todos. La elección de estos metadatos para el prototipo fue arbitraria, ya que se buscó mostrar la utilidad de la clasificación de metadatos específicos y generales, e implementar su extracción para demostrar su factibilidad. Extender y/o incorporar nuevos metadatos generales/específicos implica implementar nuevas reglas. El metadato específico tiempo de lectura aplica por ejemplo al componente pedagógico definición, y es una estimación del tiempo que requiere leer el contenido del ODA. Se calcula contabilizando la cantidad de palabras del contenido del ODA, dividido por una constante. El metadato específico tiene imagen aplica por ejemplo al componente pedagógico ejemplo, y asocia un valor booleano, que es verdadero en caso que el ODA contenga una imagen o figura como parte de su contenido, falso en caso contrario. Este último metadato se implementa en forma parcial ya que el prototipo solo extrae texto, pero se identifica si dentro del texto original se encuentra una imagen. TABLA I COMPONENTES PEDAGÓGICOS Y METADATOS ESPECÍFICOS EXTRAÍBLES

Componente Pedagógico Definición Ejemplo Ejercicio

Metadatos Específicos tiempo de lectura tiene imagen nivel de interactividad

El metadato específico nivel de interactividad aplica por ejemplo al componente pedagógico ejercicio, y asocia un valor entero al ODA. Este valor depende de si el ejercicio debe enviarse por email, a un foro, grupo de noticias o no se requiere ninguna de estas actividades para su resolución. En la ¡Error! No se encuentra el origen de la referencia. se muestra el valor asociado al nivel de interactividad según el medio de contacto, siendo 1 el valor más bajo y 10 el máximo. En caso de no haber un medio de contacto en el contenido del ejercicio, el valor asignado es cero. Se extraen además metadatos generales, como ser Autor, que corresponde al autor del documento. Estos metadatos generales aplican a todos los ODAs que se extraen y se buscan a nivel de todo el documento y no solamente en el contenido de un tipo de componente pedagógico particular. Cuando se identifica el ó los autores de un documento, se extrae también el correo electrónico y página web de cada autor en caso de que esta información esté disponible junto al nombre del autor. TABLA II NIVEL DE INTERACTIVIDAD

Medio de contacto Email News Foro

ISSN 1932-8540 © IEEE

Valor de interactividad (1-10) 5 8 9

52

IEEE-RITA Vol. 5, Núm. 2, May. 2010

Fig. 3. Arquitectura del prototipo.

III. ARQUITECTURA GENERAL DEL SISTEMA LOOKING4LO En la Figura 3 se muestra el diagrama de la arquitectura del prototipo del sistema Looking4LO. Las entradas al Sistema son recibidas por el Controlador, que identifica el tipo de cada documento a analizar, y lo delega al wrapper (empaquetador) correspondiente junto con el resto de los parámetros de entrada. Los tipos de fuentes que soporta el prototipo son: PDF, paquetes SCORM, páginas HTML y documentos de texto. La salida de estos wrappers son ODAs enriquecidos con metadatos los cuales son recibidos por el Empaquetador, que persiste o presenta esta información en un formato particular. En el prototipo se persiste la información en paquetes SCORM y además se visualiza en la interfaz gráfica del prototipo (sitio web). El prototipo permite sustituir wrappers existentes por otros, al igual que incorporar nuevos wrappers siempre y cuando éstos implementen las interfaces correspondientes para ser integrados al sistema. Como se muestra en la Figura 3 el wrapper SCORM interactúa con los otros wrappers, esto se debe a que el paquete SCORM contiene archivos que son fuentes de información. Esta interacción no está acoplada, pudiéndose comunicar el wrapper SCORM con otros wrappers de otro tipo de fuente o cambiando wrappers existentes según se mencionó en el párrafo anterior.

se especifica por ontologías livianas. La Figura 4 muestra la arquitectura del módulo extractor. El Módulo Extractor trabaja en dos niveles, un primer nivel donde se especifican los tipos de elementos que se quieren extraer. En este nivel, pueden clasificar los siguientes tipos de elementos: definición, ejercicio, ejemplo, etc. Para la descripción de estos elementos se utiliza la ontología de cursos diseñada en el proyecto Red Educa [11]. En el segundo nivel se identifican los metadatos que acompañan a cada elemento del primer nivel, que deben estar identificados en las características del diseño pedagógico que se va a utilizar. En este nivel pueden encontrarse atributos como: nivel de interactividad, estilo de aprendizaje al que se apunta (holístico, analítico, visual, textual, etc.). En una primera versión se trabajó con las características del diseño pedagógico escrito en reglas de negocio usando el motor de reglas Drools [13]. Drools (conocido también como JBoss Rules) es un motor de Reglas de Negocio implementado totalmente en Java. Sin embargo, en la segunda versión del prototipo se trabajó con GATE [14], General Architecture for Text Engineering, que es una plataforma que permite integrar componentes de Procesamiento de Lenguaje Natural para construir aplicaciones. GATE permite procesar los siguientes formatos de documentos: TXT, HTML, SGML, RTF, XML, Email, PDF y WORD. En GATE un documento es modelado como su contenido más un conjunto de anotaciones. Una anotación es información adicional sobre un fragmento particular del contenido del documento. Cada anotación tiene los siguientes ítems: • identificador: forma de identificar la anotación. • tipo de anotación: determina las propiedades que se registran de la anotación. • nodo inicio: posición del documento donde comienza la anotación. • offset inicio: posición relativa del nodo inicio según el inicio del documento.

IV. MOTOR DE EXTRACCIÓN DE ODAS El módulo Extractor es el encargado de identificar los ODAs desde materiales digitales (fuentes de información) y colocarles los metadatos adecuados respecto a las características deseadas para un diseño pedagógico. Las fuentes de información sobre las que nos concentramos actualmente son páginas html y paquetes SCORM. En el caso de paquetes SCORM, puede suceder que todo un curso sea el ODA y el interés es extraer ODAs de granularidad más fina como pueden ser ejemplo, ejercicios, definiciones, teoremas, etc. Otras de las entradas al Módulo Extractor es la especificación de las características del diseño pedagógico en que los ODAs extraídos serán utilizados y la terminología del dominio específico o sea la temática sobre la que se está trabajando (ej. Matemáticas, Historia, etc.). Esta terminología

Fig. 4. Módulo Extractor.

ISSN 1932-8540 © IEEE

MOTZ, BADELL, BARROSA Y SUM: LA EXTRACCIÓN DE OBJETOS DE APRENDIZAJE CON METADATOS...

53

se obtiene la anotación generada por el Sentence Splitter donde se indica el tipo de anotación, el nodo inicio y nodo fin con sus respectivos offsets. Esta anotación delimita el comienzo y fin de una oración en el documento (Figura 6).

Fig. 5. Pipeline de Recursos de Procesamiento.

• nodo fin: posición del documento donde finaliza la anotación. • offset fin: posición relativa del nodo fin según el inicio del documento. • conjunto de propiedades: lista donde los elementos son de la forma (nomPropiedad, valor) donde nomPropiedad indica el nombre de una propiedad de la anotación y valor el contenido de esa propiedad para esa anotación. Las anotaciones son generadas y/o modificadas por los distintos Recursos de Procesamiento (tokenizadores, etiquetadores léxicos, separadores de oraciones, reconocedores de entidades, entre otros) definidos en GATE. Para generar estas anotaciones, un Recurso de Procesamiento tiene como entrada el documento a procesar (representación interna del documento) y otros recursos que necesite para llevar a cabo sus anotaciones. Como salida se tiene un documento enriquecido con nuevas anotaciones y/o modificadas. Dado que un Recurso de Procesamiento para realizar sus anotaciones puede necesitar anotaciones definidas por otros Recursos de Procesamiento, GATE permite “conectar” los recursos en un pipeline (Figura 5), donde la salida de un recurso se convierte en la entrada de otro. En este pipeline, el primer Recurso de Procesamiento es el Tokeniser, el cual tiene como objetivo descomponer un texto en “unidades de texto”, tales como, números, signos de puntuación y cadenas de caracteres. Este recurso genera dos tipos de anotaciones, las cuales se denominan Token y SpaceToken. A continuación, el Sentence Splitter delimita las oraciones, generando anotaciones del tipo Sentence. Luego el POS Tagger identifica la categoría gramatical para cada token identificado por el Tokeniser. El Gazetteer identifica los conceptos que se encuentran en el documento en base a una ontología que es recibida como parámetro. En este contexto, la ontología modela el área temática sobre la cual se quieren extraer ODAs, es decir, el Gazetteer permite identificar sobre qué trata un fragmento del documento. Por último, el Transducer, ejecuta un conjunto de reglas contextuales para identificar los distintos componentes pedagógicos a extraer junto a sus metadatos. Como salida de este pipeline, se tiene un conjunto de anotaciones sobre el documento, las cuales son procesadas para generar los ODAs. Considerando por ejemplo el siguiente texto: “Una tabla dispersión es un arreglo que contiene el producto cartesiano (clave, información) de los elementos del diccionario.”

Fig. 6. Anotación generada por el Sentence Splitter.

El recurso Transducer ejecuta un conjunto de reglas definidas en jape. Las anotaciones generadas por este recurso son las que identifican los componentes pedagógicos y metadatos sobre el documento. El Transducer para identificar los componentes pedagógicos y metadatos, procesa las anotaciones generadas por los otros recursos al momento de ejecutar las reglas. Luego la oración es extraída como un objeto de aprendizaje de tipo “definición” a través de la aplicación de las reglas (por ejemplo las que siguen especifican una definición): (1)

[] + + “es” + + []

(2)

+ + “como” + + [“que” + ]

A continuación se presenta un ejemplo de extracción de ODAs por el Módulo Extractor del sistema Looking4LO. Como fuente se dispone de un paquete SCORM que fue generado con Atutor, sobre el área temática de la Verificación de Software (Modelo de Domino). El tipo de ODA que se desea extraer son “definiciones”. Se analiza parte de la página HTML, fuente de información sobre la que se desea extraer los ODAs (Figura 7). Usando las reglas gramaticales que dispone el sistema actualmente, se identifican y extraen definiciones como los indicados en el 1ero., 2do., 4to., y 5to. recuadro del ejemplo. Las definiciones que se encuentran en el tercer y sexto recuadrado del ejemplo presentan problemas. La definición del recuadro tercero no es extraída con las reglas gramaticales actuales pero es fácil extender las reglas para su extracción. La frase que se encuentra en el sexto recuadrado, cumple con una de las reglas gramaticales con las que se dispone, pero no es una definición. Descartar frases como la anterior es un desafío a resolver. La generación de los metadatos para las definiciones que se extraen corresponden en ambos casos para la característica Estilos de Aprendizaje: “Recurso Textual” ya que no se identificó ningún archivo con imágenes o video asociado a las definiciones y como nivel de interactividad le corresponde el valor cero. Un tema importante es seleccionar la estrategia de delimitación de ODAs al momento de realizar la extracción. En el prototipo, la estrategia implementada para delimitar ODAs es si el siguiente ODA pertenece al mismo párrafo se marca el fin de un ODA según el inicio del siguiente, en caso

ISSN 1932-8540 © IEEE

54

IEEE-RITA Vol. 5, Núm. 2, May. 2010

contrario, el fin del ODA será el fin de párrafo al que pertenece su contenido.

Fig. 7. Texto analizado.

V. CONCLUSIONES Y TRABAJOS FUTUROS En este trabajo presentamos la arquitectura general de una herramienta para la extracción de objetos digitales de aprendizaje desde materiales digitales. Los objetos de aprendizaje extraídos de forma semi-automática por el sistema Looking4LO poseen además los metadatos que identifican varias de sus propiedades relativas al diseño pedagógico. La necesidad de contar con objetos de aprendizaje que posean metadatos es un tema ampliamente tratado en la literatura y son reconocidas las dificultades de la generación manual de los metadatos [15,16]. Aún cuando los metadatos sean generados por expertos, la consistencia de los mismos es un problema, tanto entre los diferentes expertos como entre un mismo experto frente a diferentes objetos de aprendizaje, describes como la consistencia de los metadatos depende de diferentes factores entre ellos el vocabulario usado (lista de términos u

ontologías). Además, los docentes que generan los materiales generalmente no desean perder tiempo en una actividad de generar metadatos que directamente no les ofrece ningún beneficio. Una solución a estos problemas es el uso de herramientas que apoyen la generación semi-automática de metadatos. Greenberg et al. [17] Afirman que la generación semiautomática de metadatos es menos costosa, más eficiente y más consistente. En Greenberg et al.[18] se distinguen entre los procesos de extracción y de recolección de metadatos. El proceso de extracción corresponde a la creación automática de metadatos basada en el procesamiento del contenido del documento, el proceso de recolección de metadatos corresponde a coleccionar los metadatos ya especificados (por ejemplo, etiquetas en HTML). Para nuestro sistema Looking4LO los distintos procesos de generación de metadatos no son importantes ya que no nos enfocamos en el procedimiento seguido sino en los metadatos obtenidos. Varios trabajos han abordado la generación automática de metadatos para objetos de aprendizaje. Ejemplos representativos son los trabajos de Ochoa et al. [19], Saini et al. [20] y [21], sin embargo estos abordajes no consideran extender los metadatos con propiedades descriptivas del modelo pedagógico al que adhieren los objetos de aprendizaje. La necesidad de contar con objetos de aprendizaje que posean metadatos útiles para sus evaluaciones desde el punto de vista pedagógico es un desafío abierto. Consideramos que nuestro sistema Looking4LO aporta en este sentido, ya que considera el diseño pedagógico para la generación de metadatos adecuados durante el proceso de extracción de los objetos de aprendizaje. En [22] se presenta una primera experiencia de uso de esta herramienta en la extracción de objetos de aprendizaje. El motor de extracción implementado permite configurar para la extracción el conjunto de Componentes Pedagógicos que se quieren extraer junto con sus Metadatos Específicos (por defecto el motor de extracción evalúa todos los Componentes Pedagógicos que tiene definidos junto a todos sus metadatos). Luego de realizada la etapa de extracción de los ODA con metadatos correspondientes al diseño pedagógico, corresponde anotar los atributos de Calidad que se quieren evaluar sobre los ODAs extraídos. Actualmente este módulo es un trabajo en desarrollo bajo el proyecto JARDIN-LACCIR [12]. La aspiración es que este proceso se realice en forma automática. Para este fin se está utilizando el mismo enfoque que el usado en los trabajos de Oliver y Conole [23] y de Gonzalez et al. [24]. A modo de ejemplo, algunos posibles factores de calidad generales a evaluar sobre los materiales son: frescura, semántica, sintaxis, precisión, reputación del origen de la fuente. AGRADECIMIENTOS Los autores agradecen a los revisores por los comentarios que ayudaron a mejorar este artículo y al Programa Iberoamericano de Ciencia y Tecnología para el desarrollo (CYTED) por su soporte para este trabajo mediante el

ISSN 1932-8540 © IEEE

MOTZ, BADELL, BARROSA Y SUM: LA EXTRACCIÓN DE OBJETOS DE APRENDIZAJE CON METADATOS... proyecto CYTED-508AC0341 “SOLITE- SOFTWARE LIBRE EN TELEFORMACIÓN” y al programa Latin American and Caribbean Collaborative ICT Research (LACCIR)- Proyecto JARDIN- LACCIR-RFP2007.

Regina Motz es Doctora en Computación por la Technische Universität Darmstadt, Alemania (2004). Master en Informática por la Universidad Federal de Pernambuco, Brasil, (1990). Ingeniera de Sistemas en Computación por la Universidad de la República, Uruguay (1988). Actualmente se desempeña como Profesor Titular del Instituto de Computación de la Facultad de Ingeniería de la Universidad de la República y como coordinadora del grupo de investigación Sistemas de Información del

REFERENCIAS [1] [2] [3] [4]

[5] [6] [7] [8] [9]

[10]

[11]

[12] [13] [14] [15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23] [24]

APROA Comunidad. ¿Qué es un Objeto de Aprendizaje. Disponible: http://www.aproa.cl/1116/propertyvalue-5538.html. Acceso abril 2010. APROA Comunidad. FAQ: Sobre Objetos de Aprendizaje. Disponible: http://www.aproa.cl/1116/article-68380.html. Acceso abril 2010. IEEE Learning Technology Standards Committee. http://ieeeltsc.org/. Acceso abril 2010. D. A Wiley. The Instructional Use of Learning Objects: Version online. Disponible: http://reusability.org/read/chapters/wiley.doc. Acceso abril 2010. ATutor. http://www.atutor.ca. Acceso abril 2010. Moodle. http://www.moodle.org.Acceso abril 2010. SCORM Sharable Content Object Reference Model. http://www.adlnet.gov/scorm/index.aspx. Acceso abril 2010. IEEE-LOM. http://ltsc.ieee.org/wg12/. Acceso abril 2010. R. Motz, A. Casali, C. Deco y C. Bender. Hacia un Asistente para la Adecuación de cursos a Modelos Pedagogicos. En V Congreso de Tecnología en Educación y Educación en Tecnología, 2010. R. Sosa, A. Rodríguez, R. Motz. Adquiriendo Metadatos para Objetos de Aprendizaje En First Latin American Conference on Learning Objects (LACLO 2006), October 23 - 27, Guayaquil, Ecuador, 2006. Proyecto Red Educa. http://www.fing.edu.uy/inco/grupos/csi/esp/Proyectos/Educa/nuevoSitio/ index.html. Acceso abril 2010. Proyecto JARDIN-LACCIR. http://www.laccir.org. Acceso abril 2010. Drools. http://labs.jboss.com/drools/. Acceso abril 2010. GATE, General Architecture for Text Engineering. http://gate.ac.uk K. Cardinaels, M. Meire, y E. Duval. Automating Metadata Generation: the Simple Indexing Interface. En Proceedings of the 14th International World Wide Web Conference (WWW2005), 548-556, 2005. S. Kabel, R. de Hoog, B. Wielinga, y A. Anjewierden. Indexing learning objects: Vocabularies and empirical investigation of consistency. Journal of Educational Multimedia and Hypermedia, 13(4):405-425, October 2004. J. Greenberg, K. Spurgin, y A. Crystal. Final report for the amega (automatic metadata generation applications) project. Technical report, School of Information and Library Science, 2005. J. Greenberg, K. Spurgin, y A. Crystal. Functionalities for automatic metadata generation applications: a survey of metadata experts' opinions. Int. J. Metadata, Semantics and Ontologies, 1(1):3-20, 2006. X. Ochoa, K. Cardinaels, M. Meire, E. Duval. Methodological and Technological Frameworks for the Automatic Indexation of Learning Management Systems Content into Learning Object Repositories. Proceedings of the ED-MEDIA 2005 World Conference on Educational Multimedia, Hypermedia, and Telecommunications, 2005. P.S. Saini, M. Ronchetti, y D. Sona. Automatic generation of metadata for learning objects. In Sixth International Conference on Advanced Learning Technologies, 275-279, 2006. K Cardinaels. A Dynamic Learning Object Life Cycle and its Implications for Automatic Metadata Generation. PhD Thesis, Katholieke Universiteit Leuven Faculteit Ingenieurswetenschappen Departement Computerwetenschappen, 2007. C. Badell, R. Motz, R. Sum, M. Barrosa, G. Diaz y M. Castro. LooKIng4LO: Sistema Informático para la extracción automática de Objetos de Aprendizaje. V Congreso Iberoamericano de Telemática (CITA 2009). M. Oliver y G. Conole, Assessing and Enhancing Quality using Toolkits. Quality Assurance in Education. 8(1):32-37, 2000. R. E. Ruiz, J. Muñoz y F. Álvarez. Formato para la determinación de la Calidad en los Objetos de Aprendizaje. LACLO 2006, 1ra. Conferencia Latinoamericana de Objetos de Aprendizaje, Guayaquil, Octubre 23-27, 2006.

55

mismo instituto.

ISSN 1932-8540 © IEEE

Claudia Badell es Analista en Computación por la Universidad de la República (2008), Uruguay. Actualmente se desempeña como Ayudante del Instituto de Computación de la Facultad de Ingeniería de la Universidad de la República. A su vez, es coordinadora del equipo de testing en Timba Software Corporation.

Martín Barrosa es Analista en Computación por la Universidad de la República, Uruguay (2006). Estudiante avanzado de la carrera Ingeniería de Sistemas en Computación por la Universidad de la República, Uruguay. Actualmente se desempeña como Analyst/Developer en el HSBC.

Rodolfo Sum es Ingeniero de Sistemas en Computación por la Universidad de la República, Uruguay (2009). Actualmente se desempeña como Ayudante del Instituto de Computación de la Facultad de Ingeniería de la Universidad de la República en proyectos del área de educación a distancia.