Usabilidad en el Desarrollo Web Dirigido por Modelos: Resultados de un Experimento Controlado Adrián Fernández, Silvia Abrahão, Emilio Insfran Grupo de investigación ISSI Depto. de Sistemas Informáticos y Computación. Universidad Politécnica de Valencia Camino de Vera s/n, 46022 Valencia. {afernandez, sabrahao, einsfran}@dsic.upv.es
Resumen Las aplicaciones Web deben ser usables para ser aceptadas por los usuarios y garantizar su éxito. Este hecho ha motivado la aparición de una gran variedad de métodos de evaluación de usabilidad Web, sin embargo, existe una carencia de métodos validados empíricamente que puedan integrarse adecuadamente en fases tempranas del proceso de desarrollo Web. Motivados por este hecho se propuso un proceso de evaluación de usabilidad Web (WUEP: Web Usability Evaluation Process) con la capacidad de ser instanciado e integrado a distintas metodologías de desarrollo Web dirigido por modelos. En este artículo, se presenta la validación empírica de WUEP mediante un experimento piloto diseñado para comparar su efectividad y eficiencia frente al método de evaluación heurística de Nielsen. Los resultados obtenidos del experimento muestran que WUEP ha resultado más efectivo y eficiente en la detección de problemas de usabilidad en artefactos obtenidos por un método de desarrollo Web dirigido por modelos. Palabras clave: Evaluación usabilidad, Desarrollo Web dirigido por modelos, Ingeniería del software empírica.
1. Introducción Las aplicaciones Web son actualmente un elemento esencial e indispensable en toda actividad empresarial, intercambio de información y redes sociales [24]. Para que una aplicación Web tenga éxito no es suficiente con satisfacer todos los requisitos funcionales que se esperan de ella. La facilidad o dificultad que los usuarios experimenten con este tipo de aplicaciones determinará en gran medida el éxito de las mismas. Por este motivo, la usabilidad es
considerada como uno de los factores de calidad más importantes en las aplicaciones Web junto a la fiabilidad y la seguridad [25]. El reto de desarrollar aplicaciones Web más usables ha motivado la aparición de una gran variedad de métodos y herramientas para hacer frente a la usabilidad Web. Los métodos de evaluación de usabilidad pueden ser clasificados básicamente en dos tipos: métodos empíricos y métodos de inspección. En los métodos empíricos, los problemas de usabilidad son detectados mediante observación e interacción con los usuarios, mientras que éstos realizan tareas o proveen sugerencias acerca del diseño y facilidad de uso del interfaz de usuario final. En cambio, en los métodos de inspección, los problemas son descubiertos por los evaluadores, normalmente expertos. Uno de los ejemplos más representativos de estos métodos es la evaluación heurística propuesta por Nielsen [23]. Los resultados de una revisión sistemática acerca del empleo de métodos de evaluación de usabilidad Web, que fue llevada a cabo anteriormente [14], revelaron entre otros hallazgos, la carencia de métodos de evaluación de usabilidad que puedan integrarse adecuadamente en los procesos de desarrollo Web, especialmente en fases tempranas de dicho proceso, y la necesidad de experimentos que validen empíricamente los métodos propuestos comparándolos con otros para demostrar su efectividad, eficiencia, facilidad de uso, etc. Motivados por los resultados de esta revisión, en anteriores trabajos [11][12] se propuso un proceso de evaluación de usabilidad Web (WUEP: Web Usability Evaluation Process) con la capacidad de ser instanciado e integrado a distintas metodologías de desarrollo Web dirigido por modelos. En los procesos de desarrollo Web que siguen este paradigma, se hace uso de artefactos intermedios (modelos) que definen las
distintas dimensiones de una aplicación Web independientemente de los detalles específicos de la plataforma tecnológica destino. A estos modelos se les aplican reglas de transformación para obtener modelos específicos de la plataforma tecnológica, a partir de los cuales se puede generar automáticamente el código fuente de la aplicación Web final. En este artículo se presenta la validación empírica de WUEP mediante un experimento piloto diseñado para comparar su efectividad y eficiencia frente al método de evaluación heurística de Nielsen [23]. La elección de este método vino motivada por ser uno de los métodos de inspección más conocidos y empleados actualmente en evaluaciones de usabilidad en el ámbito industrial [20][29]. Este artículo está organizado como sigue. La sección 2 presenta los trabajos relacionados acerca de métodos de evaluación de usabilidad para el desarrollo dirigido por modelos y en su evaluación empírica. La sección 3 introduce brevemente los métodos de evaluación de usabilidad que participan en el experimento. La sección 4 describe en detalle el experimento realizado. La sección 5 presenta y analiza los resultados obtenidos del experimento. La sección 6 analiza las amenazas a la validez del experimento. Por último, la sección 7 presenta las conclusiones y trabajos futuros.
2. Trabajos relacionados Desde finales de 1980, los métodos de inspección de usabilidad han surgido como una alternativa rentable a los métodos empíricos para identificar problemas de usabilidad en sistemas interactivos [8]. En la actualidad, los métodos de inspección de usabilidad son ampliamente utilizados, en particular: la evaluación heurística y el paseo cognitivo (Cognitive Walkthrough) [29]. Se han propuesto diversos trabajos los cuales extienden los métodos de inspección citados anteriormente para adecuar y mejorar su uso en aplicaciones Web, como por ejemplo: Blackmon et al. [5], Bolchini y Garzotto [6], y Conte et al. [9]. En Blackmon et al. [5] se presenta el método Cognitive Walkthrough for the Web (CWW) que consiste en evaluar la facilidad de navegación aplicando algoritmos semánticos. Los resultados de un experimento realizado en ese mismo estudio
mostraron que CWW resultó más efectivo que el método paseo cognitivo (Cognitive Walkthrough) en el cual se basa. En Bolchini y Garzotto [6] se presenta un estudio empírico que evalúa la calidad del método de inspección de usabilidad MiLE+. El método no se comparó frente a otros pero se evaluaron atributos tales como rendimiento, eficiencia, coste-efectividad y facilidad de aprendizaje del método según el número y nivel de experiencia de los evaluadores. En Conte et al. [9] se presenta el método Web Design Perspectives (WDP) que define heurísticas según las dimensiones de una aplicación Web (estructura, navegación y presentación). Los resultados de un experimento realizado mostraron que WPD resultó más efectivo que el método de evaluación heurística de Nielsen. Otros trabajos presentan métodos de inspección que se centran en la evaluación de la usabilidad Web a través del cálculo de métricas: Ivory [17] y Olsina y Rossi [26]. En Ivory [17] se presenta la metodología WebTango que permite obtener medidas cuantitativas, a partir de métricas validadas empíricamente, referentes a la interfaces de usuario final para construir modelos predictivos que permitan evaluar otras interfaces de usuario. Este trabajo presenta un avance respecto a los anteriores ya que las heurísticas fueron operacionalizadas en métricas. Estas métricas fueron validadas empíricamente aunque sólo se aplican al interfaz Web final. En Olsina y Rossi [26] se presenta la metodología WebQEM que evalúa cuantitativamente atributos de usabilidad provenientes de la ISO 9126-1 [15] y las necesidades del usuario, permitiendo agregar los resultados para componer indicadores de usabilidad. Sin embargo, WebQEM sólo se aplica a aplicaciones Web operativas. Aunque la mayoría de los trabajos anteriores presentan estudios empíricos acerca del método propuesto, las evaluaciones de usabilidad que se llevan a cabo están orientadas hacia el desarrollo Web tradicional, por lo que tienen lugar principalmente en las fases más tardías del proceso de desarrollo Web. Es ampliamente aceptado el hecho de que las evaluaciones de usabilidad han de realizarse de forma temprana e iterativamente en todo el proceso de desarrollo [19]. El desarrollo Web
dirigido por modelos ofrece un contexto adecuado para ello, ya que los modelos que se aplican en todas las etapas pueden ser evaluados, permitiendo una evaluación temprana a lo largo de todo el proceso de desarrollo Web. En esta reciente línea de investigación han surgido trabajos que realizan validaciones empíricas referentes a los métodos de evaluación de usabilidad que pueden ser aplicados en este contexto. Algunos de estos trabajos son Abrahão et al. [1], y Panach et al.[28]. En Abrahão et al. [1] se presenta un estudio empírico en el cual se evaluaron interfaces de usuario generadas automáticamente por una herramienta basada en el desarrollo dirigido por modelos. Se emplearon los métodos Action Analysis [27] y el test con usuarios (user testing) con el propósito de contrastar qué tipos de problemas de usabilidad son detectados en estas interfaces y cuáles son sus implicaciones para las transformaciones de modelos y los modelos independientes de plataforma. En Panach et al. [28] se extendió el modelo de usabilidad, propuesto en Abrahão e Insfran [2], que descompone la usabilidad en atributos medibles aplicables a productos software obtenidos por un proceso basado en el desarrollo dirigido por modelos. El objetivo fue dotar de métricas a un subconjunto de los atributos del modelo y contrastar su correlación con la percepción de esos atributos por el usuario final. El hecho de no existir, hasta donde conocemos, un proceso genérico de evaluación de usabilidad con la capacidad de ser instanciado e integrado a distintas metodologías de desarrollo Web dirigido por modelos, motivó la propuesta de WUEP. En [11] se presentó la idea principal acerca de la integración de evaluaciones de usabilidad en procesos de desarrollo Web dirigidos por modelos y la primera versión de un modelo de usabilidad Web en el que se basa el método, mientras que en [12] se presentó una versión preliminar del proceso de evaluación de usabilidad. Sin embargo, hasta ahora no se había realizado ningún experimento para obtener evidencia empírica acerca de la validez de la propuesta y de cómo sería posible mejorarla.
3. Métodos de inspección evaluados A continuación se describen brevemente los métodos que fueron usados en el experimento:
WUEP, nuestra propuesta; y HE (Heuristic Evaluation), el método de Nielsen [23]. 3.1. Web Usability Evaluation Process (WUEP) Uno de los principales objetivos al proponer WUEP como método de evaluación para el desarrollo Web dirigido por modelos fue minimizar la subjetividad de los métodos de inspección actuales a través de la definición de un proceso de evaluación de usabilidad con guías para el evaluador y en la operacionalización de heurísticas y criterios ergonómicos del interfaz de usuario [4] en métricas concretas. De esta forma, WUEP extiende y adapta el proceso de evaluación de calidad propuesto en la ISO 25000 SQuaRE [16] con el propósito de integrar evaluaciones de usabilidad en procesos de desarrollo Web dirigido por modelos, empleando para esto un modelo de usabilidad Web [11] como artefacto principal. El modelo de usabilidad Web descompone el concepto de usabilidad en sub-características, y estas a su vez en otras sub-características y atributos medibles. A los atributos medibles se les asocia métricas genéricas, que deberán ser operacionalizadas para ser aplicables en distintos niveles de abstracción (modelos independientes de plataforma, modelos específicos de plataforma, e interfaz de usuario final) para distintos métodos de desarrollo Web como por ejemplo: OO-H [13] o WebML [7]. En WUEP participan dos roles: el diseñador de la evaluación y el evaluador. El diseñador de la evaluación realiza las tres primeras fases: 1) establecimiento de los requisitos de la evaluación, 2) especificación de la evaluación, 3) diseño de la evaluación, mientras que el evaluador realiza la cuarta y última fase: 4) ejecución de la evaluación. En el establecimiento de los requisitos de evaluación se delimita el alcance de la evaluación determinando la cantidad y el tipo de aplicaciones Web a evaluar, el método de desarrollo Web empleado, y el contexto donde se usará la aplicación Web. Esta información sirve de entrada para seleccionar qué atributos de usabilidad pertenecientes al modelo de usabilidad Web son los más relevantes. En la especificación de la evaluación se define el protocolo de evaluación donde: se determinarán qué artefactos Web se evaluarán (modelos independientes de plataforma, modelos
específicos de plataforma, o interfaces de usuario final); se obtendrán qué métricas están asociadas a los atributos seleccionados y se operacionalizaran en base a los artefactos Web del método concreto de desarrollo Web, es decir, se establece una correspondencia entre los elementos que participan en la descripción genérica de la métrica y las primitivas de modelado (o elementos) de los artefactos Web. Por último, se establecen umbrales para los valores obtenidos que permitan descubrir problemas de usabilidad (leves, medios o críticos) y se define la plantilla que reportará dichos problemas. En el diseño de la evaluación se define el plan de evaluación, el cual detalla aspectos técnicos de la evaluación como las restricciones que pueden condicionar la evaluación (por ej., restricciones económicas o tecnológicas, etc.), y la agenda prevista de actividades para la realización de la evaluación por parte del evaluador final. Por último, en la ejecución de la evaluación, el evaluador recibe las instrucciones y el material necesario para realizar la evaluación: los artefactos Web, el subconjunto de atributos y métricas operacionalizadas para ser aplicadas en cada tipo de artefacto y la plantilla para reportar los problemas de usabilidad según los umbrales establecidos para valores obtenidos de cada métrica. Para más información sobre WUEP consultar [11] y [12] 3.2. Evaluación Heurística (HE) El método de evaluación heurística (HE), propuesto inicialmente por Nielsen [22][23], es un método de inspección para evaluar de forma rápida y empleando pocos recursos la interfaz de usuario de una aplicación. El proceso requiere que un grupo de evaluadores examine la interfaz, y juzgue su conformidad con unos principios de usabilidad reconocidos, llamados heurísticas. El objetivo es la identificación de los problemas de usabilidad de modo que puedan abordarse como parte de un proceso de diseño iterativo. El método provee diez heurísticas que pretenden cubrir que aspectos deberían estar presentes en la aplicación Web para garantizar un cierto grado de usabilidad (ej. Visibilidad del estado, consistencia y estándares, etc.) HE es un método muy popular en el dominio del desarrollo Web, ya que requiere pocos recursos en términos económicos, de tiempo y de
experiencia, permitiendo de este modo, que los propios desarrolladores puedan evaluar la usabilidad de sus aplicaciones Web. En HE participan dos roles: el diseñador de la evaluación y el evaluador. El diseñador de la evaluación establece los artefactos Web a evaluar, diseña la plantilla para reportar problemas de usabilidad y planifica las taras referentes a la evaluación; mientras que el evaluador será el encargado de ir aplicando cada heurística al artefacto e ir identificando y reportando los problemas de usabilidad detectados.
4. Experimento piloto La validación empírica del proceso de evaluación de usabilidad Web propuesto (WUEP) fue llevada a cabo mediante un experimento controlado siguiendo las guías propuestas en Wohlin et al. [30] y en Juristo y Moreno [18]. El experimento se describe en detalle en las siguientes subsecciones. 4.1. Objetivo del experimento De acuerdo al paradigma GQM (Goal-QuestionMetric) [3], el objetivo del experimento es: analizar WUEP (Web Usability Evaluation Process) con el propósito de evaluar su eficiencia y efectividad con respecto al método de evaluación heurística (HE) desde el punto de vista de inspectores de usabilidad en el contexto de una inspección de usabilidad de una aplicación Web real llevada a cabo por investigadores. 4.2. Selección del contexto El contexto viene determinado por la selección de la aplicación Web a evaluar, los métodos de evaluación a comparar, y los sujetos que realizarán dicha evaluación. La aplicación Web seleccionada se corresponde con una intranet destinada a la gestión de proyectos Web de una empresa. Esta aplicación, denominada Task Manager, permite entre otras funcionalidades: la gestión de tareas asignadas a programadores, la gestión de informes asociados a las tareas que se realizan diariamente, y la gestión de clientes de la empresa. Task Manager fue desarrollada para una empresa de desarrollo Web situada en Alicante mediante el método de desarrollo Web dirigido por modelos OO-H (Object-Oriented Hypermedia) [13].
OO-H proporciona la semántica y la notación necesaria para especificar interfaces de usuario en el contexto Web. Un aplicación Web se puede modelar mediante tres vistas complementarias: Un modelo de clases que captura el contenido y la estructura estática de la información; un modelo navegacional, basado en un conjunto de diagramas llamados NAD (Navigational Access Diagram) que capturan las propiedades de navegación e interacción para cada perfil de usuario; y un modelo de presentación abstracta, basado en un conjunto de diagramas llamados APD (Abstract Presentation Diagram), cuyas versiones iniciales se obtienen automáticamente a partir de un NAD. Los APD se refinan para capturar los conceptos asociados a la interfaz de usuario final (IUF) y los detalles específicos de presentación. Un compilador de modelos recibe como entrada todos los anteriores modelos permitiendo generar automáticamente el código fuente de la aplicación Web final. En este experimento se seleccionaron los artefactos (NAD, APD e IUF) correspondientes a las dos principales funcionalidades de Task manager (gestión de tareas y gestión de informes) para componer los dos objetos experimentales a evaluar tal y como muestra la Tabla 1. El motivo de esta selección se basa en que ambos objetos experimentales poseen artefactos de similar tamaño y complejidad, haciéndolos comparables. Tabla 1. Objetos experimentales. Objeto Exp.
Funcionalidad
O1
Gestión de Tareas
O2
Gestión de Informes
Artefactos a evaluar NAD-1 APD-1 IUF-1 NAD-2 APD-2 IUF-2
En cuanto a los métodos WUEP y HE, se ha considerado únicamente sus respectivas fases de ejecución. En el caso de WUEP se diseñó una evaluación teniendo en cuenta aquellos atributos de usabilidad que consideramos relevantes en una aplicación Web como la del objeto experimental (ej. navegabilidad, controlabilidad, etc) y operacionalizando las métricas para ser aplicadas en el método OO-H. En el caso de HE se seleccionaron todas las heurísticas que propone el método, sin embargo, ya que el método no está orientado al desarrollo Web dirigido por modelos,
se ofrecieron guías adicionales que permitieran identificar los principios de la heurística con los artefactos Web del objeto experimental. La elección del número de sujetos viene determinada por las conclusiones de trabajos como los de Nielsen y Molich [22], donde se recomienda un número de evaluadores superior a 5 para realizar la evaluación de usabilidad a través de métodos de inspección. De esta forma, para la realización del experimento, se emplearon como sujetos 12 investigadores pertenecientes al Departamento de Sistemas Informáticos y Computación (DSIC) de la Universidad Politécnica de Valencia (UPV). Los 12 sujetos comparten el hecho de ser Ingenieros Informáticos y no tener experiencia en evaluaciones de usabilidad. Ocho de ellos son estudiantes del programa: Doctorado en Informática, mientras que los cuatro restantes son estudiantes del programa: Máster en Ingeniería del Software (ambos programas ofertados por el DSIC). 4.3. Selección de variables Las variables independientes son: el método de evaluación de usabilidad a emplear (WUEP y HE) y el objeto experimental a evaluar (O1 y O2). Mientras que las variables dependientes son: la efectividad y eficiencia de cada método. Ambas variables dependientes son objetivas y se definen como: • Efectividad: ratio entre el número de problemas de usabilidad detectados mediante el método utilizado y el número total de problemas que existen (previamente reconocidos por expertos). • Eficiencia: ratio entre el número de problemas de usabilidad detectados y el tiempo total empleado en la aplicación del método. 4.4. Hipótesis El experimento fue llevado a cabo para verificar las siguientes hipótesis (cada hipótesis nula va acompañada de su hipótesis alternativa): • H1n: No existen diferencias entre la efectividad de WUEP y HE. • H1a: La efectividad de WUEP es diferente a la efectividad de HE. • H2n: No existen diferencias entre la eficiencia de WUEP y HE. • H2a: La eficiencia de WUEP es diferente a la efectividad de HE.
4.5. Diseño experimental El experimento se planificó siguiendo un diseño intra-sujeto balanceado con efecto confundido [10], es decir, cada sujeto aplica ambos métodos en diferente orden y en diferentes objetos experimentales. La tabla 2 muestra los 4 grupos en los que se han dividido los sujetos. Se optó por una división aleatoria debido a que todos los sujetos compartían el mismo nivel de experiencia. Tabla 2. Diseño intra-sujeto del experimento. Grupo 1ª Sesión 2ª Sesión G1 HE en O1 WUEP en O2 G2 WUEP en O1 HE en O2 G3 HE en O2 WUEP en O1 G4 WUEP en O2 HE en O1
De esta forma se pretende minimizar interferencias en la aplicación de los métodos, ya que cada sujeto no repite ni método ni objeto experimental. Mediante la alternancia entre el orden en el que se aplican los métodos y los objetos experimentales en distintos grupos se pretende minimizar, en medida de lo posible, el impacto del efecto de aprendizaje en los resultados. Debido a que los objetos experimentales han sido extraídos de una aplicación Web real, no es posible anticipar todos los problemas existentes en los artefactos a evaluar. Por este motivo, se ha creado un grupo de control constituido por 2 evaluadores independientes con un alto grado de experiencia en evaluaciones de usabilidad y uno de los autores de este artículo. El objetivo fue elaborar una lista de los problemas de usabilidad (mediante un método de evaluación ad-hoc) que será contrastada con los problemas detectados por los sujetos. Además, este grupo de control tiene la función de analizar si los problemas encontrados por los usuarios son falsos positivos (problemas no reales) o se ha reportado un mismo problema más de una vez (problemas replicados). Los desacuerdos entre los evaluadores se resolvieron por consenso. 4.6. Instrumentación Se han definido diferentes documentos con el objetivo de dar soporte al desarrollo del experimento: • Breve documentación sobre el método OO-H para familiarizarse con los artefactos a evaluar, sobre ambos métodos: WUEP y HE,
•
•
•
cada uno junto con ejemplos ilustrativos de su aplicación. Cuatro tipos de formularios para la recogida de datos, para cada una de las combinaciones posibles entre método a aplicar y objeto experimental a evaluar (WUEP-O1, WUEPO2, HE-O1, HE-O2). Cada uno de estos formularios contiene la descripción de los artefactos a evaluar según el objeto experimental correspondiente, y las tareas a realizar en la detección de problemas de usabilidad junto con el informe de problemas de usabilidad a rellenar según el método correspondiente. Dos anexos con información detallada de cada método. El anexo de HE recoge la definición de las heurísticas, mientras que el anexo de WUEP recoge la definición del subconjunto de métricas a aplicar. Un cuestionario con tres preguntas abiertas relacionadas con sugerencias para mejorar el método, tanto para WUEP como HE.
Todos los documentos descritos anteriormente están disponibles y pueden ser consultados en el siguiente enlace: http://users.dsic.upv.es/ ~afernandez/JISBD2010/experimento.html. 4.7. Preparación y ejecución Por motivos referentes a la disponibilidad de los sujetos y optimización de recursos, el experimento se planificó para ser realizado en dos días. Las Tablas 3 y 4 muestran la planificación del primer y segundo día, respectivamente. Tabla 3. Planificación del 1er día del experimento. Grupos 1er Día G2 G4 Introducción a OO-H * Entrenamiento WUEP: Introducción y ejemplos (15*+20+ min) de aplicación + WUEP en O1 WUEP en O2 1ª Sesión (90 min) Cuestionario Descanso Entrenamiento HE: Introducción y ejemplos de (20 min) aplicación HE en O2 HE en O1 2ª Sesión (90 min) Cuestionario
Durante la ejecución del experimento, se hizo uso de una agenda donde se anotaron todas las intervenciones que fueron necesarias para aclarar dudas sobre la realización del mismo, así como posible mejoras observadas sobre el material del
experimento. Además, se aseguró que todos los sujetos rellenaron todos los datos solicitados, de forma que no fuera necesario descartar muestras. Tabla 4. Planificación del 2º día del experimento. Grupos 2º Día G1 G3 Introducción a OO-H * Entrenamiento HE: Introducción y ejemplos de (15*+20+ min) aplicación + HE en O1 HE en O2 1ª Sesión (90 min) Cuestionario Descanso Entrenamiento WUEP: Introducción y ejemplos (20 min) de aplicación WUEP en O2 WUEP en O1 2ª Sesión (90 min) Cuestionario
5. Resultados Tras finalizar el experimento, el grupo de control analizó los problemas detectados para compararlos con la lista de problemas de usabilidad de cada objeto experimental elaborada previamente. El objetivo fue determinar si un problema de usabilidad detectado por cualquier técnica pertenece a la lista. En caso negativo, el grupo de control analiza si es un problema real que debería añadirse a la lista o es un falso positivo. Además, se tienen en cuenta aquellos problemas que han sido detectados más de un vez en diferentes artefactos, contabilizándolo una única vez. Todas las discrepancias fueron resueltas por consenso. Los resultados del grupo de control determinaron que existen 13 problemas de usabilidad en el objeto experimental O1 y 14 problemas de usabilidad en el objeto experimental O2. Estos datos fueron empleados en el cálculo de la efectividad de los métodos. 5.1. Análisis cuantitativo Los análisis estadísticos presentados en esta sección fueron llevados a cabo empleando la herramienta SPSS v18 y un nivel de significación de α=0.05. La elección de α viene determinada por el pequeño número de muestras empleadas en este experimento [10]. Las Tablas 5 y 6 muestran los resultados globales de la evaluación de usabilidad para WUEP y HE respectivamente. La columna Prob. indica los problemas de usabilidad reales que se han encontrado, la columna F+ indica los
problemas que han sido considerados falsos positivos (problemas detectados que no lo son), la columna Rep. Indica los problemas replicados (problemas detectados más de una vez). Por último, la columna Dur. indica la duración (en minutos) de las tareas referentes a la evaluación. Tabla 5. Resultados globales para WUEP. Suj. Obj. Prob. F+ Rep. 1 O2 7 0 0 2 O2 11 0 0 3 O2 7 0 0 4 O1 5 0 0 5 O1 6 0 0 6 O1 6 0 0 7 O1 5 0 0 8 O1 8 0 0 9 O1 10 0 0 10 O2 3 0 0 11 O2 8 0 0 12 O2 8 0 0
Dur. 56 49 47 41 45 32 24 57 65 32 25 57
Tabla 6. Resultados globales para HE. Suj. Obj. Prob. F+ Rep. 1 O1 3 2 1 2 O1 4 5 0 3 O1 6 6 2 4 O2 3 0 1 5 O2 3 0 1 6 O2 4 0 3 7 O2 3 3 1 8 O2 3 3 1 9 O2 7 2 2 10 O1 5 0 2 11 O1 4 4 2 12 O1 6 0 1
Dur. 59 69 63 40 38 58 50 84 72 60 82 67
A priori podemos deducir de las tablas anteriores que WUEP no provee falsos positivos ni problemas replicados. El hecho de no proporcionar falsos positivos puede deberse a una menor variabilidad a la hora de clasificar los valores de una métrica en sus distintos umbrales, mientras que el hecho de no proveer problemas replicados puede deberse a que WUEP provee una clasificación de métricas operacionalizadas en base a los distintos tipos de artefactos existentes (NADs, APDs e IUFs). Esto no se da en HE, ya que siempre se aplican las mismas heurísticas a cada artefacto, lo cual implica detectar un problema más de una vez. A su vez, la presencia de falsos positivos puede deberse principalmente a la interpretación subjetiva de las heurísticas. Este hecho es menos pronunciado en WUEP debido a
que el cálculo de las métricas pretende disminuir el grado de subjetividad. La Tabla 7 muestra los resultados obtenidos para cada método en referencia la duración de la aplicación del método (en minutos), problemas de usabilidad detectados por evaluador, efectividad (ratio de problemas encontrados), y eficiencia (problemas detectados por minuto).
En él se puede deducir que la efectividad de WUEP es mayor que la de HE, tal y como observamos en las medias (línea horizontal de la caja). Sin embargo, los valores de efectividad para WUEP están más dispersos que los de HE, es decir, existe más variabilidad pese a que el 50% de las muestras (rango intercuartil) se sitúen entre 0.6 y 0.4 acercándose a la media.
Tabla 7. Resultados para ambos métodos. Método WUEP HE Media 44.16 61.83 Duración Des. Típ. 13.53 14.43 Media 7 4.25 Problemas por sujeto Des. Típ. 2.21 1.4 Media 0.5183 0.3163 Efectividad Des. Típ. 0.1609 0.1089 Media 0.1664 0.0701 Eficiencia Des. Típ. 0.0610 0.0197
Para una mejor interpretación de los resultados anteriores, en primer lugar se analizó si los datos obtenidos poseen una distribución normal. El objetivo de este análisis es determinar qué tipo de prueba (paramétrica o no paramétrica) sería la más apropiada para verificar la hipótesis del experimento. Al poseer un tamaño de muestra inferior a 50, el test de normalidad realizado fue el test ShapiroWilk. El contraste que se realiza es: si en la significación asintótica (bilateral) se obtienen resultados p