Documento no encontrado! Por favor, inténtelo de nuevo

UNIVERSIDAD DE GRANADA - Decsai

2.3 Sensibilidad de los tres tipos de conos como funci on de la longitud de onda. .... 3.9 En la primera columna se muestran cuatro im agenes originales. ...... organizaci on de los centros del cerebro que cooperan en las funciones ..... Franjas de Enlace. V2 ...... In Peter W. Hawkes, editor, Advances in Imaging and Electron.
2MB Größe 7 Downloads 168 vistas
UNIVERSIDAD DE GRANADA E.T.S.I. INFORMA TICA

Dpto. de Ciencias de la Computacion e Inteligencia Arti cial TESIS DOCTORAL Modelos Computacionales de Representacio n de Imagenes y su Aplicacio n a la Detectabilidad de Objetos y a la Valoracio n de la Calidad de Imagenes Comprimidas

M. Carmen Aranda Garrido Mayo 2000

Modelos Computacionales de Representacio n de Imagenes y su Aplicacio n a la Detectabilidad de Objetos y a la Valoracio n de la Calidad de Imagenes Comprimidas MEMORIA QUE PRESENTA

M. Carmen Aranda Garrido PARA OPTAR AL GRADO DE DOCTORA EN INFORMA TICA MAYO 2000 DIRECTORES

JOAQUIN FDEZ. VALDIVIA

JOSE ANTONIO GARCIA SORIA

 DEPARTAMENTO DE CIENCIAS DE LA COMPUTACION E INTELIGENCIA ARTIFICIAL

E.T.S. de Ingeniera Informatica

Universidad de Granada

La memoria titulada Modelos Computacionales de Representacion de Imagenes

y su Aplicacion a la Detectabilidad de Objetos y a la Valoracion de la Calidad de Imagenes Comprimidas, que presenta Da M. Carmen Aranda Garrido (miembro del Dpto. de Lenguajes y Ciencias de la Computacion de la Universidad de Malaga) para optar al grado de Doctora en Informatica, ha sido realizada en el Departamento de Ciencias de la Computacion e Inteligencia Arti cial de la Universidad de Granada bajo la direccion de los doctores D. Joaqun Fernandez Valdivia y D. Jose Antonio Garca Soria.

Granada, Mayo de 2000.

El Doctorando:

Fdo.: M.C. Aranda Garrido

Los Directores:

Fdo.: J. Fdez. Valdivia

Fdo.: J.A. Garca

Agradecimientos y Dedicatorias Quisiera manifestar mi agradecimiento a los Doctores Joaqun Fernandez Valdivia y Jose Antonio Garca Soria, directores de esta memoria, por su inestimable ayuda y estmulo en el desarrollo de este trabajo. Hago extensiva mi gratitud al resto de los miembros del grupo de investigacion de Analisis de Imagenes Digitales y sus Aplicaciones as como a los miembros del Departamento de Lenguajes y Ciencias de la Computacion de la Universidad de Malaga. Tambien quiero agradecer a mi familia y a mis amigos el interes y apoyo moral mostrado durante el periodo de confeccion de esta memoria. En particular quiero dedicar este trabajo a mis padres y hermanos, a mis suegros y cu~nadas, a mi marido y muy especialmente a mi hija Patricia que ha demostrado tener una gran paciencia durante todo este tiempo. Por otra parte, quiero expresar mi agradecimiento al proyecto TIC97-1150 por la aportacion de fondos y medios materiales para la realizacion de esta Tesis.

Indice General 1 Objetivos y Contenidos

1

2 Introduccion

5

1.1 Contribuciones principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Organizacion de la memoria . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.1 El sistema visual humano . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 Fisiologa del ojo humano . . . . . . . . . . . . . . . . . . . . . . . 2.1.1.1 Estructura neural de la retina . . . . . . . . . . . . . . . 2.1.2 Las vas visuales y el nucleo geniculado lateral . . . . . . . . . . . 2.1.3 El cortex visual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.3.1 El cortex primario visual . . . . . . . . . . . . . . . . . . 2.1.3.2 Las vas visuales mas alla del cortex primario visual . . . 2.1.3.3 Tipos de celulas en el cortex visual . . . . . . . . . . . . . 2.1.4 La sensibilidad al contraste . . . . . . . . . . . . . . . . . . . . . . 2.1.5 La estructura multicanal del SVH . . . . . . . . . . . . . . . . . . 2.1.6 Enmascaramiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Modelos de representacion visual . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Modelos monocanal . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.1.1 Modelo de Schade . . . . . . . . . . . . . . . . . . . . . . 2.2.1.2 Criterio de delidad de la imagen de Sakrison y Mannos . 2.2.1.3 Otros trabajos basados en modelos monocanal . . . . . . 2.2.2 Modelos multicanal . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.2.1 Trabajos de Watson . . . . . . . . . . . . . . . . . . . . . 2.2.2.2 Un modelo para aplicaciones de codi cacion de imagenes 2.2.2.3 Modelo de Foyle y Boynton . . . . . . . . . . . . . . . . . 2.2.2.4 Modelo de Heeger y Teo . . . . . . . . . . . . . . . . . . . 2.2.3 Relacion entre aspectos siologicos y computacionales . . . . . . . 2.2.4 Dise~no multicanal . . . . . . . . . . . . . . . . . . . . . . . . . . . ix

. . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . .

2 2

5 6 7 11 13 14 15 16 17 18 19 19 20 20 20 21 22 22 23 23 24 25 26

Indice General

x

2.3 Metricas de distorsion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Factores visuales usados en las metricas de distorsion perceptuales 2.3.2 Revision de distintas metricas de distorsion . . . . . . . . . . . . . 2.3.2.1 Metricas clasicas no perceptuales . . . . . . . . . . . . . . 2.3.2.2 Metricas perceptuales . . . . . . . . . . . . . . . . . . . .

3 Modelos de Representacion y Metricas Asociadas

3.1 Modelo Unicanal UC . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Modelo de representacion . . . . . . . . . . . . . . . . . . . 3.1.1.1 Sensibilidad a la luminosidad . . . . . . . . . . . . 3.1.1.2 Sensibilidad al contraste . . . . . . . . . . . . . . . 3.1.1.3 Enmascaramiento . . . . . . . . . . . . . . . . . . 3.1.2 Desarrollo de una medida de distorsion . . . . . . . . . . . 3.2 Modelo de multiples canales frecuenciales MCF . . . . . . . . . . . 3.2.1 Modelo de representacion . . . . . . . . . . . . . . . . . . . 3.2.1.1 Dise~no multicanal dirigido por los datos . . . . . . 3.2.1.2 Seleccion de sensores activos . . . . . . . . . . . . 3.2.2 Desarrollo de una medida de distorsion . . . . . . . . . . . 3.3 Modelo de Redundancia Normalizada . . . . . . . . . . . . . . . . 3.3.1 Modelo de representacion . . . . . . . . . . . . . . . . . . . 3.3.1.1 El banco de ltros Gabor . . . . . . . . . . . . . . 3.3.1.2 Los ltros activos . . . . . . . . . . . . . . . . . . 3.3.1.3 Una medida normalizada de redundancia . . . . . 3.3.2 Desarrollo de una medida de distorsion . . . . . . . . . . . 3.4 Modelo de multiples canales usando un banco de ltros log Gabors 3.4.1 Modelo de representacion . . . . . . . . . . . . . . . . . . . 3.4.1.1 Dise~no de un banco de ltros log Gabors . . . . . 3.4.1.2 Filtros activos del banco de ltros . . . . . . . . . 3.4.1.3 Seleccion de los puntos de interes . . . . . . . . . 3.4.2 Desarrollo de una medida de distorsion . . . . . . . . . . .

4 Aplicaciones

4.1 Detectabilidad visual de objetos en una escena . . . . . . . . . . 4.1.1 Metodo para la evaluacion de metricas de detectabilidad . 4.1.2 La distincion psicofsica de los objetos . . . . . . . . . . . 4.1.2.1 Experimento de busqueda . . . . . . . . . . . . . 4.1.3 Descripcion de la experimentacion computacional . . . . .

. . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

28 28 31 32 33

37 38 38 38 39 41 44 46 47 48 49 53 56 57 57 57 58 62 64 65 65 67 69 69

73 74 74 75 75 78

Indice General

xi

4.1.4 Valoracion de la metrica derivada del modelo unicanal UC . . . . . . . 4.1.4.1 Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4.2 Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4.3 Experimento bootstrap . . . . . . . . . . . . . . . . . . . . . 4.1.5 Valoracion de la metrica derivada del modelo MCF . . . . . . . . . . . 4.1.5.1 Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.5.2 Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.5.3 Experimento bootstrap . . . . . . . . . . . . . . . . . . . . . 4.1.6 Valoracion de la metrica derivada del modelo RN . . . . . . . . . . . . 4.1.6.1 Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.6.2 Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.6.3 Experimento bootstrap . . . . . . . . . . . . . . . . . . . . . 4.1.7 Valoracion de la metrica derivada del modelo MCBF . . . . . . . . . . 4.1.7.1 Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.7.2 Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.7.3 Experimento bootstrap . . . . . . . . . . . . . . . . . . . . . 4.1.8 Comparacion de las metricas perceptuales de nidas y otras medidas clasicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Evaluacion de la calidad de imagenes comprimidas . . . . . . . . . . . . . . . 4.2.1 Calidad de imagenes de mamografas comprimidas . . . . . . . . . . . 4.2.1.1 Utilidad de las medidas desarrolladas para predecir la calidad de imagenes de mamografas comprimidas . . . . . . . . . . . 4.2.2 Calidad de imagenes comprimidas utilizando otras imagenes . . . . . . 4.2.3 Calidad de imagenes usando otros metodos de compresion . . . . . . .

82 83 88 97 101 101 105 107 109 109 111 113 115 116 119 124 125 127 129 132 141 145

Conclusiones y Lneas Futuras

151

A Principios Basicos de la Teora de Gabor

155

B Consideraciones Adicionales al Modelo Unicanal UC

157

C Bootstrap

161

C.1 Estimacion bootstrap del error estandar C.2 Intervalos de con anza bootstrap . . . . C.2.1 Intervalos basados en tablas . . . C.2.2 Intervalos basados en percentiles C.2.3 Intervalos usando el metodo BCa

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

162 162 162 163 163

xii

Indice General

Indice de Figuras 1.1 Esquema del contenido de la memoria. . . . . . . . . . . . . . . . . . . . . . .

3

2.1 Corte transversal del ojo humano. . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Distribucion de conos y bastones en la retina humana. (Datos adaptados de [130]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Sensibilidad de los tres tipos de conos como funcion de la longitud de onda. En lnea discontinua se muestra la sensibilidad de los bastones. . . . . . . . . 2.4 Organizacion de centro-periferia de las neuronas visuales. . . . . . . . . . . . 2.5 Diagrama de las vas visuales del ojo al cortex visual. . . . . . . . . . . . . . 2.6 Diferentes nombres que se le da a las partes del cortex visual. . . . . . . . . . 2.7 Flujos de procesamiento visual [39]. . . . . . . . . . . . . . . . . . . . . . . . . 2.8 Funcion de sensibilidad al contraste tpica. . . . . . . . . . . . . . . . . . . . . 2.9 La curva solida muestra la CSF y la curva punteada muestra la adaptacion a enrejados de alto contraste en la frecuencia indicada por la echa. . . . . . . 2.10 (a) La CSF (trazo discontinuo) es la envolvente de un numero de canales individuales, cada uno sensible a un estrecho rango de frecuencias. (b) Resultado de la adaptacion a un enrejado de alto contraste en la frecuencia mostrada por la echa. El canal que se muestra con la curva con trazo solido es el mas afectado por la adaptacion; los demas se ven afectados en menor o en ninguna proporcion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 Curva del contraste de deteccion para un objeto ante la presencia de una mascara. En la gra ca de la izquierda la mascara y el objeto tienen aproximadamente la misma orientacion. En la gra ca de la derecha la mascara y el objeto tienen diferentes orientaciones. . . . . . . . . . . . . . . . . . . . . 2.12 Parte par (simetrica) a la izquierda y parte impar (antisimetrica) de un ltro Gabor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.13 Parte par (simetrica) a la izquierda y parte impar (antisimetrica) a la derecha de un ltro log Gabor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.14 Diferentes modelos para cubrir el espectro de frecuencias [114] . . . . . . . . .

7

26 27

3.1 Representacion del contraste en funcion de la luminosidad. . . . . . . . . . . .

39

xiii

8 9 10 12 13 14 17 18

19

23 25

xiv

Indice de Figuras 3.2 (a) In uencia del parametro k1 en la forma de la funcion se sensibilidad al contraste. (b) In uencia del parametro k2 . (c) In uencia del parametro 0 . . 3.3 Funciones de sensibilidad al contraste e imagenes reconstruidas usando dicha funcion para la imagen original numero 3 que aparece en la Figura 4.4. Cada gra ca corresponde a un modo distinto de ajustar la CSF a la imagen: (a) S1;E , (b) S1;C , (c) S2;E , (d) S2;C , (e) S3;E y (f) S3;C . . . . . . . . . . . . . . . 3.4 Funciones de sensibilidad al contraste e imagenes reconstruidas usando dicha funcion para la imagen original numero 37 que aparece en la Figura 4.2. Cada gra ca corresponde a un modo distinto de ajustar la CSF a la imagen: (a) S1;E , (b) S1;C , (c) S2;E , (d) S2;C , (e) S3;E y (f) S3;C . . . . . . . . . . . . . . . 3.5 Modelo no lineal de enmascaramiento. . . . . . . . . . . . . . . . . . . . . . . 3.6 Esquema de los pasos para calcular una medida de distorsion derivada del modelo de representacion UC. . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.7 (a) Razon desviacion/media de la banda de orientacion (0; ) (funcion ()) para la imagen de la Figura 3.9(b); (b) la segunda derivada 00 tiene un cruce por cero en el punto medio de una transicion de los valores de () al incrementar ; (c) espectro mejorado para la imagen 3.9(b) sobre el que se ha se~nalado la nueva banda de orientacion que se produce teniendo en cuenta que, como se muestra en (b), la segunda derivada tiene un unico extremo para el comienzo de la discontinuidad se~nalada por el cruce por cero y otro extremo local de signo opuesto para el nal de dicha continuidad. Estos extremos se encuentran en 1.46 y 1.64 radianes respectivamente para esa banda particular. . . . . . . 3.8 (a) Para la banda de orientacion de la Figura 3.7(c), la funcion  devuelve la razon desviacion estandar/media calculada para el canal de frecuencia radial (0; ) incrementando  en el intervalo de orientacion mencionado; (b) segunda derivada de la funcion (); (c) extremos de la segunda derivada que de nen las bandas de frecuencia espacial en la que se divide dicha banda de orientacion para parte de la gra ca que se muestra en (b). . . . . . . . . . . . . . . . . . 3.9 En la primera columna se muestran cuatro imagenes originales. En la columna central aparece la particion multicanal obtenida para cada una de ellas. La ultima columna muestra la seleccion de los sensores activos. . . . . . . . . . . 3.10 Funciones de redundancia normalizada para los sensores activos que se especi can en las seis primeras las de la Tabla 3.3. . . . . . . . . . . . . . . . . . . 3.11 Funciones de redundancia normalizada para los sensores (a) #16, (b) #23, (c) #38, (d) #60, (e) #68, (f) #81, que se especi can en la Tabla 3.3. Todos estos sensores correponden a la misma banda de orientacion. . . . . . . . . . . . . . 3.12 Cuatro per les 1D de ltros log Gabor 2D, de orientacion 0 con longitudes de onda de 6, 12, 24 y 48 respectivamente. En las abcisas se representan las frecuencias radiales y en ordenadas los valores de la funcion. . . . . . . . . . . 3.13 Representacion de la funcion de trasferencia de un ltro log Gabor, donde  es la frecuencia central,  es la orientacion del ltro,  y  son las sigma radial y angular de la gausiana. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

42

43 44 46

50

51 52 60 61 65 66

Indice de Figuras 3.14 En la primera columna se muestran cuatro imagenes originales. En la segunda columna aparece el banco de ltros log Gabors completo solapado con los sensores activos seleccionados para cada una de las imagenes. La ultima columna muestra la seleccion de los ltros activos. . . . . . . . . . . . . . . . . . . . . 3.15 Esquema de la obtencion de una medida de distorsion de nida sobre el modelo de representacion MCBF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xv

68 70

4.1 Funciones de distribucion teoricas del tiempo de deteccion para las imagenes que forman los conjuntos #1, #2 y #3. Con un crculo se indican los grupos detectados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.2 Cluster #1 de escenas con detectabilidad visual similar. . . . . . . . . . . . . 79 4.3 Cluster #2 de escenas con detectabilidad visual similar. . . . . . . . . . . . . 80 4.4 Cluster 3 de escenas con detectabilidad visual similar. . . . . . . . . . . . . . 81 4.5 Cluster #4 de escenas con detectabilidad visual similar. . . . . . . . . . . . . 82 4.6 Media de la funcion de evaluacion PCC para 50 conjuntos de imagenes, para cada variante del modelo unicanal. Las barras de error son calculadas basandose en la varianza de PCC para los 50 conjuntos (MediafPCC g V arfPCC g; MediafPCC g+ V arfPCC g). La lnea discontinua representa el valor de PCC para la metrica RMSE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4.7 Valores de la media de la funcion de evaluacion PCC para las metricas U1;E (en lnea continua) y RMSE (en lnea discontinua) variando el numero de conjuntos de 10 imagenes, desde 30 a 500. . . . . . . . . . . . . . . . . . . . . . . . . . . 90 4.8 Valores de la media de la funcion PCC para las metricas U1;C y RMSE variando el numero de conjuntos de 10 imagenes cada uno. . . . . . . . . . . . . . . . . 91 4.9 Valores de la media de la funcion PCC para las metricas U1;E y RMSE variando el numero de imagenes dentro de los conjuntos. . . . . . . . . . . . . . . . . . 92 4.10 Valores de la media de la funcion PCC para las metricas U1;C y RMSE variando el numero de imagenes dentro de los conjuntos. . . . . . . . . . . . . . . . . . 92 4.11 Representacion de los valores de la media y varianza de PCC obtenidos por las metricas U1;E , U1;C y RMSE, variando el numero de conjuntos. . . . . . . . . 94 4.12 Representacion de los valores de la media y varianza de PCC obtenidos por las metricas U1;E , U1;C y RMSE, variando el numero de imagenes por conjunto. . 94 4.13 Puntos de interes para las imagenes (a) 35, (b) 37, (c) 43 y (d) 3. La primera columna muestra las imagenes originales, la segunda los puntos de interes obtenidos para dichas imagenes y la tercera los puntos de interes obtenidas para las imagenes sin objeto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.14 Procedimiento de muestreo bootstrap . . . . . . . . . . . . . . . . . . . . . . 98 4.15 Valores de la media de la funcion de evaluacion PCC para las metricas FA (en lnea continua) y F (en lnea discontinua) variando el numero de conjuntos de 10 imagenes, desde 30 a 500. . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.16 Valores de la media de la funcion PCC para las metricas FA y F variando el numero de conjuntos de 10 imagenes cada uno. . . . . . . . . . . . . . . . . . 108

xvi

Indice de Figuras 4.17 Valores de la media de la funcion de evaluacion PCC para las metricas RA (en lnea continua) y R (en lnea discontinua) variando el numero de conjuntos de 10 imagenes, desde 30 a 500. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.18 Valores de la media de la funcion PCC para las metricas RA y R variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . . . . . . . 4.19 En lnea continua se muestra la media y varianza de una metrica atencional y en discontinua de una global derivadas del modelo MCBF para (a) el conjunto de pesos M , (b) el conjunto de pesos I , (c) el conjunto de pesos S 0 y (d) el conjunto de pesos S 00 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.20 Representacion gra ca de los valores de la media y varianza de la funcion de evaluacion PCC obtenidos por las metricas LA M , LA I , LAS y RMSE, variando el numero de conjuntos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.21 Representacion gra ca de los valores de la media y varianza de la funcion de evaluacion PCC obtenidos por las metricas LA M , LA I , LAS y RMSE, variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . . . . . . 4.22 Catorce imagenes digitalizadas de mamografas tomadas de las bases de datos Nijmegen y MIAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.23 Imagen de mamografa numero 9 reconstruida bajo distintos grados de compresion usando el algoritmo de compresion JPEG. . . . . . . . . . . . . . . . 4.24 Metodo para caracterizar las perdidas en la compresion: la razon entre los falsos positivos y los verdaderos positivos (FP/VP) para la secuencia de imagenes con factores de calidad de 1 a 99. En cada gra ca N indica el numero de microcalci caciones detectadas. . . . . . . . . . . . . . . . . . . . . . . . . . . 4.25 Razon FP/VP para las imagenes de mamografas: (a) 3, (b) 4, (c) 5, (d) 8, (e) 12 y (f) 14, que se muestran en la Figura 4.22. . . . . . . . . . . . . . . . . . 4.26 Secuencia de imagenes comprimidas con niveles de calidad qf =80, 20, 10, 5 y 1 para la imagen original que se muestra en la parte superior izquierda. . . . 4.27 Secuencia de imagenes comprimidas con niveles de calidad qf =80, 20, 10, 5 y 1, para la imagen original que se muestra en la parte superior izquierda. . . . 4.28 Representacion de los niveles de distorsion entre la imagen original que se muestra en la Figura 4.26 y la imagen comprimida a distintos grados de compresion. En (a) se muestran los resultados de la medida RMSE y en (b) para la medida PSNR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.29 Representacion de la distancia entre la imagen original de la Figura 4.26 y la imagen comprimida a distintos grados de compresion. En la columna de la izquierda se muestran los resultados obtenidos por las metricas globales U, F, R, L y en la columna de la derecha para las mismas metricas pero utilizando puntos de interes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.30 Representacion de los niveles de distorsion entre la imagen original que se muestra en la Figura 4.27 y la imagen comprimida a distintos grados de compresion. En (a) se muestran los resultados de la medida RMSE y en (b) para la medida PSNR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

112 113

121 122 123 130 131

133 134 141 142

142

143

145

Indice de Figuras

xvii

4.31 Representacion de la distancia entre la imagen original de la Figura 4.27 y la imagen comprimida a distintos grados de compresion. En la columna de la izquierda se muestran los resultados obtenidos por las metricas globales U, F, R, L y en la columna de la derecha para las mismas metricas pero utilizando puntos de interes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 B.1 Variacion de la sensibilidad con respecto a la orientacion en una funcion de sensibilidad al contraste. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159

xviii

Indice de Figuras

Indice de Tablas 3.1 Especi cacion del ancho de banda de frecuencia espacial y orientacion de un conjunto de sensores activos obtenidos para la imagen que se muestra en la Figura 3.9(a). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Escalas asociadas a cada uno de los sensores activos que se muestran en la Tabla 3.1 para la imagen de la Figura 3.9(a). . . . . . . . . . . . . . . . . . . 3.3 Ancho de banda de frecuencia espacial y orientacion de un conjunto de sensores activos obtenidos para la imagen que se muestra en la Figura 3.9(b). En la ultima columa se muestra la escala correspondiente a cada sensor calculada usando el metodo de redundancia normalizada. . . . . . . . . . . . . . . . . . 4.1 Valores de PCC que produce la metrica derivada del modelo unicanal para el conjunto de datos #1, variando el criterio de ajuste de la funcion de sensibilidad del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Columna 1: imagenes que forman parte del conjunto #1 junto con el grupo al que pertenecen. Columna 2: orden de referencia dado por la ordenacion psicofsica. Columnas 3 y 4: valores de detectabilidad calculados por las metricas RMSE y U1;C respectivamente. Al nal de cada columna se muestra la probabilidad de correcta clasi cacion PCC del orden dado por la metrica en esa columna con respecto al orden de referencia de la columna 2. . . . . . . . . . 4.3 Valores de PCC que produce la metrica derivada del modelo unicanal para el conjunto de datos #2, variando el criterio de ajuste de la funcion de sensibilidad al contraste del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Columna 1: imagenes que forman parte del conjunto #2. Columna 2: el orden de referencia. Columnas 3 y 4: los valores de las metricas RMSE y U1;C y el orden resultante calculado sobre las metricas computacionales. . . . . . . . .

53 59

61

83

84 85 85

4.5 Valores de PCC que produce la metrica derivada del modelo unicanal para el conjunto de datos #3, variando el criterio de ajuste de la funcion CSF del modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.6 Columna 1: imagenes que forman parte del conjunto #3. Columna 2: el orden de referencia. Columnas 3 y 4: los valores de las metricas RMSE y U1;C y el orden resultante calculado sobre dichas metricas. . . . . . . . . . . . . . . . .

87

xix

xx

Indice de Tablas 4.7 Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una, variando el modo de ajustar la CSF en el modelo unicanal. La ultima la muestra la media y varianza de la medida RMSE para dicho conjunto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Media y varianza de la funcion de evaluacion PCC para las metricas RMSE, U1;E y U1;C variando el numero de conjuntos de 10 imagenes. . . . . . . . . . 4.9 Media y varianza de la funcion de evaluacion PCC calculada para las metricas RMSE, U1;E y U1;C dejando jo el numero de conjuntos (50) y variando el numero de imagenes en cada uno de ellos. . . . . . . . . . . . . . . . . . . . . 4.10 Media y varianza de la funcion PCC para las metricas U1;E y U1;C considerando que la sensibilidad en la frecuencia de Nyquist puede ser mayor que cero, variando el numero de conjuntos. . . . . . . . . . . . . . . . . . . . . . . . . . 4.11 Media y varianza de la funcion PCC para las metricas U1;E y U1;C considerando que la sensibilidad en la frecuencia de Nyquist puede ser mayor que cero, variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . 4.12 Media y varianza de la funcion de evaluacion calculada para un conjunto de 50 bases de 10 imagenes utilizando las metricas U1;E y U1;C . En la segunda columna se muestran los resultados usando la metrica global y en la tercera los calculos han sido hechos teniendo en cuenta solo los puntos de interes. . . . . 4.13 Media y varianza de la funcion PCC para la metrica U1;C usando puntos de interes, variando el numero de conjuntos. . . . . . . . . . . . . . . . . . . . . 4.14 Media y varianza de PCC para la metrica U1;C usando puntos de interes, variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . . 4.15 Muestras bootstrap de tama~no 12, 15, 20, 25, 30 y 36. . . . . . . . . . . . . . 4.16 Valores de la funcion de evaluacion PCC calculada para cada una de las muestras originales bootstrap de nidas en la Tabla 4.15. Las columnas 2 y 3 muestran los resultados obtenidos por las metricas U1;E y U1;C globales y las columnas 4 y 5 los resultados de las mismas metricas pero usando solo puntos de interes para calcular la medida. . . . . . . . . . . . . . . . . . . . . . . . . . . 4.17 Intervalos BCa calculados para cada muestra original bootstrap. . . . . . . . 4.18 Valores de PCC que produce la metrica derivada del modelo de multiples canales frecuenciales para el conjunto de datos #1. . . . . . . . . . . . . . . . . . . . 4.19 En la columna 3 se muestran los valores de detectabilidad calculados por la metrica FA con = 1:0 y el valor de PCC del orden dado por esta metrica con respecto al orden de referencia de la columna 2. . . . . . . . . . . . . . . . . 4.20 Valores de PCC que producen las metricas derivadas del modelo de multiples canales frecuenciales para el conjunto de datos #2. . . . . . . . . . . . . . . . 4.21 Columna 1: imagenes que forman parte del conjunto #2. Columna 2: el orden de referencia. Columna 3: valores de la metrica FA utilizando el conjunto de pesos M. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.22 Valores de PCC que producen las metricas derivadas del modelo de multiples canales frecuenciales para el conjunto de datos #3. . . . . . . . . . . . . . . .

88 90 91 93 93

95 95 95 99

100 100 102 103 103 104 104

Indice de Tablas 4.23 Columna 1: imagenes que forman parte del conjunto #3. Columna 2: orden de referencia. Columna 3: valores de la metrica FA con = 1:0. . . . . . . . 4.24 Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una para las metricas derivadas del modelo de multiples canales frecuenciales. La ultima la muestra la media y varianza de la medida RMSE para dicho conjunto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.25 Media y varianza de la funcion de evaluacion PCC para la metrica derivada del modelo de multiples canales frecuenciales con = 1:0 variando el numero de conjuntos de 10 imagenes cada uno. . . . . . . . . . . . . . . . . . . . . . . . 4.26 Media y varianza de la funcion de evaluacion PCC para las metricas derivadas del modelo de multiples canales frecuenciales con = 1:0 variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.27 Valores de la funcion de evaluacion PCC obtenidos por la metrica derivada del modelo MCF para cada una de las muestras originales bootstrap de nidas en la Tabla 4.15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.28 Intervalos BCa con un 95% de con anza calculados para los valores de PCC que se muestran en la Tabla 4.27. . . . . . . . . . . . . . . . . . . . . . . . . . 4.29 Valores de PCC que producen las metricas derivadas del modelo RN para el conjunto de datos #1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.30 Valores de PCC que producen las metricas derivadas del modelo RN para el conjunto de datos #2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.31 Valores de PCC que producen las metricas derivadas del modelo RN para el conjunto de datos #3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.32 Media y varianza de la funcion PCC para 50 conjuntos de 10 imagenes para la metrica R variando el parametro de integracion espacial y el parametro de integracion entre canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.33 Media y varianza de la funcion PCC para 50 conjuntos de 10 imagenes cada una para las metricas derivadas del modelo RN. La ultima la muestra la media y varianza de la medida RMSE para dicho conjunto. . . . . . . . . . . . . . . . 4.34 Media y varianza de la funcion de evaluacion PCC para la metrica derivada del modelo RN con = 5:0 variando el numero de conjuntos de 10 imagenes cada uno. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.35 Media y varianza de la funcion de evaluacion PCC para las metricas derivadas del modelo RN con = 5:0 variando el numero de imagenes por conjunto. . . 4.36 Valores de la funcion de evaluacion PCC calculada para cada una de las muestras originales bootstrap de nidas en la Tabla 4.15. . . . . . . . . . . . . . . . 4.37 Intervalos BCa calculados para cada muestra original bootstrap. . . . . . . . 4.38 Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion espacial para el conjunto de datos #1. . . . . . . 4.39 Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion entre canales para el conjunto de datos #1. . . .

xxi 105

106 106 107 108 109 110 110 110 111 111 112 112 114 114 116 116

Indice de Tablas

xxii

4.40 Valores de detectabilidad calculados por la metrica LS y valor de PCC del orden dado por la metrica que se muestra en la columna 3 con respecto al orden de referencia mostrado en la columna 2. . . . . . . . . . . . . . . . . . . 4.41 Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion espacial para el conjunto de datos #2. . . . . . . 4.42 Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion entre canales para el conjunto de datos #2. . . . 4.43 Valores de detectabilidad calculados por la metrica LAM y valor de PCC del orden dado por la metrica que se muestra en la columna 3 con respecto al orden de referencia mostrado en la columna 2. . . . . . . . . . . . . . . . . . . . . . 4.44 Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion espacial para el conjunto de datos #3. . . . . . . 4.45 Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion entre canales para el conjunto de datos #3. . . . 4.46 Valores de detectabilidad calculados por la metrica LA I y valor de PCC del orden dado por la metrica que se muestra en la columna 3 con respecto al orden de referencia mostrado en la columna 2. . . . . . . . . . . . . . . . . . . 4.47 Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una. Media y varianza de la medida RMSE para dicho conjunto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.48 Media y varianza de la funcion de evaluacion PCC variando el numero de conjuntos de imagenes para las metricas LA M , LA S y LAI . . . . . . . . . . . . . 4.49 Media y varianza de la funcion de evaluacion PCC variando el numero de imagenes por base para las metricas LA M , LA S y LA I . . . . . . . . . . . . . . 4.50 Valores de la funcion de evaluacion PCC obtenidos por las variantes de la metrica derivada del modelo MCBF para las muestras que aparecen en la Tabla 4.15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.51 Intervalos de con anza BCa al 95% para los valores de PCC obtenidos para las distintas muestras originales bootstrap por las metricas globales LM , LS y LI con = 8:0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.52 Intervalos de con anza BCa al 95% para los valores de PCC obtenidos para las distintas muestras bootstrap por las metricas atencionales derivadas del modelo MCBF con = 1:0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.53 Valores de la funcion de evaluacion PCC calculada para las muestras bootstrap M1, M2, M4 y M5 por las medidas perceptuales desarrolladas y un conjunto de medidas clasicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.54 Intervalos BCa al 95% para los valores de PCC obtenidos para las muestras bootstrap M2, M3, M5 y M6 por las medidas perceptuales de nidas y un conjunto de medidas clasicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.55 Valores de la correlacion de las metricas derivadas del modelo unicanal con respecto a la razon FP=V P para las 14 imagenes de mamografas de la Figura 4.22. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 00

117 118 118 118 119 119 120 120 122 123 124 124 125 126 126 135

Indice de Tablas 4.56 Valores de correlacion de las medidas F con respecto a la razon FP=V P . . . . 4.57 Valores de correlacion de la medida FA con respecto a la razon FP=V P . . . 4.58 Valores de correlacion de las medidas R y RA con = 5:0 con respecto a la razon FP=V P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.59 Valores de correlacion de las medidas L y LA con = 5:0 con respecto a la razon FP=V P para las 14 imagenes de mamografas de la Figura 4.22. . . . . 4.60 Valores de la media de la correlacion de las medidas R y RA con respecto a la razon FP=V P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.61 Valores de la media de la correlacion de las medidas L y LA con respecto a la razon FP=V P para las 14 imagenes de mamografas de la Figura 4.22. . . . . 4.62 Valores de correlacion de medidas clasicas no perceptuales con respecto a la razon FP=V P para las 14 imagenes de mamografas de la Figura 4.22. . . . . 4.63 Intervalos de con anza BCa para la media de la correlacion entre las medidas clasicas y perceptuales propuestas y la razon FP/VP. . . . . . . . . . . . . . . 4.64 Intervalos de con anza para la diferencia de las medias de la correlacion entre las distintas medidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.65 Valores de distorsion obtenidos por las metricas UA , FA, RA, LA y las medidas clasicas RMSE y PSNR para la imagen Goldhill comprimida bajo distintos niveles de compresion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.66 Valores de distorsion obtenidos por las metricas UA , FA, RA, LA y las medidas clasicas RMSE y PSNR para la imagen Lena comprimida bajo distintos niveles de compresion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.67 Razon entre falsos positivos y verdaderos positivos (FP/VP) para la imagen mamogra ca 9 comprimida bajo distintos niveles utilizando los metodos de compresion (a) BTPC, (b) EPWIC y (c) SPIHT. . . . . . . . . . . . . . . . . 4.68 Valores de correlacion de las medidas perceptuales desarrolladas y medidas clasicas con respecto a la razon FP/VP obtenida para la imagen mamogra ca numero 9 de la Figura 4.22. . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.1 Media y varianza de la funcion de evaluacion PCC obtenidas por una metrica derivada del modelo UC usando una CSF ja, variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.2 Media y varianza de la funcion de evaluacion PCC obtenidas por una metrica derivada del modelo UC usando una CSF ja, variando el numero de imagenes por conjunto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.3 Valores de la funcion PCC e intervalos de con anza BCa obtenidos por la metrica unicanal dejando ja la CSF para las muestras descritas en la Figura 4.15. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . B.4 Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una. Las metricas se derivan del modelo unicanal sin utilizar enmascaramiento. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xxiii 135 136 137 137 137 137 138 139 140 144 147 148 149 158 158 158 158

xxiv

Indice de Tablas

Captulo 1

Objetivos y Contenidos El interes en la vision arti cial ha crecido considerablemente tanto por el propio interes que suscita como por el empuje que ha recibido de otras disciplinas, las cuales han ido requiriendo mayor exibilidad y precision en la informacion que controlan y esto se ha conseguido a traves del procesamiento automatico de la informacion visual. A pesar de este considerable desarrollo durante las ultimas decadas, existen todava numerosas cuestiones sobre como representar y manejar la informacion espacial de un modo efectivo. La vision, desde un punto de vista general, se puede entender como la elaboracion de conceptos sobre el entorno a partir de una se~nal espacial con caractersticas concretas. Esto involucra una serie de problemas computacionales, intrnsecos a diferentes niveles de abstraccion (desde el modo de representar la informacion visual hasta procesos de toma de decisiones), que son independientes del tipo de sistema que los resuelve. Es evidente que el sistema visual humano se encuentra, y resuelve satisfactoriamente, estos mismos problemas. Existen numerosas in uencias entre los modelos perceptuales que se proponen sobre el funcionamiento del sistema visual humano y los sistemas que proponen otras disciplinas ([8, 118, 149, 163, 171]). De este modo, el procesado de imagenes digitales esta inspirado en su mayor parte en el procesamiento visual humano. El ser humano aparenta procesar la informacion visual de una forma mecanica y con absoluta facilidad, aunque no obstante detras de esta simple apariencia surgen unos mecanismos llenos de complejidades de los que aun hoy en da no conocemos la totalidad. La necesidad que tiene el sistema visual humano de procesar e cientemente una vasta cantidad de informacion proveniente del mundo espacio-temporal requiere que las estructuras de las imagenes sean extraidas y representadas con una economa optima ([34, 35, 62, 128, 137, 177]). Los principales objetivos del procesamiento de imagenes digitales son la representacion y el desarrollo de tecnicas de procesamiento de imagenes. Una imagen digital es una funcion bidimensional que representa generalmente los valores de luminosidad de los objetos de una escena, aunque tambien puede representar las caractersticas de absorcion del tejido del cuerpo (rayos-X), una imagen de radar, el per l de temperatura de una region (infrarrojos), etc. Los modelos de representacion de una imagen dan una descripcion logica o cuantitativa de las propiedades de la misma. Una adecuada representacion es un prerrequisito para conseguir tecnicas de procesamiento e cientes, en el sentido del aprovechamiento posterior que se pueda derivar de dicha representacion. 1

2

Captulo 1. Objetivos y Contenidos

El objetivo de esta memoria ha sido presentar una serie de modelos generales de representacion de imagenes estaticas que puedan ser usados para distintos propositos, as como medidas de distorsion asociadas a dichos modelos. Estas medidas evaluan diferencias entre dos imagenes en las citadas representaciones. El trabajo presentado se enmarca en el campo del procesamiento de imagenes digitales dando soluciones concretas a problemas tales como la detectabilidad visual de objetos en una escena y la valoracion de imagenes comprimidas.

1.1 Contribuciones principales De forma resumida, las principales contribuciones de este trabajo son las siguientes:

 Dise~no de varios modelos de representacion de imagenes. En estos modelos computa-

cionales se ven re ejados algunos aspectos de la vision humana tales como la estructura multi-resolucion, la sensibilidad al contraste o el enmascaramiento. No se ha pretendido hacer modelos detallados de la vision humana, sino simplemente incorporar algunas de sus caractersticas. Estos modelos varan en complejidad, desde un modelo monocanal simple a modelos multicanal en los que el dise~no de los multiples canales se realiza de distinta forma.  Desarrollo de metricas de distorsion objetivas. Se han de nido diversas metricas de distorsion, una derivada de cada modelo de representacion desarrollado, las cuales han sido exhaustivamente testeadas. Una metrica de este tipo mide la diferencia entre una imagen y una version distorsionada de esta.  Analisis de aplicaciones de los modelos desarrollados. Estas aplicaciones nos han permitido validar y parametrizar los modelos as como realizar una comparacion entre modelos que incorporan distintas caractersticas en su de nicion.

{ En primer lugar, los modelos se han aplicado a la detectabilidad de objetos en

escenas complejas. En este caso, la metrica de distorsion se utiliza para medir la visibilidad de un objeto en una escena. Esto se hace comparando dos imagenes, una de las cuales posee el objeto y la otra es la misma imagen sin el objeto. Los resultados obtenidos son consistentes con resultados obtenidos por observadores humanos. { En segundo lugar, se han utilizado los modelos para medir de calidad de imagenes comprimidas. Se muestra que las metricas se comportan de forma consistente en la evaluacion de la calidad de imagenes mamogra cas comprimidas, utilizando distintos algoritmos de compresion con perdidas. Con esto se prueba que estas metricas son capaces de estimar la distorsion causada por la codi cacion de imagenes.

1.2 Organizacion de la memoria El Captulo 2 hace una revision de conceptos importantes para el trabajo desarrollado. En primer lugar da una vision general del funcionamiento del sistema visual humano. A continuacion muestra distintos modelos de representacion existentes en la literatura y nalmente describe distintas metricas de distorsion existentes.

1.2. Organizacion de la memoria

3

MODELOS DE REPRESENTACION

MODELO UNICANAL

MODELOS MULTICANAL

Filtros Ideales

Filtros Gabors

Paso-banda CSF Adaptativa

Modelo UC

Particion Multisensor Sensores Activos

Medida de Redundancia Normalizada

Filtros log Gabors

Filtros Activos

Modelo MCF

Modelo RN

Modelo MCBF

Metrica de Distorsion U

Metrica de Distorsion F

Metrica de Distorsion R

Metrica de Distorsion L

Seccion 3.1

Seccion 3.2

Seccion 3.3

Seccion 3.4

APLICACIONES DETECTABILIDAD VISUAL DE OBJETOS

Seccion 4.1

CALIDAD DE IMAGENES COMPRIMIDAS

Seccion 4.2

Figura 1.1: Esquema del contenido de la memoria.

En el Captulo 3 se describen los modelos computacionales de representacion de imagenes que se proponen en este trabajo. Tambien se de nen metricas de distorsion asociadas a cada uno de esos modelos. El Captulo 4 muestra dos aplicaciones de los modelos y las metricas de distorsion de nidas. En la primera de las aplicaciones se trata de predecir la visibilidad de objetos en escenas complejas. Estas predicciones se correlan con resultados obtenidos por observadores humanos. En una segunda aplicacion, las metricas son utilizadas para medir la calidad o delidad de imagenes comprimidas utilizando distintos algoritmos de compresion. Finalmente, el Captulo 5 muestra las conclusiones y las lneas futuras que se abren a partir de las investigaciones realizadas en este trabajo. En la Figura 1.1 puede verse una representacion esquematica de los contenidos de esta memoria.

4

Captulo 1. Objetivos y Contenidos

Captulo 2

Introduccion Recientes progresos en neurologa han proporcionado una idea mas clara de la estructura y organizacion de los centros del cerebro que cooperan en las funciones visuales. La especializacion, modularidad y organizacion jerarquica parecen ser principios importantes que ayudan a comprender el funcionamiento de un sistema paralelo extremadamente complejo. Se pueden adoptar varios niveles de descripcion en el estudio de la vision humana. La aproximacion que la ciencias de la vision utiliza es la de la psicologa cognitiva o psicofsica. El sistema de vision humano se modela como un sistema caracterizado por una respuesta que relaciona la salida con un estmulo de entrada. Los modelos son validados con experimentos psicofsicos en los cuales se le pide a sujetos humanos que valoren o juzguen la visibilidad de un estmulo. En las ultimas decadas se han desarrollado modelos computacionales de representacion de imagenes inspirados en muchos casos en los avances que se producan en el conocimiento del proceso de la vision en mamferos. Estos modelos son, en algunas ocasiones, validados usando pruebas en las que se hacen predicciones sobre la diferencia entre imagenes y estas predicciones son correladas con las realizadas por observadores humanos. En este captulo, la estructura del sistema visual humano sera en primer lugar brevemente descrita e indicados los principales centros del cerebro involucrados en el proceso de la vision. A continuacion, la seccion 2.2 incluye una breve revision historica de algunos modelos de representacion de imagenes que se encuentran en la literatura y ademas describe la relacion existente entre algunos aspectos siologicos de la vision y su dise~no computacional. Por ultimo, en la seccion 2.3 se enumera un conjunto de caractersticas perceptuales generalmente usadas en el desarrollo de medidas de distorsion y se hace una revision de algunas de las medidas de distorsion existentes.

2.1 El sistema visual humano En esta seccion se describe el comportamiento del sistema visual humano (SVH) y algunas de sus caractersticas. En este punto es importante mostrar tanto la siologa del ojo como el procesamiento que es llevado a cabo por el sistema nervioso, ya que algunas de las caractersticas que se exponen daran respaldo psicofsico a alguna de las etapas de los modelos de representacion que se proponen en este trabajo. 5

6

Captulo 2. Introduccion

La vision humana es un proceso complejo que puede ser dividido en cuatro etapas principales: formacion de la imagen, codi cacion, representacion e interpretacion. Formacion de la imagen : La luz de entrada es transportada por la optica del ojo y proyectada sobre la retina para formar la imagen retinal (representacion en la retina de la imagen exterior). Esta etapa esta formada por una serie de transformaciones sencillas y bien conocidas. Codi cacion : Una vez que se crea la imagen retinal, esta es codi cada a lo largo del camino que va de la retina al cortex visual. Representacion : La imagen codi cada es procesada en el camino al cortex visual. A este nivel se realizan algunas operaciones sencillas tales como deteccion, discriminacion y reconocimiento basico. Interpretacion : En esta etapa se interpreta la imagen, lo que lleva a la percepcion visual. A este nivel, el cerebro asocia propiedades perceptuales a sensaciones tales como el color, el movimiento o la forma.

En este trabajo se proponen modelos computacionales basados en las primeras etapas de la vision. Cada modelo re eja caractersticas de la representacion visual en distintas etapas del camino visual que va de la retina al cortex, desde modelos simples a modelos mas complejos que se basan en cierto modo en las respuestas de las neuronas del cortex primario visual. Sin embargo, no se pretende hacer una representacion exhaustiva de las caractersticas del SVH, sino simplemente analizar la repercusion de algunas de estas caractersticas en la realizacion de tareas visuales simples. La modelizacion estara por tanto limitada a la etapa de representacion, siendo los modelos computacionales que presentamos independientes del campo de las ciencias de la vision. El objetivo nal sera analizar estas representaciones en funcion de su capacidad de realizar operaciones visuales tales como deteccion y valoracion de la calidad de imagenes, aplicaciones estas tpicas del campo del procesamiento de imagenes digitales. Esta seccion esta estructurada de la siguiente forma: En el apartado 2.1.1 se describe el ojo y la representacion de la imagen exterior en la retina. A continuacion, en el apartado 2.1.2, se describen los caminos visuales desde el ojo al cortex visual. La representacion y el procesamiento en el cortex visual se describen en el apartado 2.1.3. Finalmente se aislaran y describiran algunas caractersticas basicas y especialmente importantes del SVH, como son la sensibilidad al contraste (2.1.4), la estructura multicanal (2.1.5) y el enmascaramiento (2.1.6).

2.1.1 Fisiologa del ojo humano El ojo humano y sus distintos componentes estan representados en la Figura 2.1. El ojo contiene un lquido transparente, llamado humor vtreo, a traves del cual se propaga la luz. La cornea y la lente enfocan la luz de entrada sobre la retina. La apertura a traves de la cual la luz puede entrar se regula mediante el iris. La retina contiene alrededor de 125 millones de celulas sensibles a la luz ademas de cierta capacidad de procesamiento. El procesamiento en la retina consigue, entre otras cosas, una

2.1. El sistema visual humano

7 Ganglionares

000 111 111111111 000000000 000 111 000000000 111111111 000 111 000000000 111111111 000 111 000000000 111111111 000 111 111111111 000000000 Retina 000000000 111111111 000000000 111111111 111111111 000000000 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 000000000 111111111 0 1 0 1 000000000 111111111 00 000000000 11 111111111 00 11 000000000 111111111 00 11 000000000 111111111 00 000000000 11 111111111 00 000000000 11 111111111 00 11

Córnea

Energía luminosa Humor vítreo

Cristalino

Bipolares

1 0 0 1 0 1 0 1 0 1

Bastones

11 00 00 11 00 11 00 11 00 11

1 0 0 1 000 0 111 1 000 0 111 1 000 111 0 1 000 0 111 1 000 0 111 1 000 111 0 1 000 0 111 1 000 0 111 1 000 111 0 1 000 0 111 1 Amacrinas Conos 0 1 Horizontales

0 1 111111 000000 0 1 000000 111111 Fóvea 0 1

Energía eléctrica

Humor acuoso Nervio óptico

Figura 2.1: Corte transversal del ojo humano.

compresion de la informacion permitiendo que esta sea transmitida a traves del nervio optico hasta llegar al cerebro. El nervio optico contiene alrededor de un millon de bras nerviosas. La retina de cada ojo se divide en dos partes, dependiendo del campo visual izquierdo o derecho que registra cada una (vease la Figura 2.5). La retina temporal del ojo izquierdo y la nasal del derecho recogen informacion del campo visual derecho, mientras que la retina nasal del ojo izquierdo y la temporal del derecho reciben informacion del campo visual izquierdo. La informacion de cada campo visual es posteriormente analizada en diferentes hemisferios del cerebro. La luz que es visible por el ojo humano corresponde a una onda electromagnetica que decae en una longitud de onda de un rango alrededor de 380 a 850 nanometros (nm), aunque la respuesta ya es mnima en longitudes de onda de 700 nm.

2.1.1.1 Estructura neural de la retina La retina es una capa delgada de tejido nervioso de alrededor de un cuarto de milmetro de espesor, formada por tres niveles de celulas. El primer nivel contiene los fotorreceptores. E stos convierten la informacion luminosa en se~nales electricas que posteriormente son interpretadas por el cerebro. El segundo nivel de la retina esta caracterizado por las celulas bipolares. Estas celulas estan conectadas por un lado con los fotorreceptores y por otro lado con las celulas ganglionares, que constituyen el tercer nivel de la retina. Los axones de las celulas ganglionares forman las bras del nervio optico (ver Figura 2.1). Ademas de las celulas bipolares, en el segundo nivel existen otros dos tipos de celulas que conectan los fotorreceptores y las celulas ganglionares de forma indirecta. Un tipo son las celulas horizontales que enlazan los fotorreceptores y las bipolares, y otro tipo son las celulas amacrinas que unen las celulas bipolares y las ganglionares.

Captulo 2. Introduccion

2

Numero de Bastones o Conos /mm

8

Punto Ciego

BASTONES

CONOS

Temporal

Nasal

GRADOS

Figura 2.2: Distribucion de conos y bastones en la retina humana. (Datos adaptados de [130]).

Realmente la luz incide sobre las celulas ganglionares, bipolares y fotorreceptoras en ese orden, aunque luego el lugar donde empieza a ser transformada sea en estas ultimas. Esto es posible debido a que las que estan por delante de ellas son transparentes y dejan pasar la luz.

Tipos de fotorreceptores Hay dos tipos diferentes de fotorreceptores: bastones y conos. Los bastones son mucho mas numerosos que los conos. Hay sobre 120 millones de bastones y 5 millones de conos por ojo y ambos tipos no estan igualmente distribuidos en la retina. La Figura 2.2 muestra como vara la densidad de los dos tipos de fotorreceptores en la retina humana. Se observa que la mayora de los conos estan concentrados en un area muy peque~na, que forma una suave depresion en el centro de la retina, denominada fovea. En ella no hay bastones. Fuera de la fovea, la concentracion de conos decae rapidamente y la concentracion de bastones se incrementa. Hay un area, el punto ciego, que no contiene receptores y que corresponde a la conexion de la retina con el nervio optico. Ademas, la retina se ve surcada por multitud de conducciones sanguneas. Sin embargo, a pesar de la presencia de estas discontinuidades en el mapa de fotorreceptores, un observador humano experimenta la sensacion de estar observando una escena continua [77]. Cada uno de los tipos de celulas fotosensitivas responde de forma diferente a la luz y por lo tanto poseen una sensibilidad diferente a las longitudes de onda. Los bastones son responsables de la vision en la oscuridad o en condiciones de luz muy debil. Son peque~nos y realizan por tanto un muestreo muy no de la retina. Muchos bastones se conectan a una sola neurona. De esta manera la deteccion se ve reforzada a cambio de que la agudeza visual bajo condiciones de luminosidad bajas se vea empobrecida. Los conos, en cambio, se asocian a la vision con altos niveles de luminosidad y a la vision en color. Dentro de la fovea cada

2.1. El sistema visual humano

9

Figura 2.3: Sensibilidad de los tres tipos de conos como funcion de la longitud de onda. En lnea discontinua se muestra la sensibilidad de los bastones.

cono se conecta con varias neuronas que codi can la informacion. De hecho, la fovea es el area de maxima agudeza visual y corresponde al centro de atencion de un observador. El SVH divide el espectro visible en tres bandas correspondientes al azul (400-500nm), verde (500-600nm) y rojo (600-700nm). Existen tres tipos de conos denominados conos L, M y S que son sensibles a longitudes de onda grande, media y corta respectivamente. No existe la misma proporcion de los tres tipos de conos. Alrededor del 65% de los conos responden a las longitudes de onda correspondientes al rojo y amarillo; el 33% al verde y el 2% al azul. La Figura 2.3 muestra las respuestas de los tres tipos de conos y de los bastones.

Representacion en la retina. Respuesta de las celulas ganglionares a la luz A continuacion se describe el tipo de se~nales de salida de la retina que son transmitidas por el nervio optico. Un modo adecuado de hacerlo es a traves de la respuesta de las celulas ganglionares ante un estmulo de luz. El concepto de campo receptivo, introducido por Hartline [79], es importante en este ambito. El campo receptivo de una neurona consiste en el area de receptores de la retina cuyas se~nales in uyen en la salida de la neurona. Equivalente se puede de nir como la parte del campo visual al cual reacciona la neurona. A veces, la descripcion de un campo receptivo incluye no solo la localizacion espacial del estmulo que afecta a la neurona sino tambien el tipo concreto de estmulo (lnea, esquina ...) que provoca su reaccion. Los campos receptivos de las celulas ganglionares muestran una organizacion de centroperiferia. En una peque~na region central, la luz puede excitar o inhibir a la neurona. En una region circular mayor que rodea a la anterior el efecto de la luz es el contrario. Esto se muestra en la Figura 2.4. De este modo, existen celulas ganglionares de centro-on (o de respuesta central-on) y celulas de centro-o (o de respuesta central-o ). Las primeras responden con un incremento en su respuesta cuando un peque~no punto de luz se coloca en

10

Captulo 2. Introduccion

Figura 2.4: Organizacion de centro-periferia de las neuronas visuales.

el centro de su campo receptivo y las segundas responden con una supresion de su respuesta. El sistema visual tiene una resolucion muy alta para los detalles proyectados en la fovea. En ella, la parte central de los campos receptivos contiene un numero muy peque~no de conos. Incluso el sistema visual es capaz de discriminar entre lneas con una separacion menor que el mas peque~no de los conos. A esto se le llama hiperagudeza y depende de mecanismos cooperativos entre ltros sensibles a distintas orientaciones [180]. La resolucion decrece si nos movemos hacia la periferia de la retina. Aqu los centros de los campos receptivos estan formados por miles de receptores. Todo esto crea una percepcion de resolucion variable, que es muy alta en el centro del eje optico y decrece hacia la periferia del campo visual. Es decir, conforme se avanza de la fovea a la periferia de la retina la agudeza visual se hace menor [23].

Clases de celulas ganglionares En 1953, Kuer [102] y Barlow [13] registraron por primera vez la actividad de los canales de salida de las celulas ganglionares. Estudios posteriores realizados con gatos mostraron que en estos se distinguen tres tipos de celulas ganglionares, denominadas X, Y y W [158], aunque la existencia del tipo W aun es debatida entre los investigadores y muchos de ellos creen que el analisis basico de la escena visual se realiza principalmente por las celulas X e Y. En los primates las celulas ganglionares se agrupan solo en dos categoras, P y M [93, 158, 111], cuyas caractersticas coinciden con las de las celulas X e Y excepto en que las celulas P son sensibles al color en los primates y no en los gatos. Las caractersticas que distinguen a estos dos tipos de celulas desde un punto de vista funcional son las siguientes:

 Velocidad de transmision : Con respecto a la velocidad con que los impulsos nerviosos

viajan por sus axones, las celulas P son las mas rapidas (40 m/s). La velocidad de las celulas M es la mitad que la de las P.  Resolucion espacial : Las celulas P tienen campos receptivos peque~nos permitiendo el

2.1. El sistema visual humano

11

procesamiento de rasgos detallados, incluyendo el color. Las celulas M tienen campos receptivos grandes y no son muy selectivas al procesamiento espacial o al color.  Resolucion temporal : Las celulas P dan respuesta solamente ante estmulos estacionarios, mientras que las celulas M responden mejor a patrones transitorios, modulados temporalmente a 20 Hz o mas.  Latencia y persistencia : Las celulas P tienen respuestas mas persistentes que las celulas M. Cuando son estimuladas, las celulas P mantienen su actividad nerviosa durante todo el tiempo que dura el estmulo. En cambio, las celulas M responden con un breve pulso solo cuando el estmulo empieza o termina.  Distribucion en la retina : Hay mayor numero de celulas P que de M. Las celulas P estan concentradas en el centro de la fovea, contribuyendo a la agudeza visual; las celulas M son mas abundantes en la periferia de la fovea. Estas dos categoras de celulas di eren tambien en sus respuestas a enrejados sinusoidales [51]. Un enrejado sinusoidal esta constituido por barras claras y oscuras. No obstante, sus bordes tienen una apariencia borrosa, ya que el brillo del patron vara sinusoidalmente con la distancia, en lugar de cambiar bruscamente en los lmites de las barras. Supongamos que se superpone el campo receptivo de una neurona a un enrejado sinusoidal. La respuesta de las celulas de tipo P viene determinada por la diferencia en intensidad de la luz en el centro y en la periferia. Se dice que tienen una respuesta lineal. Las celulas M no se comportan igual y responden con un incremento en su respuesta al iluminarse o apagarse el enrejado. Tienen una respuesta no lineal. Una distincion adicional se da en sus respuestas al movimiento de los enrejados. Si se desplaza un patron sinusoidal por el campo receptivo de una celula P, la tasa de impulsos de la celula sube y baja con los picos y depresiones del patron. La respuesta de las celulas M muestra una elevacion constante ante un enrejado en movimiento. Todo esto indica que las celulas P y M forman la base de dos subsistemas diferentes del sistema visual. Un subsistema (M) se utiliza para deteccion y analisis del movimiento. El otro (P) esta especializado en el analisis de alta resolucion de patrones estacionarios y en la vision en color.

2.1.2 Las vas visuales y el nucleo geniculado lateral En los mamferos existen dos vas diferentes que transmiten la informacion visual desde la retina al cerebro. La va visual primaria se denomina sistema geniculoestriado. Los dos nervios opticos se unen en el cerebro en lo que se denomina el chiasma optico. Aqu los nervios opticos se combinan y se dividen posteriormente de tal modo que la informacion del campo visual derecho de ambos ojos se transmite por el hemisferio izquierdo y viceversa. Esta informacion llega a los nucleos geniculados laterales (LGN) del talamo (ver Figura 2.5). Cada nucleo geniculado lateral consta de seis niveles apilados uno sobre otro. Cada nivel contiene un mapa topogra co1 del campo visual contrario al hemisferio en que se encuentra y 1

Esto implica que puntos proximos en el campo visual se mantienen tambien proximos en el mapa dentro

12

Captulo 2. Introduccion

Figura 2.5: Diagrama de las vas visuales del ojo al cortex visual.

recibe sus entradas solo de un ojo. En el mono, tres de las capas reciben entradas de un ojo y tres del otro. Los campos receptivos de las celulas de los LGN son del tipo centro-periferia, similares a los de las celulas retinales. Los axones de las celulas X e Y se unen con celulas de diferentes niveles del LGN, los axones X van a los cuatro niveles parvocelulares superiores, y los axones Y van a los dos niveles magnocelulares inferiores. De este modo las se~nales X se mantienen separadas de las se~nales Y. Esta separacion se mantiene incluso en el cortex, lo que revela, como se ha comentado anteriormente, vas diferentes para la deteccion de la forma, el color y el movimiento. A la va de la forma y el color se le denomina sistema parvo (P) y a la va del movimiento sistema magno (M). A menudo se considera a los LGN como simples elementos de retransmision de la informacion visual hacia el cortex, no obstante el gran numero de axones de retroalimentacion que vuelven del cortex primario parece contradecir esto y hace pensar que estos tengan una funcion mas compleja no comprendida hasta el momento. La salida de las neuronas de los LGN se distribuye en un abanico de bras llamadas radiaciones opticas. Estas bras alcanzan celulas del cortex en la parte posterior del cerebro. El area particular que recibe la mayora de los axones se denomina cortex estriado o cortex primario visual. Hay una segunda va al cortex visual que comienza con el camino retinotectal. Consiste en un numero de bras de la region optica que se rami can hacia el bulbo raqudeo. Esta region contiene un centro visual mas primitivo, llamado tectum. La parte que recibe la mayora de de cada nivel.

2.1. El sistema visual humano

13

Figura 2.6: Diferentes nombres que se le da a las partes del cortex visual.

las bras de entrada es el colculo superior. A esta region llega informacion de las celulas Y y W, aunque tambien de distintas zonas del cortex visual. El colculo superior esta relacionado con aspectos dinamicos de la percepcion. De forma simple, su estructura esta formada por dos capas apiladas e interconectadas. La superior, que recibe las se~nales retinotectales, tiene un mapa topogra co del campo visual del lado contrario. Las neuronas del nivel inferior hacen que se generen movimientos del ojo hacia la parte del campo visual mapeado por las neuronas que estan inmediatamente encima en la capa superior. De hecho, muchos axones de la capa inferior se dirigen a centros del bulbo raqudeo que se encargan directamente de la ejecucion de comandos de movimientos del ojo. Otros axones del colculo superior llegan al talamo, pero no al LGN, sino al nucleo pulvinar y al nucleo posterior lateral. Posteriormente estas se~nales llegan al cortex visual, pero no al cortex primario. En los seres humanos, la va primaria debe estar ilesa para que sea posible la experimentacion consciente de la vision, y alguien con lesiones en el cortex visual presentara una ceguera completa, en parte o en todo el campo visual. Aun as, mostraran alguna habilidad para localizar o incluso identi car objetos que no pueden ver de modo consciente. Esto sugiere que, mientras que la mayor parte de las funciones visuales dependen de la va geniculoestriada, la va retinotectal puede contener su ciente informacion para guiar algunas acciones de modo consciente. La va retinotectal es particularmente importante para las tareas de atencion [183, 184] y movimiento de los ojos [126].

2.1.3 El cortex visual El cortex visual es un nombre generico que se le da a un conjunto de regiones interconectadas que estan en el cortex cerebral (o materia gris). Las areas visuales corticales han sido etiquetadas de varios modos a lo largo de los a~nos, y los dos principales convenios se muestran en la Figura 2.6. Uno de los primeros sistemas designa a las areas principales con los numeros 17, 18 y 19. Mas adelante se usaron etiquetas diferentes para estas areas, denominado V1 y

14

Captulo 2. Introduccion AREAS TEMPORALES

AREAS PARIETALES

V4

V5

V3

Franjas delgadas V2

Franjas de Enlace V2

Franjas gruesas V2

Bloque

Inter-Bloque

4B

V1

V1

V1

4Cb

4Ca

V1

V1

Parvo LGN

Magno LGN

Figura 2.7: Flujos de procesamiento visual [39].

V2 a las areas 17 y 18 respectivamente y dividiendo el area 19 en las subareas V3, V4 y V5. Las areas V1-V5 constituyen los primeros mapas visuales del cortex. En general, hay una organizacion jerarquica en el ujo de procesamiento entre las areas corticales. En la parte mas baja de la jerarqua, la informacion se representa de un modo retinooptico. En las areas mas altas, el tama~no de los campos receptivos es mayor y esta topologa se pierde. Esta organizacion jerarquica ayuda a comprender el papel de cada area, y permite describir el sistema completo como un conjunto de ujos de procesamiento concurrentes, responsables de extraer informacion sobre el color, la forma, la disparidad binocular y el movimiento (ver Figura 2.7).

2.1.3.1 El cortex primario visual El cortex primario visual o area V1 es el area mas estudiada del cortex visual ya que se encuentra en la base de la jerarqua. Esta compuesta por alrededor de 100 millones de neuronas en cada hemisferio y tiene una estructura en capas. Se identi can seis niveles segun la densidad de neuronas y las conexiones con el resto del cerebro, el nivel 1 en su super cie y

2.1. El sistema visual humano

15

el nivel 6 mas proximo al area V2. El nivel 4 es inusualmente espeso y esta dividido a su vez en subniveles: 4A, 4B, 4Ca y 4Cb. La mayora de los axones de las celulas del LGN terminan en el nivel 4C [88]. La informacion de los niveles magnocelulares (M) del LGN llega al subnivel 4Ca y posteriormente se transmite a las areas superiores a traves del subnivel 4B [18]. De deduce, por tanto, que la salida del nivel 4B esta relacionada con el analisis del movimiento. Por otro lado, la salida de los niveles parvocelulares (P) del LGN llega al nivel de entrada 4Cb y posteriormente se transmite a areas superiores a traves de los niveles de salida 2 y 3. En estos niveles la informacion se divide en dos ujos, llamados el parvo-bloque (P-B) y el parvo-interbloque (P-I). Las celulas del parvo-bloque muestran selectividad al color pero pobre selectividad a la orientacion [83, 110]. Las celulas del parvo-interbloque son selectivas a la orientacion y al color [39, 75].

2.1.3.2 Las vas visuales mas alla del cortex primario visual Como se muestra en la Figura 2.7, del area V1 parten tres vas de salida, una responsable del color, otra de la forma y otra del movimiento. Esta informacion pasa por las demas areas visuales, que muestran ademas fuertes interconexiones entre ellas. A continuacion se da una breve descripcion de los aspectos mas importantes del resto de areas visuales. En el area V2 se encuentran alternandose franjas delgadas y gruesas. Ademas del procesamiento del color y de la informacion del movimiento, uno de los cometidos del V2 es combinar la informacion del contraste local calculado en V1 en una escala mayor. Esto da lugar a celulas que detectan contornos largos, tanto reales como ilusorios (contornos que se perciben como continuos cuando fsicamente estan rotos o discontinuos) [147, 168]. Las franjas gruesas del V2 se caracterizan por una concentracion de celulas selectivas a la direccion y una ausencia de selectividad a la longitud de onda [84]. El area V3, cuyas entradas proceden del V1 y V2 y se proyectan en el V4 y V5, tiene celulas selectivas a la orientacion. El area V4 esta asociada con el procesamiento del color, la sntesis de formas complejas y la combinacion del color y la forma. Sus celulas tienen campos receptivos grandes que pueden abarcar multiples objetos. A ella llega informacion tanto de las celulas parvo-bloque como parvo-interbloque de los niveles superiores del area V1. El area V5 (MT o area temporal media) esta organizada retinotopicamente y representa una ruta importante de la informacion visual al cortex parietal. Este area recibe sus entradas principales del ujo M y es responsable del analisis del movimiento, en particular de los aspectos globales del movimiento, tal como el movimiento coherente de un objeto completo [185]. El cortex temporal inferior (IT) recibe su entrada del area V4 y representa el area visual nal para el reconocimiento de objetos. En este area no hay organizacion retinooptica y los campos receptivos de algunas de sus celulas pueden cubrir casi el campo de vision completo, haciendo el reconocimiento independientemente de la posicion retinal. La mayora de las neuronas responden selectivamente a caractersticas de objetos, y algunas estan especializadas en combinaciones de caractersticas particulares. El cortex parietal posterior (PP) recibe sus entradas de las areas V1, V2 y V4. Su

16

Captulo 2. Introduccion

principal objetivo es la localizacion de objetos. Ademas, parece ser el centro que analiza las con guraciones espaciales de los objetos. Debe ser capaz de memorizar las localizaciones de los objetos previamente analizados. Esta zona es importante para la atencion y los movimientos de los ojos. A diferencia de lo que se vea en el colculo superior, aqu se tratara de movimientos voluntarios destinados a analizar las relaciones espaciales entre los objetos.

2.1.3.3 Tipos de celulas en el cortex visual Los primeros trabajos de investigacion sobre la estructura del cortex visual fueron realizados por Hubel y Wiesel [85, 86, 87]. Exploraron varias regiones corticales visuales con microelectrodos y clasi caron las neuronas registradas en cuatro tipos:

 Celulas de centro-periferia : Son similares a las que se encuentran en la retina y en el LGN. En el cortex primario se observan en la capa 4Ca.

 Celulas simples : Reciben sus entradas de las salidas de las celulas de centro-periferia [88].

Son sensibles a lneas orientadas y se encuentran en las capas 4B y 4Cb del cortex visual [87]. Probablemente existen dos tipos de celulas: una simetrica y otra antisimetrica. En [136] se registro simultaneamente la respuesta de pares de celulas adyacentes con identica frecuencia y orientacion. Tales pares de celulas di eren aproximadamente 90% en fase espacial. Esto sugiere que las celulas simples aparecen en pares de celulas simetricas y antisimetricas con campos receptivos solapados.

 Celulas complejas : Tienen campos receptivos mayores que las celulas simples. Varias celulas simples excitan a una compleja [87]. Responden a estmulos de una orientacion particular, igual que las simples. Tambien responden preferentemente al movimiento dentro del campo receptivo, siendo importante ademas la direccion de ese movimiento. Son las celulas mas comunes del cortex visual, alrededor de un 75% de la poblacion.

 Celulas hipercomplejas : Actuan como si recibieran la entrada de dos o mas celulas

complejas. Responden no solo a la orientacion o a la direccion del movimiento del estmulo, sino tambien a caractersticas particulares tales como nales de lneas, esquinas y segmentos curvados. Estas celulas son atpicas en el cortex primario visual, donde se encuentran en las capas 2 y 3, pero son mas abundantes en las areas visuales secundarias.

Las celulas del cortex visual presentan cierto tipo de organizacion en columnas. Las neuronas con campos receptivos que tienen similar eje de orientacion estan localizados uno encima de otro formando columnas discretas denominadas columnas de orientacion ; si nos movemos a columnas adyacentes encontramos un cambio continuo en la orientacion de los ejes de los campos receptivos. Otro sistema de organizacion en columnas es el que tiene lugar por la preferencia de ojo. En el cortex estriado, las entradas de los dos ojos se mantienen primero separadas, tal y como ocurre en el LGN. En el nivel 4, las neuronas reciben su entrada solo de un ojo. Fuera de este nivel, las celulas simples y complejas son binoculares (reciben su entrada de ambos ojos), pero cualquier celula particular puede tener una preferencia por la entrada de uno particular, y hay un rango continuo de dominancia entre las celulas por un ojo o el otro. Estos agrupamientos se denominan columnas de dominancia ocular.

2.1. El sistema visual humano

17

Figura 2.8: Funcion de sensibilidad al contraste tpica.

2.1.4 La sensibilidad al contraste Un modo adecuado de trabajar con sistemas lineales es caracterizarlos considerando la respuesta del sistema con respecto a un conjunto de funciones armonicas. Esto tambien se hace para describir el sistema visual y lleva al concepto de funcion de sensibilidad al contraste. Previamente a ello de niremos los conceptos de contraste, umbral de contraste y sensibilidad al contraste. La informacion que es importante para el sistema visual no es la diferencia absoluta en luminosidad, sino la diferencia relativa. Esta diferencia relativa puede expresarse como la razon entre dos valores de luminosidad, lo que se denomina razon de contraste, o por la diferencia entre dos valores de luminosidad dividido por la suma de ellos, lo que se llama simplemente contraste. Para enrejados sinusoidales generalmente se calcula el contraste utilizando la formulacion de Michelson:

C = LLmax + LLmin max

min

(2.1)

donde C es el contraste y Lmin y Lmax son los valores de luminosidad mnino y maximo. Las neuronas solo responden a estmulos por encima de un cierto contraste. El contraste necesario para provocar una respuesta en las neuronas se denomina umbral del contraste. La inversa del umbral del contraste es la sensibilidad al contraste. La sensibilidad al contraste vara con la frecuencia, y esta dependencia se representa mediante la funcion de sensibilidad al contraste (CSF). Estudios siologicos y psicofsicos demuestran que existe un comportamiento paso-bajo del ojo y un comportamiento paso-alto de la retina [36]. El comportamiento general es paso-banda con un pico en la sensibilidad alrededor de los 3 a 10 ciclos/grado y una frecuencia de corte alrededor de los 64 ciclos/grado. La CSF es realmente una funcion que no solo depende de la frecuencia espacial, sino tambien de la frecuencia temporal, la orientacion, etc. Una CSF tpica se muestra en la Figura 2.8.

18

Captulo 2. Introduccion

Sensibilidad al contraste

1 0 0 1 0 1 0 1 0 1 1 0 0 1 0 1 0 1 0 1

1.0

10

100

Frecuencia espacial (c/grado) Adaptacion frecuencial

000000000000 111111111111 11 00 1111111111 0000000000

Figura 2.9: La curva solida muestra la CSF y la curva punteada muestra la adaptacion a enrejados de alto contraste en la frecuencia indicada por la echa.

2.1.5 La estructura multicanal del SVH Diferentes evidencias en el SVH concluyen que este realiza algun tipo de analisis frecuencial. Blakemore y Campbell [17] midieron la funcion de sensibilidad al contraste de un individuo. En la Figura 2.9 se muestra la CSF medida antes y la medida usando enrejados sinusoidales de alto contraste. La CSF medida despues de la exposicion al enrejado de alto contraste se muestra por los datos punteados; se puede notar una depresion en la sensibilidad al contraste en aquellas frecuencias proximas a la frecuencia del enrejado. Para explicar este resultado, Campbell y Robson [25] invocaron una hipotesis sobre la existencia de un numero de canales individuales en el sistema visual, actuando cada uno de ellos sobre un estrecho rango de frecuencias. Usaron ondas cuadradas y su representacion espectral para identi car los diversos mecanismos de la vision humana. Sus estudios dieron una prueba de la teora multi-resolucion, segun la cual la representacion neural de una imagen es un conjunto de imagenes expresado a varias escalas y sensible a estrechas bandas de frecuencia y orientacion. De esta forma, la CSF global vendra determinada por el valor maximo a la sensibilidad al contraste de cada uno de esos canales. As, una CSF se crea a partir de la suma de las respuestas de los canales individuales (ver Figura 2.10(a)). Blakemore y Campbell asumieron que un canal fuertemente estimulado que llega a un estado de adaptacion, lo que supone que es menos sensible al estmulo, necesitara un enrejado con un contraste mas alto para estimularlo. Una adaptacion de esta forma indica una perdida de sensibilidad al contraste; su curva de sensibilidad al contraste se mueve hacia abajo como se puede observar en la Figura 2.10(b).

19

Sensibilidad al contraste

Sensibilidad al contraste

2.2. Modelos de representacion visual

Figura 2.10: (a) La CSF (trazo discontinuo) es la envolvente de un numero de canales individuales, cada uno sensible a un estrecho rango de frecuencias. (b) Resultado de la adaptacion a un enrejado de alto contraste en la frecuencia mostrada por la echa. El canal que se muestra con la curva con trazo solido es el mas afectado por la adaptacion; los demas se ven afectados en menor o en ninguna proporcion.

2.1.6 Enmascaramiento Algunas de las evidencias actuales mas convincentes de que el SVH analiza una escena visual de acuerdo a sus componentes frecuenciales viene del paradigma experimental denominado enmascaramiento. El enmascaramiento ocurre cuando un estmulo que es visible por s mismo no puede ser percibido debido a la presencia de otro. Una vez hecho un enmascaramiento sobre un estmulo se puede realizar un test presentando el estmulo enmascarado y sin enmascarar, y preguntandole al individuo si es capaz de detectar ambos estmulos. En general, el enmascaramiento del estmulo lo hace mas difcil de detectar que si se presentara de forma aislada. El objetivo es buscar aquella mascara que pueda usarse en una banda de frecuencias proximas a las frecuencias del estmulo a enmascarar. Esto es consistente con una hipotesis multicanal ya que si el estmulo se detecta por una relativa excitacion de varios canales y si la mascara afecta a estos mismos canales que se excitan, la percepcion estara distorsionada. Si la mascara solo afecta a canales que tienen su valor maximo en frecuencias espaciales muy diferentes del estmulo, los canales que recogen la informacion acerca del estmulo a ser analizados no se veran afectados.

2.2 Modelos de representacion visual Esta seccion hace una breve revision de algunos modelos de representacion visual propuestos en la literatura. La descripcion va desde modelos monocanal basicos en el apartado 2.2.1 hasta modelos multicanal mas complejos en el apartado 2.2.2. En general, los modelos monocanal son capaces de predecir comportamientos simples del sistema visual humano pero fallan en otros casos. Los modelos multicanal permiten la prediccion de la visibilidad de patrones mas

20

Captulo 2. Introduccion

complejos. La incorporacion de enmascaramiento dentro de cada canal y entre canales se tiene en cuenta para predecir fenomenos mas complejos.

2.2.1 Modelos monocanal 2.2.1.1 Modelo de Schade El primer modelo computacional de vision fue dise~nado por Schade en 1956 [157]. Su objetivo era poder predecir la sensibilidad que tena la vision foveal a determinados patrones. Asumio que la representacion cortical de una imagen puede obtenerse mediante una transformacion invariante a desplazamientos de la imagen retinal. Como consecuencia de esta restriccion, dicha transformacion puede generarse calculando la respuesta a partir de un unico campo receptivo lineal. El campo receptivo lineal es equivalente al nucleo de convolucion de la transformacion. Si conocemos N muestras de un estmulo unidimensional x[i] (0  i < N ), la representacion neural del estmulo y[i] se consigue del siguiente modo:

y[i] =

NX1 l=0

h[i l]x[l]

(2.2)

siendo h[:] el impulso respuesta del campo receptivo lineal. Schade estimo el nucleo de convolucion de la transformacion utilizando una funcion de sensibilidad al contraste. Para ello realizo un test a diferentes observadores sobre la visibilidad de patrones sinusoidales con diferentes contrastes. Con estas medidas de nio una funcion de sensibilidad al contraste que le permitio calcular el nucleo de convolucion. La se~nal h[:] estimada a partir de tales medidas es una aproximacion de la funcion linespread 2 y se denomina funcion linespread psicofsica. Schade sugirio que tal funcion podra ser descrita como la diferencia de dos funciones gaussianas. El modelo de Schade es capaz de predecir correctamente la visibilidad de patrones simples. No obstante el modelo falla si se incrementa la complejidad de la se~nal de entrada. En general no es capaz de predecir adecuadamente la visibilidad de mezcla de se~nales y de se~nales de frecuencias espaciales muy bajas.

2.2.1.2 Criterio de delidad de la imagen de Sakrison y Mannos Otro modelo monocanal que surgio con posterioridad fue el desarrollado por Mannos y Sakrison [115]. E ste fue uno de los primeros trabajos en ingeniera que uso conceptos de la vision. El modelo se aplicaba directamente a la construccion de una medida de distorsion. Ademas en este trabajo se reconocio por primera vez que una medida de distorsion basada en criterios de diferencias cuadraticas entre dos imagenes no puede predecir la diferencia o calidad de percepcion de una imagen con respecto a otra. Basandose en experimentos psicofsicos sobre la visibilidad de se~nales in rieron algunas propiedades del SVH y las incorporaron a su medida de distorsion. Sus experimentos les llevaron a dar una forma analtica de la funcion de sensibilidad al contraste que mas tarde 2

La funcion linespread del ojo de ne la respuesta del ojo a una fuente de luz con forma de lnea.

2.2. Modelos de representacion visual

21

ajustaron a los datos. La forma de su CSF, que sera posteriormente utilizada en este trabajo, viene dada por:

  k1 !   k2

S () = A c +  0

e

0

(2.3)

donde S es la sensibilidad espacial,  es la frecuencia espacial y A, c, k1 , k2 y 0 son parametros a ser estimados. Realizaron un test con un conjunto de individuos a los que preguntaron la calidad de imagenes distorsionadas. Basandose en los datos de este test estimaron los parametros de la CSF y nalmente obtuvieron la siguiente funcion:

S () = 2:6(0:0192 + 0:114)e

(0:114)1:1

(2.4)

La medida de distorsion que propusieron consista en multiplicar el error espectral por la CSF y luego calcular su energa. Si u(x; y) es una imagen original, u^(x; y) una version distorsionada de esa imagen y x e y son las coordenadas espaciales, la medida de distorsion de Mannos y Sakrison e viene dada por la siguiente ecuacion:

e=

ZZ

 

S ()[v(; ) v^(; )]

(2.5)

donde  y  son la frecuencia espacial y la fase y v(; ) y v^(; ) son las transformadas de Fourier de la imagen original y de la distorsionada respectivamente. Esta metrica es bastante simple ya que incorpora pocos aspectos de la vision humana y esta basada en el modelo de vision mas simple, el modelo de un solo canal. Fue, sin embargo, la primera metrica basada en evidencias siologicas y psicofsicas de la vision.

2.2.1.3 Otros trabajos basados en modelos monocanal Despues de Mannos y Sakrison aparecieron otros trabajos usando un modelo de vision de un unico canal. En la mayora de los casos la aplicacion estudiada era la evaluacion de la calidad de una imagen o la codi cacion. Algunos de ellos se mencionan a continuacion. Nill [129] propuso una transformada coseno con pesos para la codi cacion de imagenes digitales. Su modelo es una extension del modelo de Mannos y Sakrison. Su innovacion es la adaptacion de la formulacion de la funcion de sensibilidad al contraste para el uso de la trasformada de coseno discreta (DCT) para representar la imagen as como para tener un modelo que pueda ser incorporado en codi cadores basados en la DCT. Saghri et al. [154] combinaron los trabajos de Mannos y Sakrison y de Nill y ademas re naron el modelo para tener en cuenta la calibracion del dispositivo, la distancia de vision y la resolucion de la imagen. Ahumada y Beard [4, 5] tambien propusieron un modelo de vision usando un unico canal. Este modelo presentaba fallos cuando la luminosidad de la imagen o la energa de contraste del enmascaramiento variaba espacialmente dentro de la imagen. Posteriormente propusieron una mejora al modelo [6] que utiliza la luminosidad y la energa del contraste local en vez de global.

22

Captulo 2. Introduccion

Las aplicaciones desarrolladas sobre estos modelos fueron, entre otras, la detectabilidad de objetos [5, 7, 148] o la valoracion de la calidad de imagenes [4, 6].

2.2.2 Modelos multicanal Los modelos monocanal fallan en muchos casos al predecir la visibilidad de patrones. No son capaces de responder bien ante patrones de muy baja frecuencia espacial, patrones complejos o mezcla de patrones. Por otro lado, diferentes estudios psicofsicos [25] evidencian que la percepcion visual tiene una estructura multicanal. Algunos modos de realizar la particion en multiples canales se describen en el apartado 2.2.4. A continuacion se hace una revision de algunos modelos multicanal desarrollados por distintos autores.

2.2.2.1 Trabajos de Watson Watson y su grupo han propuesto distintos modelos de vision que tienen en cuenta muchos aspectos de la vision humana. Sus trabajos son una referencia importante en el campo de las ciencias de la vision. Watson introdujo una herramienta interesante, la transformada del cortex [173]. Se trata de una herramienta de descomposicion que simula distintos mecanismos de la vision. La descomposicion es parecida a una piramide de funciones Laplacianas [24]. Los ltros usados son ltros paso banda en frecuencia espacial y en orientacion y tienen una forma parecida a la de un ltro Gabor. Considera cuatro orientaciones y cuatro bandas de frecuencia. El eje frecuencial se divide en bandas de una octava. En cada nivel frecuencial, los datos son submuestreados de tal forma que se evitan problemas de alisado en las subbandas como ocure con la transformada wavelet [141]. La transformada es invertible por un simple submuestreo y adicion. La operacion de ltrado esta implementada como una operacion de multiplicacion en el dominio frecuencial. La transformada del cortex ha sido usada como herramienta de descomposicion en muchos de los trabajos de Watson. En [174] se introduce un modelo completo de vision espacial para codi cacion de imagenes. En este trabajo la transformada del cortex se usa como una primera etapa de analisis de los datos. La sensibilidad a patrones se modela usando una funcion de sensibilidad al contraste y enmascaramiento dentro de cada canal. Las se~nales ltradas son posteriormente cuantizadas por una medida perceptual que minimiza el error percibido. La transformada del cortex ha sido tambien usada en modelos de discriminacion visual [7, 148] para predecir la deteccion de objetos en escenas naturales. En este trabajo el modelo multicanal es comparado con un modelo monocanal simple. El modelo multicanal solo considera enmascaramiento dentro de los canales. La conclusion de este estudio fue que, para esa aplicacion particular, ambos modelos se comportaban de forma similar. La transformada HOP fue introducida en [177] como una herramienta de descomposicion alternativa. Esta transformada es una piramide hexagonal en cuadratura orientada ortogonalmente que opera sobre un retculo hexagonal de una entrada. Usa una base de funciones ortogonales y conjuntamente localizadas en espacio, fase, frecuencia y orientacion. Hay siete funciones base (una paso bajo y seis paso banda). La transformada tiene una estructura piramidal y cada nivel es calculado a partir del nivel anterior. Los p niveles son submuestreados de forma que el espaciado en cada nivel sea de un factor de 7 mayor que el anterior. De

2.2. Modelos de representacion visual

23

Figura 2.11: Curva del contraste de deteccion para un objeto ante la presencia de una mascara. En la gra ca de la izquierda la mascara y el objeto tienen aproximadamente la misma orientacion. En la gra ca de la derecha la mascara y el objeto tienen diferentes orientaciones.

esta forma, el numero de coe cientes es reducido por un factor de 7 en cada nivel. La transformada es una representacion completa de la imagen de entrada y aproxima correctamente las frecuencias y ancho de banda en orientacion de las neuronas corticales. Sin embargo, esta transformacion presenta algunos problemas: (i) los ltros tienen un segundo lobulo en la direccion ortogonal al lobulo principal; (ii) el alto factor de submuestreo entre niveles (7) produce menos escalas de las necesarias por lo que la invarianza frente a rotaciones de la transformada se ve reducida; (iii) por ultimo, los canales de la trasformada HOP son mas anchos en orientacion que en frecuencia mientras que las celulas corticales realizan lo contrario. Otra conocida herramienta desarrollada por Watson es el denominado algoritmo DCTune [176]. Se trata de un algoritmo dise~nado para optimizar las matrices de cuantizacion del codigo estandar JPEG [78].

2.2.2.2 Un modelo para aplicaciones de codi cacion de imagenes En [28], Comes propuso un modelo de vision espacial para aplicaciones de codi cacion de imagenes. Este modelo de vision tiene muchas similitudes con el propuesto por Watson. En este modelo se han utilizado distintas herramientas de descomposicion para implementar la descomposicion en canales dependiendo de la aplicacion nal para la que va a ser utilizado. Algunas de estas aplicaciones utilizan un banco de ltros Gabor clasico. Para aplicaciones de restauracion se introdujo un banco de ltros de perfecta reconstruccion. Este banco es parecido a uno con funciones de tipo Gabor, pero sin operacion de submuestreo y ofrece inversibilidad. Tambien se utilizo un banco de ltros no separables, especialmente para aplicaciones de codi cacion.

2.2.2.3 Modelo de Foyle y Boynton Legge y Foley propusieron en [106] una teora de enmascaramiento visual simultaneo que suma linealmente las zonas excitatorias de un campo receptivo. Esto dio lugar a un modelo que solo consideraba enmascaramiento dentro del canal. Experimentos neuro siologicos llevados a cabo con gatos [19] demostraron, sin embargo, que existe una interaccion entre anchos de

24

Captulo 2. Introduccion

banda en los patrones visuales. Heeger entonces propuso un modelo de las respuestas de las celulas corticales de los gatos donde la respuesta de la celulas esta modelizada por la division de un mecanismo excitatorio (suma lineal sobre el campo receptivo) entre un mecanismo inhibitorio [81, 82]. Foley y Boynton [66] realizaron experimentos sobre enmascaramientos simultaneos de patrones Gabor por enrejados sinusoidales. En esos experimentos, el umbral del contraste del objeto fue medido como funcion del contraste, de la orientacion, de la fase y de la frecuencia de la mascara. Usaron estos resultados para comprobar la teora de Legge y Foley. Un importante resultado de sus estudios es el efecto que produce la orientacion de la mascara sobre las curvas umbralizadas. Una conclusion es que existe algun enmascaramiento entre canales y que este fenomeno puede ser signi cativo. La Figura 2.11 muestra el tipo de medidas que obtuvieron. Consideremos dos estmulos, una mascara y un objeto. Sea CTo el umbral de deteccion del objeto medido en ausencia de la mascara, CT el umbral de deteccion de la se~nal en presencia de una mascara y CM el contraste de la mascara. Si la mascara y el objeto tienen la misma orientacion, el diagrama de enmascaramiento se parece a la gra ca izquierda de la Figura 2.11. Existe una region, cuando CM < CTo , donde la mascara no in uye en la percepcion del objeto. Cuando CM > CTo , el contraste de deteccion del objeto crece exponencialmente con el contraste de la mascara (es decir, la deteccion del objeto se hace mas difcil). Cuando el contraste de la mascara y del objeto son muy parecidos la curva presenta una peque~na depresion. Esto signi ca que, en este valor de contraste, la mascara ayuda a la deteccion del objeto. En de nitiva, la deteccion del objeto se facilita cuando la mascara se encuentra en la misma orientacion a la de este. Cuando la mascara y el objeto di eren en orientacion, la curva de deteccion es parecida a la que se muestra en la gra ca derecha de la Figura 2.11. La diferencia con el caso anterior es que la curva no presenta una depresion cuando CM  CTo .

2.2.2.4 Modelo de Heeger y Teo Heeger y Teo [165, 166] propusieron un modelo computacional y una metrica de calidad para imagenes estaticas, basandose en la respuesta de las celulas corticales del gato y en los datos de Foley y Boynton. En una primera etapa el modelo descompone la imagen en canales perceptuales. Esta descomposicion esta implementada con ltros coseno en [165] o utilizando la piramide dirigida [161] de Simoncelli et al. en [166]. Posteriormente los coe cientes son normalizados para restringir la salida a un cierto rango dinamico. Sea A un coe ciente de la salida de la primera etapa con orientacion . La salida normalizada para el coe ciente R se calcula del siguiente modo:  2 (2.6) R = k P (A(A ))2 + 2  donde  se mueve por todas las orientaciones, k es una constante de escalado global y  es

una constante de saturacion. La sumatoria se hace solamente a traves de las orientaciones y no a traves de la frecuencia espacial, al igual que el enmascaramiento entre canales esta restringido a canales que tienen la misma frecuencia [66]. Los valores para las constantes k y  se obtienen ajustando el modelo a los datos de Foley y Boynton.

2.2. Modelos de representacion visual

25

PARTE PAR

PARTE IMPAR

Figura 2.12: Parte par (simetrica) a la izquierda y parte impar (antisimetrica) de un ltro Gabor.

Sea Ro un vector con todas las salidas calculadas como en la ecuacion 2.6 para una imagen original y Rd el vector correspondiente para una version distorsionada de la imagen original. La medida de distorsion es calculada como el cuadrado de la norma de la diferencia entre Ro y Rd : R = jRo Rd j2

(2.7)

2.2.3 Relacion entre aspectos siologicos y computacionales Aunque existe una gran diferencia entre el sistema visual de diferentes mamferos, hay tambien numerosas similaridades, especialmente en la representacion de la informacion espacial. El area donde se estima que se inicia esta representacion es el area primaria del cortex visual. Como hemos visto anteriormente, este area esta formada por celulas que reciben entradas de las neuronas de un ojo (va el LGN). Las neuronas en el cortex visual primario son selectivas a un numero de estmulos parametrizados. Situando un electrodo cerca de esas neuronas y emitiendo peque~nos cambios de voltajes en la membrana de la celula, se encontro que las neuronas responden a un rango selectivo de estmulos. Hubel y Wiesel [87] fueron los primeros en producir un mapa espacial de las respuestas de esas celulas. Mediante el movimiento de peque~nas lneas y puntos de luz frente al animal, comprobaron que las neuronas respondan cuando un estmulo apropiado se presentaba en una region particular del campo visual. Las celulas corticales simples responden a distintas posiciones en el campo visual, teniendo a la vez diferentes campos receptivos orientados en diferentes angulos y con diferentes tama~nos. De esta forma el campo visual es cubierto por campos receptivos que varan en tama~no y orientacion. Las celulas simples son igualmente selectivas a una banda limitada de orientacion y frecuencia [17, 25, 113]. En 1980 Marcelja [116] demostro que la funcion Gabor [69] (una funcion sinusoidal modulada por una gaussiana) muestra un numero de interesantes similitudes con los campos receptivos de las neuronas corticales (ver la Figura 2.12 y 2.13 en las que se muestran los per les de la parte par e impar de una funcion Gabor y de una funcion log Gabor). Segun Marcelja los campos receptivos de las celulas simples pueden representarse mediante

26

Captulo 2. Introduccion

PARTE PAR

PARTE IMPAR

Figura 2.13: Parte par (simetrica) a la izquierda y parte impar (antisimetrica) a la derecha de un ltro log Gabor.

funciones Gabor que poseen la propiedad de actuar sobre el dominio espacial y frecuencial y a la vez maximizan la localizacion tanto en espacio como en frecuencia, lo que es equivalente a minimizar la incertidumbre que se da al tratar de realizar una perfecta localizacion en los dos espacios (ver el Apendice A para mas detalles). Las funciones Gabor fueron generalizadas a 2D por Daugman [31, 34, 33]. Un operador Gabor responde bien a un estmulo mas brillante que la luminancia media en las regiones excitatorias y mas oscuro que dicha luminancia media en las regiones inhibitorias. No obstante Hawken y Parker [80] mostraron que otros tipos de funciones (p.ej. diferencias de gaussianas) pueden aproximar estos campos receptivos. Todas las funciones propuestas para modelizar involucran descripciones en terminos de funciones orientadas que estan bien localizadas en espacio y frecuencia. Segun Barlow [14] el sistema sensorial esta organizado de tal forma que consigue una representacion de los estmulos sensoriales con el mnimo numero de neuronas activas. Por lo tanto habra celulas simples que se activaran ante determinadas escenas y otras que pasaran a un plano sin actividad. En [81], Heeger propuso un modelo, diferente a los modelos puramente lineales, para representar las respuestas de celulas simples y complejas del cortex visual.

2.2.4 Dise~no multicanal Las escenas retinales son analizadas por diferentes celulas simples que se excitan ante un estmulo que se presenta en su campo receptivo en una determinada orientacion y frecuencia. Dicha respuesta sera mayor si el estmulo se presenta en la orientacion y frecuencia preferente de la celula. De esta forma, nuestra imagen retinal sera representada en lo que computacionalmente llamamos espectro de potencias de Fourier y cada una de las respuestas de las funciones ( ltro ideal paso banda, diferencia de gaussianas, ltro Gabor, log Gabor, ...) hara referencia a la respuesta de una celula simple. La eleccion de las orientaciones y frecuencias en las que se activan esas celulas y el tipo de codigo para representar las mismas ha dado lugar a diferentes dise~nos multicanal.

2.2. Modelos de representacion visual

27

Figura 2.14: Diferentes modelos para cubrir el espectro de frecuencias [114]

Con respecto al primer aspecto, la eleccion de orientaciones y frecuencias para realizar la particion multicanal, existen diferentes metodos que, de forma simpli cada, podemos clasi car como:

 Fija: En la que se seleccionan generalmente n orientaciones (normalmente 4 orientacio-

nes de alrededor de 40 grados cada una de ancho de banda [38]) y se dividen en bandas de frecuenciales atendiendo a que el espectro de potencias decae siguiendo la razon 1=f 2 , siendo f la frecuencia. En la Figura 2.14 se muestran diferentes particiones propuestas por Daugman [35], Watson [173], Navarro y Tabernero [127] y Ebraini y Kunt [41]. Todas ellas se pueden clasi car como jas aunque solamente las tres primeras se describen mediante una orientacion constante de alrededor de 30% y ancho frecuencial de alrededor de una octava.  Semi ja: Se suponen n orientaciones (al igual que antes en la mayora de los trabajos son 4) y se divide cada orientacion en bandas frecuenciales de acuerdo a una funcion criterio [9, 121].  Variable: La particion tanto en frecuencias como en orientaciones se decide dependiendo de los datos de entrada. Es una particion multicanal conducida por los datos [145, 146]. Este tipo de particion permite determinar con mayor precision donde se encuentra la informacion en el dominio frecuencial y por tanto tambien espacial.

Con respecto al segundo aspecto, el tipo de codigo, en [64] se explican las diferencias fundamentales entre una representacion que usa un codigo compacto y un codigo poco denso, que son:

28

Captulo 2. Introduccion

 El primero se caracteriza por hacer uso de un subconjunto del codigo total tal que este tenga una respuesta fuerte a la escena de entrada, siendo mnimo el error RMS al representar con este codigo la imagen. Como ejemplo de este codigo tenemos la transformada KL [90]. En general producen buenos resultados para la compresion de imagenes.

 El segundo tipo se caracteriza por usar el codigo completo para cualquier imagen. De

esta forma cada funcion de la base tendra una probalilidad alta de respuesta ante el conjunto total de posibles imagenes pero, sin embargo, tendra una probabilidad de respuesta baja para cada escena particular. Una descomposicion wavelet de una imagen se corresponde con un codigo poco denso.

2.3 Metricas de distorsion Muchos de los modelos descritos en la seccion anterior tienen asociadas metricas de distorsion que se utilizan en diversas aplicaciones. A veces es difcil separar en un trabajo la descripcion del modelo de la descripcion de la metrica en s. La importancia de desarrollar metricas de distorsion esta en el hecho de que muy a menudo otras muchas aplicaciones (reconstruccion, restauracion, ...) necesitan como elemento basico que exista de nida una medida de distancia entre dos imagenes sobre el modelo computacional. Existen varias revisiones interesantes de metricas de distorsion. En particular, Ahumada [3] proporciona un resumen conciso de distintas metricas perceptuales. Eskicioglu [52] examina un conjunto de metricas, pero se centra principalmente en medidas clasicas. Daly [29] proporciona una interesante discusion sobre diversos factores visuales que deberan ser incorporados en una metrica perceptual dise~nada para predecir la distorsion de una imagen. Eckert [43] hace una revision de un conjunto de metricas de calidad, sus ventajas, desventajas y limitaciones en su uso para imagenes comprimidas. A continuacion discutimos algunos de los factores visuales que son generalmente incorporados en las metricas de distorsion y posteriormente se describen algunas metricas de distorsion que aparecen en la literatura.

2.3.1 Factores visuales usados en las metricas de distorsion perceptuales Hay un conjunto de factores perceptuales cuya in uencia en la visibilidad de distorsiones en imagenes estaticas es comunmente aceptada. La importancia de cada una de las caractersticas que listaremos a continuacion es bien reconocida, aunque la implementacion particular puede variar entre las distintas metricas. El conocimiento sobre los factores perceptuales es desigual, con modelos bien aceptados para factores visuales tales como las funciones de sensibilidad al contraste y la adaptacion a la luminosidad, y modelos aun incompletos para factores perceptuales tales como el enmascaramiento del contraste y la suma de errores. A continuacion se se~nalan algunos de los principales factores perceptuales usados en las metricas de distorsion:

 Funciones de sensibilidad al contraste: Es el atributo perceptual mas ampliamente

utilizado tanto por metricas simples como complejas. Modelos de curvas de sensibilidad al contraste abundan en la literatura [16, 115, 156]. Un excelente resumen de curvas de

2.3. Metricas de distorsion

29

sensibilidad al contraste para varias con guraciones de estmulos fue proporcionado por Peli [134], quien midio las funciones de sensibilidad al contraste para ondas sinusoidales con diferentes aperturas y estmulos Gabor de varios anchos de banda. Demostro que la forma de la CSF cambia signi cativamente si se vara la presentacion temporal, el estmulo o la apertura del estmulo. En concreto, la suposicion de que la CSF es paso-banda generalmente se obtiene solo para sinusoidales en un rango de aperturas espaciales. La CSF medida para estmulos Gabor con un ancho de banda de una octava es tpicamente mas una funcion paso-bajo [134, 175]. El hecho de utilizar una CSF paso-banda implica una atenuacion en las bajas frecuencias y si se usa una CSF paso-baja no se produce esa atenuacion. La cuestion esta entonces en si se utiliza atenuacion en las bajas frecuencias o no. En el caso particular de utilizar la metrica como medida de calidad en un esquema de compresion, la atenuacion implica que la cuantizacion puede ser incrementada para frecuencias espaciales bajas en relacion con las frecuencias en un rango medio. Sin embargo, al incrementar la distancia de vision se cambiaran los artefactos de bajas frecuencias a frecuencias espaciales para las cuales el observador tiene mayor sensibilidad. Por tanto, un artefacto que es invisible para una distancia dada puede ser visible cuando la distancia de vision se incrementa. Ahumada y Peterson [2] sugieren que la mejor aproximacion, en el contexto de la compresion de imagenes, es asumir una funcion paso-bajo para asegurar que los artefactos de cuantizacion seran menos visibles para distancias de vision mas grandes.  Adaptacion a la luminosidad: Es conocido que la sensibilidad a las diferencias de intensidad depende de la luminosidad local dentro de cada region de la imagen. El modelo basico para esta dependencia es la ley de Weber-Fechner, que establece que la sensibilidad a las diferencias de luminosidad en un estmulo es proporcional a la luminosidad media del estmulo (el umbral del contraste permanece constante conforme aumenta el nivel de luminosidad). La adaptacion a la luminosidad se incorpora de distinta forma en los diferentes modelos. Puede ser implementada en el dominio espacial [15, 29] o en el dominio frecuencial [1, 112, 133, 176]. En el dominio espacial es modelada usando una no-linealidad, tpicamente una funcion logartmica, raz cubica o raz cuadrada antes de la transformacion lineal. Una implementacion en el dominio frecuencial se obtiene dividiendo los coe cientes AC por una estimacion de la luminosidad local. Por ejemplo, Peli [133] y Lubin [112] implementan este enmascaramiento dividiendo la energa en una banda de frecuencia por una estimacion de la luminosidad local obtenida a partir de una version ltrada paso-bajo de la imagen. En general, una implementacion en el dominio espacial o frecuencial del enmascaramiento de luminosidad tiene solo una peque~na in uencia en las predicciones de los modelos, excepto en casos donde el contraste en la imagen es grande [96], o la localizacion espacial del enmascaramiento es signi cativa.  Transformaciones lineales: Muchas evidencias psicofsicas sugieren que la vision humana consiste en un numero de canales visuales paralelos [131]. Estos canales son selectivos en frecuencia espacial con aproximadamente una octava de ancho de banda y en orientacion con una sensibilidad entre 15 y 60 grados, dependiendo del estmulo usado en el experimento. Un numero de requisitos y propiedades deseables para las transformaciones lineales usadas para modelizar la naturaleza selectiva a la frecuencia de la vision humana han sido descritas por Daly [29] y Watson [173]. Incluyen la se-

30

Captulo 2. Introduccion lectividad en frecuencia y orientacion, linealidad y/o cuadratura de fase, solapamiento mnimo entre canales adyacentes, respuesta frecuencia unidad, invarianza frente a cambios y variacion frente a la escala (peque~na extension espacial para altas frecuencias). Ademas, un numero de propiedades matematicas, como la ortogonalidad y la invertibilidad, son ventajosas. La mayora de las transformaciones lineales usadas reunen algunas de estas propiedades, aunque no todas. Por ejemplo, la transformada wavelet tiene solo tres canales sensibles en orientacion (0, 90 y 45/135 grados) y cuando son muestreadas ya no son invariantes frente a cambios. Las transformaciones Gabor, por otro lado, no son facilmente invertibles y normalmente no tienen respuesta unidad. Las transformadas de bloques, como la DCT, no son variantes frente a la escala y ademas no son selectivas a las frecuencias diagonales. Una transformada que reune todos estos requisitos es la transformada del cortex [173] que fue usada por Daly [29] en su metrica perceptual. Mas recientemente, la piramide dirigida [161] reune todos los requisitos anteriores ademas de ser computacionalmente e ciente e invertible.  Enmascaramiento: El enmascaramiento debido al contraste es un fenomeno por el cual una se~nal puede verse enmascarada, es decir, su visibilidad reducida, por la presencia de otra se~nal. Hacer que el enmascaramiento sea ventajoso para una metrica es difcil. Incluso es probable que una de las principales razones por las que las metricas perceptuales fallan sea debido precisamente a predicciones incorrectas en el enmascaramiento. La razon se debe a que los resultados sobre enmascaramiento obtenidos en los experimentos dependen en gran medida del enmascarador y el estmulo usado. Los umbrales de enmascaramiento varan dependiendo del ancho de banda del enmascarador/objeto, de la fase del enmascarador/objeto, y de la familiaridad del enmascarador/objeto para el observador. El modelo aceptado de enmascaramiento por contraste [106, 162], estima el grado al cual un objeto sinusoidal es enmascarado por la presencia de enmascaradores sinusoidales. Este modelo ha sido posteriormente modi cado por Foley [66], Foley y Boynton [67], Teo y Heeger [165, 166] y Watson y Solomon [178]. Las modi caciones sugieren que el enmascaramiento depende no solo de la energa dentro de una banda, sino tambien de la energa en bandas a otras orientaciones. Otro aspecto del enmascaramiento que necesita mas investigacion es la extension espacial del enmascaramiento. La aproximacion estandar es modelizar el enmascaramiento como un fenomeno localizado espacialmente, de tal modo que la respuesta de un ltro en una localizacion en el espacio es enmascarada solo por la respuesta de s mismo y otros ltros en la misma localizacion. Sin embargo, evidencias recientes sugieren que los efectos del enmascaramiento no estan completamente localizados y pueden extenderse por encima de 8 veces la longitud de onda del centro de la banda de frecuencias [40]. Esto implicara cambiar los modelos de enmascaramiento tal y como los implementan la mayora de las metricas perceptuales actualmente.  Suma de errores: El modelo estandar de procesamiento visual asume que la imagen es ltrada usando un banco de canales paso-banda paralelos para producir una imagen ltrada por cada canal. Se tendran, por tanto, tantos mapas de la distorsion visible como imagenes ltradas, las cuales deben ser combinadas en un solo mapa y luego quizas en un solo numero. El modo logico de reducir la dimensionalidad es sumar las respuestas de las bandas de frecuencia a traves de la frecuencia, el espacio o ambos. La mayora de las apro-

2.3. Metricas de distorsion

31

ximaciones para reducir la dimensionalidad suman a traves de bandas de frecuencia para obtener un mapa 2D de diferencias visibles y luego suman a traves del espacio para tener un solo numero [20, 29, 112]. Otra posibilidad es aplicar primero una suma espacial y luego una suma frecuencial, como lo realiza Watson [176], Fdez-Vidal et al. [57, 58], Martnez-Baena et al. [120, 122]. Preferiblemente la regla de la suma debera ser analoga a la regla de suma usada en vision. Una regla de la suma no lineal, la suma de probabilidades, es la base mas aceptada para la suma de la energa de la se~nal a traves de canales de frecuencia y a traves de los canales espacialmente distribuidos. Una aproximacion a la suma de probabilidades, as como a la suma de energas, es la metrica de Minkowski [139]:

M=

X i

jsij

! 1

(2.8)

donde si es la respuesta de un canal frecuencial en una localizacion espec ca del espacio, el ndice i se re ere a los canales distribuidos a traves del espacio, frecuencia o ambos, y es el parametro de la suma. La suma de energas se modela con = 2, la suma de probabilidades con  3:5, y un operador MAX se obtiene para = 1.

{ Suma a traves de las bandas de frecuencia. Evidencias psicofsicas sugieren que

la suma a traves de las bandas de frecuencia se modela mejor como una suma de probabilidades, aproximada usando la metrica de Minkowski con  3:5 [172]. Trabajos recientes con funciones base DCT con rman la suma a traves de canales de frecuencia, pero encontraron que la regla de la suma se modela mejor con un parametro de = 2:4, con un rango entre 2 y 3 [135]. E ste es un tema en el que se requiere mas investigacion. { Suma a traves del espacio. El modelo para la suma de errores a traves del espacio es aun poco conocido, como el de la suma a traves de las frecuencias. La evidencia de que existe esta clara [143], pero tanto la extension espacial de la suma como el parametro parecen depender de los cambios dependientes de la excentricidad en la CSF y de si la se~nal es coherente o no coherente [125]. Cuando se requiere un solo numero como salida, tanto Lubin [112] como Daly [29, 30] implementan la suma espacial como un operador MAX ( = 1). Watson [176] utiliza = 3:5. En una comparacion de varias metricas aplicadas a problemas de deteccion de objetos [148], se encontro que = 4 proporcionaba la mejor prediccion de los resultados psicofsicos.

2.3.2 Revision de distintas metricas de distorsion En esta seccion se dividen las distintas metricas de distorsion de imagenes en un numero de clases genericas desde el punto de vista del uso o no de alguna propiedad que caracterice al SVH. En primer lugar estan las metricas clasicas que miden la calidad en terminos de funciones matematicas relativamente simples, generalmente con un procesamiento puntual. Estas metricas no incluyen ninguna caracterstica perceptual. En segundo lugar, hay modelos que incorporan caractersticas perceptuales simples, tales como funciones de sensibilidad al contraste y adaptacion a la luminosidad. Finalmente, las metricas perceptuales mas complejas intentan modelizar las primeras etapas del sistema visual de un modo tan completo como sea

32

Captulo 2. Introduccion

posible y as proporcionar una medida perceptualmente signi cativa de la distorsion entre imagenes.

2.3.2.1 Metricas clasicas no perceptuales Una gran variedad de metricas de nidas matematicamente han sido usadas en la literatura [68, 74]. Este tipo de medidas se limitan a realizar algun tipo de operacion pixel a pixel entre las dos imagenes que estan siendo comparadas. La medida mas simple que se encuentra en la literatura es el error medio absoluto (mean absolute error ) de nido como: MAE =

1

N X M X

N  M x=1 y=1 jr(x; y) t(x; y)j

(2.9)

donde r(x,y) es la imagen de referencia, t(x,y) es la imagen con la que se quiere comparar y N  M es la dimension de ambas imagenes en pxeles. Otra medida muy conocida es el error cuadratico medio (mean square error ) de nido como: MSE =

1

N X M X

2 N  M x=1 y=1 (r(x; y) t(x; y))

(2.10)

E sta es la medida mas utilizada por su simplicidad computacional. Marmolin [117] realizo experimentos para observar que ocurra si se introduca alguna caracterstica del SVH en modelos simples como MSE. Su conclusion fue que mejoraba la correlacion con observaciones hechas por humanos. La medida RMSE (root mean square error ) promedia los cuadrados de las diferencias en cada pixel y luego se toma la raz cuadrada del resultado:

0 1 21 N M X X 1 2A RMSE = @ N  M x=1 y=1(r(x; y) t(x; y))

(2.11)

Una generalizacion de estas medidas viene dada por:

2 3 p1 N M X X Ep = 4 N 1 M je(x; y)jp 5 x=1 y=1

(2.12)

donde, por ejemplo, si tomamos e(x; y)=r(x; y) t(x; y) entonces E1 =MAE y E2 =RMSE. Otra medida de error bastante comun es la razon se~nal/ruido (signal-to-noise ratio ), ampliamente utilizada en la literatura relacionada con compresion de imagenes. Esta medida intenta mejorar las ecuaciones anteriores teniendo en cuenta la intensidad de la imagen de referencia. Esto se hace dividiendo la energa total de la imagen de referencia por la energa total del error: SNR = 10 log10 log

PN PM r(x; y)2  ! PN Px=1M (yr=1 (x; y) t(x; y))2 x=1

y=1

(2.13)

2.3. Metricas de distorsion

33

Tomar el logaritmo es un modo de reducir el rango de valores, y el 10 es un factor adecuado. Es interesante observar que esta medida es inversamente proporcional a las anteriores. Hay muchas variantes de esta medida. Otra muy utilizada es el pico de la relacion se~nal/ruido (peak-signal-to-noise ratio ): PSNR = 10 log10

(max(r(x; y)) min(r(x; y)))2 2 1 PN PM N M x=1 y=1 (r(x; y) t(x; y))

!

(2.14)

En general, estas metricas tienen un buen comportamiento cuando se utilizan sobre imagenes con restricciones en su contenido o para con guraciones particulares de estmulos. Por ejemplo, Limb [107] demostro que la medida MSE trabajaba bien para predecir la visibilidad de errores en areas suavizadas. Sin embargo, una evaluacion extensiva de estas metricas ha demostrado que no funcionan bien en imagenes que tienen un contenido signi cativamente distinto [27, 68]. Shirvaikar et al. [159] a rman, de hecho, que las medidas basadas en estadsticos de primer orden estan muy limitadas en cuanto a la caracterizacion de diferencias perceptuales entre imagenes. A pesar de sus inconvenientes, estas medidas estan muy extendidas debido fundamentalmente a su facilidad de uso y a su bajo coste computacional. Las metricas que s consideran factores visuales suelen ser bastante mas costosas en cuanto a tiempo de calculo pero a cambio consideran informacion sobre las condiciones de vision y el contenido de la imagen que de hecho juegan un importante papel en la percepcion humana de la distorsion entre imagenes.

2.3.2.2 Metricas perceptuales Metricas que incorporan la CSF y adaptacion a la luminosidad Uno de los primeros intentos en incorporar caractersticas visuales en una metrica de distorsion fue el de Mannos y Sakrison [115], que usaron dos aspectos bien conocidos de la percepcion visual, la adaptacion a la luminosidad y la CSF. Sin embargo, el modelo tiene un unico canal visual, no incorpora enmascaramiento y por lo tanto falla en predecir con precision la distorsion en muchas circunstancias. Esta metrica es equivalente a una MSE con pesos. Otros trabajos consistieron en modi car las medidas clasicas (RMSE, SNR, etc) y a~nadirles alguna propiedad del SVH (Budrikis [22], Hunt et al. [89], Limb [107], Marmolin [117]). Metricas mas recientes incluyen las propuestas por Nill [129] y Saghri [154]. Estas metricas implementan una no-linealidad para adaptacion a la luminosidad, ltran la imagen segun una funcion de sensibilidad al contraste y luego calculan la metrica como la diferencia entre la imagen original y la version distorsionada. Ahumada [4] tambien incorpora estimaciones del contraste de la imagen en un intento de recoger algunas de las propiedades del enmascaramiento debido al contraste. Peli [133] describe una metrica que incorpora CSF ademas de enmascaramiento por la luminosidad, pero no enmascaramiento por contraste dentro de las bandas de frecuencia. Zetsche y Hauske [186] incorporan CSF, y usan un banco de ltros Gaussianos para implementar el enmascaramiento en contraste y luminosidad. Ambas metricas incluyen una descomposicion en multiples bandas de frecuencia sin selectividad a la orientacion. Pearlman

34

Captulo 2. Introduccion

[132] tambien propone un modelo visual basado en multiples canales espacio-frecuenciales sin considerar la selectividad frente a orientacion. Para cada uno de esos canales determina la probabilidad de deteccion de un objeto y despues determina la distorsion global como la media de las distorsiones de cada canal. La distorsion por canal se calcula como la diferencia cuadratica absoluta entre los coe cientes de Fourier de ambas imagenes ponderados por una funcion.

Metricas perceptuales mas complejas A principios de los 90 surgieron dos modelos computacionales interesantes de las primeras etapas de la vision basados en evidencias psicologicas y siologicas que recogan caractersticas de modelos desarrollados anteriormente. Estos modelos eran capaces de predecir niveles de distorsion de visibilidad para estmulos simples y complejos y fueron desarrollados por Daly [29] y Lubin [112]. Estos dos trabajos contienen descripciones en profundidad del desarrollo de metricas perceptuales de proposito general y las evidencias psicofsicas en las que se basan. Los modelos de Lubin y Daly son bastante similares e incluyen la modelizacion del sistema visual como una serie de etapas lineales y no-lineales, incluyendo un modelo de ltro para la CSF, descomposicion de la frecuencia en bandas de una octava y en bandas de orientacion, enmascaramiento debido a la luminosidad, enmascaramiento por contraste, un calculo de la distancia y suma de errores a traves de las bandas de frecuencias para producir un mapa de diferencias visibles. El resultado de ambos modelos es un mapa de diferencias visibles que especi ca la probabilidad de ver una diferencia entre las dos imagenes en cada pxel. El modelo de Lubin ha sido validado con experimentos psicofsicos. Daly [29, 30] tambien muestra una extensiva validacion con resultados psicofsicos conocidos. Es interesante examinar los aspectos del procesamiento visual que estos modelos no incluyen. Ni el modelo de Daly ni el de Lubin incluyen enmascaramiento a traves de las orientaciones. Solo implementan enmascaramiento de contraste usando la energa dentro de una banda a una sola orientacion, lo que esta en consonancia con lo que se saba en la literatura cuando estos modelos fueron desarrollados. Como se menciono anteriormente, desarrollos actuales sugieren que puede ocurrir un enmascaramiento signi cativo a traves de las orientaciones. En segundo lugar, los modelos son anteriores al trabajo de Dzmura y Singer [40], de tal manera que ninguno de los modelos extiende los efectos del enmascaramiento usando respuestas espacialmente adyacentes. Finalmente, ningun modelo incorpora suma de errores a traves del espacio cuando calcula el mapa de diferencias visibles, pre riendo producir un mapa de diferencias usando una suma de errores a traves de los canales de frecuencia. Una de las metricas perceptuales mas recientes y completas es la descrita por Westen et al. [179]. La metrica incorpora todos los factores visuales discutidos anteriormente, CSF, adaptacion a la luminosidad de un modo similar a Peli [133], descomposicion en multiples bandas de frecuencia orientadas, enmascaramiento debido al contraste de un modo similar al de Daly [29], y suma de errores utilizando la metrica de Minkowski, primero sobre las bandas de frecuencia de la misma orientacion, luego sobre las bandas de frecuencia sobre las distintas orientaciones y luego sobre el espacio. Una diferencia signi cativa entre este modelo y modelos previos es que permite un exponente de suma distinto para diferentes bandas de orientacion, lo cual tiene alguna validez considerando experimentos de enmascaramiento de contraste recientes. El algoritmo DCTune de Watson [176] incorpora una metrica perceptual, aunque inten-

2.3. Metricas de distorsion

35

ta solo predecir la calidad de imagenes JPEG comprimidas. El modelo de Watson contiene elementos similares a los modelos de Lubin y Daly, con la excepcion de que utiliza las funciones base DCT como su descomposicion de frecuencias en vez de ltros siologicamente mas realistas. Una diferencia notable entre el algoritmo DCTune y la mayora de las demas metricas perceptuales es que primero implementa una suma de errores a traves del espacio en vez de una suma de errores a traves de las frecuencias. La salida del modelo no es un mapa de diferencias visibles, sino una matriz 8  8 de valores especi cando la visibilidad de los errores dentro de cada banda de frecuencias. La ventaja de tal aproximacion es que permite la modi cacion independiente de cada elemento en una matriz de cuantizacion, pero al costo de perder la habilidad de crear un mapa de diferencias visibles. La reduccion de la prediccion de la calidad de una imagen a un solo numero se hace con un operador MAX (una metrica de Minkowski con = 1), lo que signi ca que la calidad de toda la imagen es determinada identi cando la banda de frecuencia con los artefactos mas visibles. Watson [176] implemento la suma de errores a traves de la imagen entera. Eckert [42] encontro que para imagenes muy grandes, esta prediccion de la calidad de la imagen es signi cativamente peor que la encontrada por experimentos subjetivos y evito este problema implementando la suma espacial de los errores sobre una ventana que se desplazaba en vez de sobre la imagen entera. Safranek y Johnston [153] implementaron un modelo perceptual usando ltros de codi cacion subbanda. El modelo incorporaba una descomposicion en multiples canales frecuenciales usando ltros subbanda de igual ancho de banda, pesando cada subbanda de acuerdo con la CSF, adaptacion a la luminosidad y un enmascaramiento del contraste al que llamaron \enmascaramiento de textura". El uso de ltros subbanda con igual ancho de banda implica que la localizacion espacial de las altas frecuencias no esta en consonancia con lo que ocurre en el SVH. Bradley [20] propuso un modelo similar al de Daly excepto en que uso una transformada wavelet. Encontro que los principales problemas con la transformacion wavelet eran la cantidad de solapamiento entre canales de frecuencia adyacentes y la invarianza frente a cambios de la transformada wavelet crticamente muestreada. Sin embargo, llego a la conclusion de que la transformada wavelet sobre-completa mejoraba la exactitud de las predicciones. Barten [15] presento una metrica que inclua una CSF que dependa del tama~no de la imagen y la luminosidad media. Sakrison [156] presento una descripcion de como poda ser construida una metrica perceptual con multiples canales frecuenciales, adaptacion a la luminosidad, enmascaramiento al contraste y suma de errores. Sin embargo, el modelo nunca fue implementado. Karunasekera et al. [95] desarrollan una medida de distorsion que, en lugar de modelar el comportamiento del SVH, explota determinadas caractersticas de las imagenes. Su medida se basa en la sensibilidad del SVH a determinado tipo de estructuras (texturas, fronteras, . . . ), de forma que, primero se detecta la presencia de dichas estructuras y despues se pondera de acuerdo a la sensibilidad del SVH respecto a cada tipo de estructuras. Esta sensibilidad se determina previamente en base a experimentos psicovisuales. Ahumada et al. [5, 7] propone una medida basada en la transformada del cortex de Watson [173]. Esta medida aplica una normalizacion frente a la luminancia a las imagenes que va a comparar y despues las ltra haciendo uso de una CSF (esta funcion se ajusta con la formula desarrollada por Barten [16]). Posteriormente las convierte al dominio de la transformada

36

Captulo 2. Introduccion

del cortex y all evalua las diferencias existentes entre ambas para cada uno de los canales. Finalmente combina esas diferencias para obtener la medida de distorsion. Martnez-Baena et al. [119, 122] introducen una metrica perceptual en la que se utiliza una particion multicanal con un numero jo de orientaciones pero variable en la frecuencia espacial. Calcula la distancia entre las dos imagenes en cada uno de los canales selectivos a un rango de frecuencias espaciales y orientaciones y posteriormente sumariza todas las distancias en una unica medida. Para ello la distancia relativa a cada canal es ponderada por un peso. Toman aquellos pesos que minimizan el error cuadratico medio entre la imagen original y una version reconstruida de la misma. Fdez-Vidal et al. [57, 58, 61] utilizan un banco de ltros log Gabor, enmascaramiento de luminosidad y enmascaramiento entre canales para dise~nar una medida de distorsion. Calculan primero una suma de errores para cada pareja de ltros espacio-frecuenciales. Realizan la suma de errores no sobre todos los puntos de la imagen ltrada sino sobre una seleccion de ellos. Finalmente calculan la medida total como la suma de todas las distancias parciales. Han aplicado esta medida de distorsion tambien a imagenes en color [56, 60]. En [61], de nen tambien una metrica de distorsion que aplica una regla de decision simple no entre imagenes ltradas, sino entre patrones visuales, entendiendo por patrones visuales las caractersticas que tienen el mas alto grado de alineamiento en su estructura estadstica a traves de un numero de escalas y orientaciones. Las distancias parciales entre los patrones visuales segregados en la imagen son posteriormente resumidas en una sola medida de distorsion. En [73], Garca et al. dan una caracterizacion axiomatica de la informacion relativa para la detectabilidad visual de objetos. En el caso de que la estructura de las imagenes no pueda ser determinada exactamente, caracterizan estadsticamente la estructura de las imagenes utilizando distribuciones de probabilidad discretas. De este modo, de nen los postulados y propiedades que debera satisfacer una medida de informacion, y cual es la cantidad de informacion relativa entre las distribuciones de las imagenes comparadas por la medida. En resumen, hay un numero de similaridades en la mayora de las metricas perceptuales referenciadas: incorporan CSF y adaptacion a la luminosidad. Todas implementan una descomposicion frecuencial en multiples ltros, con ltros de una octava de ancho de banda, algunos con selectividad en orientacion y otros sin selectividad en orientacion. Las principales diferencias entre ellas estan en la implementacion del enmascaramiento de contraste y los distintos modos en los que los errores son sumados a traves del espacio y la frecuencia. Esto re eja el hecho de que no hay una opinion generalizada del mejor modelo psicofsico para estos dos factores perceptuales.

Captulo 3

Modelos de Representacion y Metricas Asociadas En el captulo anterior se se~nalaban algunos de los aspectos mas relevantes de la vision que un modelo debera tener en cuenta. Algunas de estas caractersticas son la existencia de varios ujos visuales, la adaptacion al entorno y la representacion multi-resolucion de la informacion. Los diferentes ujos son caminos distintos a traves el sistema visual que son responsables del analisis e interpretacion de la imagen retinal. El sistema visual es capaz de adaptarse a diversas condiciones en las cuales tiene que operar (como la compensacion por grandes variaciones del nivel de iluminacion). Una consecuencia de esta caracterstica es el uso del contraste relativo para representar la informacion visual al vez del nivel de luz absoluto. Finalmente, la caracterstica mas relevante de la vision es la representacion multi-resolucion de los datos a varias escalas, en bandas de orientacion y frecuencia. Tambien se describan distintos modelos de representacion de imagenes estaticas. Algunos de ellos eran modelos monocanal (o mono-resolucion), los cuales solo tienen en cuenta la caracterstica de la sensibilidad al contraste global de la vision. Modelos posteriores incorporaban aspectos multi-resolucion. Modelos mas recientes y avanzados incorporan la modelizacion de aspectos como el enmascaramiento entre canales. En este captulo se describen varios modelos computacionales de representacion de imagenes. Los modelos que se proponen varan en complejidad. En primer lugar, se propone un modelo de un unico canal. Este modelo (de un ltrado simple) se puede tomar como una representacion de la informacion visual en niveles precorticales del sistema visual. Es capaz de predecir comportamientos simples del sistema visual humano. Despues presentaremos varios modelos multicanal en los que el dise~no de los multiples canales se hara de forma distinta as como el modo de quedarnos con la informacion de cada canal. Los modelos multicanal simulan la selectividad en orientacion y frecuencia espacial de las celulas del cortex. En general, estos modelos permiten la prediccion de visibilidad de patrones mas complejos a cambio de un coste computacional mucho mayor. Para cada uno de los modelos se ha desarrollado una medida de distorsion que predice la visibilidad de las diferencias entre un par de imagenes. Una medida de este tipo puede ser utilizada en multiples aplicaciones, bien de forma directa o de forma indirecta si se usa como herramienta basica para llevar a cabo cualquier otra tarea. 37

38

Captulo 3. Modelos de Representacion y Metricas Asociadas

3.1 Modelo Unicanal UC Aunque la mayora de los modelos de representacion de imagenes incluyen una etapa de ltros que varan en frecuencia espacial y orientacion en cada localizacion [29, 112, 146, 176], la complejidad computacional de tales modelos motiva la busqueda de modelos mas simples que puedan dar resultados casi similares en muchas situaciones. En esta seccion se de ne un modelo de representacion unicanal, al que denominaremos UC, en el que se van a ver re ejadas algunas de las caractersticas del SVH, basicamente: 1. Variaciones en la sensibilidad como funcion del nivel de luz. Son debidas principalmente a las propiedades de adaptacion a la luz de la retina y se implementan como no-linealidades en amplitud. 2. Variaciones en la sensibilidad como funcion de la frecuencia espacial. Esto viene representado por las funciones de sensibilidad al contraste. 3. Variaciones en la sensibilidad como funcion del contenido de la se~nal. En este caso no es posible determinar el enmascaramiento que se produce en funcion de la frecuencia espacial o la orientacion ya que se dispone de un unico canal frecuencial, pero s es posible tener en cuenta el efecto de enmascaramiento debido al contraste dentro de ese unico canal. 4. La atencion visual. Esto se re ere a detectar las regiones que contienen la informacion mas signi cativa de la imagen, con el n de utilizar solo esta informacion en el procesamiento posterior de la imagen. A continuacion se describe la implementacion concreta de cada una de estas caractersticas tal y como son incorporadas en el modelo. Posteriormente se de ne una medida de la distorsion existente entre dos imagenes usando este modelo unicanal de representacion.

3.1.1 Modelo de representacion 3.1.1.1 Sensibilidad a la luminosidad Como es sabido, nuestra percepcion es sensible al contraste de la luminosidad en vez de a valores de luminosidad absolutos. De hecho, la luminosidad absoluta de un objeto es independiente de la luminosidad de los objetos que tiene alrededor. En cambio, la luminosidad percibida s depende de la luminosidad de los objetos de alrededor. Este fenomeno visual se implementa usando distintos modelos de contraste (funcion logartmica, funcion potencia, razon con el nivel de fondo) [91]. En este modelo aplicamos una funcion que ha sido ampliamente usada en la literatura [29, 154, 156]: fnl (x; y) = f (x; y)0:33 (3.1) Esta funcion tiene la forma que se muestra en la Figura 3.1, que representa el contraste resultante en funcion de la luminosidad.

3.1. Modelo Unicanal UC

39 6.5 6 5.5 5 4.5 4 3.5 3 2.5 2 1.5 1 0

50

100

150

200

250

Figura 3.1: Representacion del contraste en funcion de la luminosidad.

3.1.1.2 Sensibilidad al contraste Las funciones de sensibilidad al contraste, CSF, se utilizan habitualmente en estudios psicofsicos para resumir la sensibilidad del sistema visual humano a funciones armonicas en un rango de frecuencias espaciales (ver apartado 2.1.4). La forma de la curva es similar a un ltro paso-banda y sugiere que el sistema visual humano es mas sensible a frecuencias medias y menos a frecuencias altas. En la practica, la sensibilidad al contraste depende de la frecuencia radial y de la orientacion, siendo maxima para orientaciones horizontal y vertical. Las variaciones en sensibilidad angular estan dentro de los 3 dB (la variacion maxima se produce a 45o ). Como la variacion es peque~na, en una primera aproximacion, la funcion puede ser considerada isotropica. En este trabajo utilizamos el modelo matematico de la funcion de sensibilidad propuesto por Mannos y Sakrison [115], que modeliza la sensibilidad S como funcion de la frecuencia espacial :

  k1 !

S () = A  c +  0

e

  k2 0

(3.2)

donde  es la frecuencia radial medida en ciclos/grado (cpg). El valor de 0 determina a que frecuencia se produce la maxima sensibilidad y su variacion afecta principalmente a las frecuencias medias. La frecuencia a la que se encuentra ese pico de la funcion generalmente vara entre 3 y 10 cpg. La constante c determina el valor para la frecuencia cero y su variacion afecta a las bajas frecuencias. Las constantes k1 y k2 estan relacionadas con la caida de la cola de la exponencial y su modi cacion se vera re ejada en las altas frecuencias. En la Figura 3.2 se muestra la in uencia de los parametros k1 , k2 y 0 en la forma de la funcion de sensibilidad al contraste. Ajustando la funcion anterior a sus experimentos, Sakrison y Mannos [115] dieron valores concretos para las constantes: A = 2:6, c = 0:0192, 0 = 8:77, k1 = 1 y k2 = 1:1. Para estos valores concretos el pico de maxima sensibilidad esta en la frecuencia de 8 cpg y el valor maximo de la funcion esta normalizado a la unidad.

40

Captulo 3. Modelos de Representacion y Metricas Asociadas 1

1 k1=1.0 k1=0.5 k1=1.5

0.9

1 k2=1.1 k2=0.9 k2=1.3

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0

0.1

0 10

20

30

(a)

40

50

60

fo=8.77 fo=4.00 fo=14.0

0.9

0 10

20

30

(b)

40

50

60

10

20

30

(c)

40

50

60

Figura 3.2: (a) In uencia del parametro k1 en la forma de la funcion se sensibilidad al contraste. (b) In uencia del parametro k2 . (c) In uencia del parametro 0 .

El uso de una funcion de sensibilidad concreta independientemente de la imagen de entrada puede ser excesivamente rgido ya que para cada una de ellas puede variar ligeramente el rango de frecuencias donde se concentra la mayor parte de su informacion espectral. Por tanto, vamos a utilizar una funcion de sensibilidad que se adapte al contenido de la imagen. Para ello, dejamos libre algun parametro en la ecuacion 3.2 para escoger aquella curva de sensibilidad que mejor se ajuste a cada imagen concreta. Consideramos las siguientes posibilidades: 1. En primer lugar, se deja libertad en la distancia a la que supuestamente se situa la imagen del observador. En la literatura de vision, la frecuencia espacial viene generalmente dada en cpg de angulo visual, mientras que en procesamiento de imagenes generalmente se especi ca en ciclos/pixel (cpp). Para igualar estas dos escalas de medida es necesario primero de nir las condiciones de vision, entre ellas la distancia de vision. En este caso conseguimos modi car la distancia variando el mapeo de las frecuencias expresadas en cpg a cpp. Se tratara, por tanto, de simular un autoenfoque de la imagen hasta conseguir la distancia optima de visibilidad para el observador. 2. Segun estudios psicofsicos, el pico de la funcion de sensibilidad vara entre 3 y 10 cpg. Teniendo esto en cuenta, como segunda alternativa se deja libre el parametro 0 , que es precisamente la frecuencia a la que ocurre el pico de la funcion. El resto de parametros se jan a los valores constantes dados por Mannos y Sakrison [115] excepto k2 = 1. Variando el valor del parametro 0 conseguimos un conjunto de funciones CSF con distinta frecuencia de sensibilidad pico manteniendose jo el valor maximo que alcanza la funcion. 3. En tercer lugar, se considera hacer variables los dos exponentes k1 y k2 . De este modo no solo se consigue variar la frecuencia pico, sino tambien el ancho de banda del ltro. Por tanto, para una misma frecuencia pico consideramos diferentes aperturas en el ancho de banda de la funcion CSF, lo cual no se puede conseguir con las dos variantes anteriores. Cualquiera de las anteriores posibilidades solo consigue cierta variabilidad en el rango de frecuencias que tiene en cuenta la CSF pero no es variable en orientacion. Existen, sin embargo, aproximaciones a la forma funcional de la funcion de sensibilidad que tienen en cuenta la dependencia de la orientacion, como las propuestas por Sakrison [156] o Daly [29]. Hemos

3.1. Modelo Unicanal UC

41

analizado la respuesta del modelo si se considera una CSF no isotropica, llegando a la conclusion de que esto no mejora las predicciones del modelo para las aplicaciones desarrolladas en el Captulo 4 (ver Apendice B). En cualquiera de los casos anteriores se impone como requisito que la funcion de sensibilidad sea nula para la frecuencia de Nyquist. Se de nen ahora dos criterios para el ajuste de la CSF: 1. Seleccionar aquella que minimiza el error cuadratico medio entre la imagen original y la imagen reconstruida:

0 1 12 N X M X 1 E = @N  M (fnl (x; y) f^nl (x; y))2 A x=1 y=1

(3.3)

donde fnl (x; y) es la imagen de entrada despues de aplicarle una funcion no-lineal, f^nl (x; y) es la imagen reconstruida que se calcula ltrando la imagen de entrada con una funcion de sensibilidad al contraste despues de aplicarle una no-linealidad; y N  M es el tama~no de ambas imagenes. 2. O bien, seleccionar aquella que maximiza una medida de contraste C , funcion de la imagen reconstruida:

C = VVmax + VVmin max

min

(3.4)

donde Vmax y Vmin son los niveles de gris maximo y mnimo de la imagen reconstruida respectivamente. La funcion de sensibilidad concreta que se ajusta a una imagen se va a denotar como Si;j donde i es un ndice (1, 2 o 3) que indica el tipo de parametro que se deja variable segun las tres opciones vistas anteriormente; y j es un ndice que representa el criterio de ajuste elegido, E si es el de minimizar el error y C si es el de maximizar el contraste. Las Figuras 3.3 y 3.4 muestran las funciones de sensibilidad al contraste ajustadas a las imagenes originales 3 y 37 que aparecen en las Figuras 4.4 y 4.2 respectivamente. Para cada una de ellas se muestran las funciones de sensibilidad que resultan despues de ajustarla a los datos segun los distintos modos de hacerlo descritos anteriormente y la imagen reconstruida utilizando la CSF correspondiente.

3.1.1.3 Enmascaramiento El efecto del enmascaramiento se re ere al decremento de visibilidad de una se~nal debido a la presencia de un fondo por encima del umbral. La funcion de enmascaramiento cuanti ca este efecto como una funcion del contraste de fondo. Algunos modelos incluyen tal enmascaramiento asumiendo que el umbral de deteccion permanece constante hasta el punto en el que el contraste del enmascarador alcanza el valor del umbral de deteccion. A partir de este punto, el umbral de deteccion crece monotonamente

42

Captulo 3. Modelos de Representacion y Metricas Asociadas

1

1

1

0.9

0.9

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0

0.1

0 10

20

30

40

50

60

0 0

20

40

(a)

60

80

100

120

10

1

1

0.9

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0 40

50

(d)

60

70

80

90

100

50

60

70

80

90

100

60

70

80

90

100

0.1

0 30

40

(c)

1

20

30

(b)

0.9

10

20

0 10

20

30

40

50

(e)

60

70

80

90

100

10

20

30

40

50

(f)

Figura 3.3: Funciones de sensibilidad al contraste e imagenes reconstruidas usando dicha funcion para la imagen original numero 3 que aparece en la Figura 4.4. Cada gra ca corresponde a un modo distinto de ajustar la CSF a la imagen: (a) S1;E , (b) S1;C , (c) S2;E , (d) S2;C , (e) S3;E y (f) S3;C .

3.1. Modelo Unicanal UC

43

1

1

1

0.9

0.9

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0

0.1

0 10

20

30

40

50

60

70

80

0 0

20

40

(a)

60

80

100

10

1

1

0.9

0.9

0.8

0.8

0.8

0.7

0.7

0.7

0.6

0.6

0.6

0.5

0.5

0.5

0.4

0.4

0.4

0.3

0.3

0.3

0.2

0.2

0.2

0.1

0.1

0 40

50

(d)

60

70

80

90

100

50

60

70

80

90

100

60

70

80

90

100

0.1

0 30

40

(c)

1

20

30

(b)

0.9

10

20

0 10

20

30

40

50

(e)

60

70

80

90

100

10

20

30

40

50

(f)

Figura 3.4: Funciones de sensibilidad al contraste e imagenes reconstruidas usando dicha funcion para la imagen original numero 37 que aparece en la Figura 4.2. Cada gra ca corresponde a un modo distinto de ajustar la CSF a la imagen: (a) S1;E , (b) S1;C , (c) S2;E , (d) S2;C , (e) S3;E y (f) S3;C .

44

Captulo 3. Modelos de Representacion y Metricas Asociadas log C T

ε

C To log C M C To

Figura 3.5: Modelo no lineal de enmascaramiento.

con el contraste del enmascarador de un modo exponencial. Este modelo para el enmascaramiento se muestra en la Figura 3.5. Se trata de una simpli cacion de la descripcion del enmascaramiento visual dada por Legge [106]. El umbral de deteccion CT de un estmulo puede ser entonces calculado como funcion del umbral de deteccion del estmulo en ausencia del enmascarador CTo y el contraste del enmascarador CM . La relacion es la siguiente:

CT =

(C

To   CTo CCTMo

si CM < CTo si CM  CTo

)

(3.5)

Nosotros introducimos el enmascaramiento en el desarrollo de una medida de distorsion, como se describe en la ecuacion 3.9. Utilizaremos los conceptos anteriores para obtener un factor de enmascaramiento que modi ca una medida de distancia entre dos imagenes en funcion del enmascaramiento que produce el enmascarador sobre la visibilidad del resto de la imagen.

3.1.2 Desarrollo de una medida de distorsion Sea r(x; y) una imagen original de referencia y e(x; y) una imagen de test. Una medida de distorsion entre ambas imagenes que incluye las caractersticas del modelo descrito anteriormente se de ne del siguiente modo: 1. Pasar la imagen de referencia r(x; y) y la imagen test e(x; y) por una no-linealidad. Se utiliza una funcion raiz cubica sobre la intensidad para tener en cuenta la respuesta no-lineal de los fotorreceptores a la luminosidad. 2. Calcular la funcion de sensibilidad S () que se ajusta a la imagen de referencia r(x; y) segun lo descrito anteriormente. 3. Filtrar la imagen de referencia r(x; y) con dicha funcion de sensibilidad:

3.1. Modelo Unicanal UC

45

rc(x; y) = jF 1 [S ()  R(; )]j

(3.6)

donde R(; ) es la p transformada de Fourier de la imagen r(x; y) expresada en coordenadas polares  = u2 + v2 y  = arctan(v=u) y F 1 es la transformada de Fourier inversa. La funcion j  j representa la magnitud de la transformada. 4. Filtrar la imagen e(x; y) con la misma funcion de sensibilidad:

ec(x; y) = jF 1 [S ()  E (; )]j

(3.7)

donde E (; ) es la transformada de Fourier de la imagen e(x; y). De este modo se analiza la imagen e(x; y) desde el punto de vista de las frecuencias mas signi cativas para la imagen de referencia. 5. Aplicar a ambas imagenes una funcion no-lineal despues del ltrado. El objetivo es enfatizar las diferencias entre la imagen original y la distorsionada en las areas perceptualmente signi cativas (favoreciendo las bajas intensidades). 6. La medida de distorsion, a la que denominaremos U(r; e), se calcula como una suma de errores:

0N M 11= X X U(r; e) = 1 @ jrc(x; y) ec(x; y)j A N M x=1 y=1

(3.8)

En las aplicaciones que se describen en el Captulo 4 se analiza el comportamiento de la metrica dependiendo del valor del parametro de integracion espacial en la suma de errores, variandolo entre 2 y 5. En [76] se discuten algunas interpretaciones de la formula de la suma de errores y la seleccion del exponente de integracion. 7. La medida de distorsion obtenida en la ecuacion 3.8 se multiplica por un valor indicativo del enmascaramiento que produce el enmascarador sobre el objeto. Este valor se calcula de un modo similar a como es introducido en [4]:

fm = r 1 2 E 1+ e

(3.9)

donde E es la energa total del contraste de la imagen del enmascarador y e es un parametro de enmascaramiento al que se le da el valor de e = 0:05 y que representa el nivel de contraste al cual el enmascaramiento es efectivo. La energa total se calcula del siguiente modo:

PN M C ! 12 E = Ni=1 M i donde Ci son los valores de contraste del enmascarador.

(3.10)

46

Captulo 3. Modelos de Representacion y Metricas Asociadas 6.5

Imagen de Referencia

1

1

6

0.9

5.5

0.8

5

0.7 0.1

4.5 0.6 4 0.5 0.4 3 0.01 0.3

2.5

0.2

2

Σ

-

3.5

0.1

1.5 1 0

50

100

150

200

250

0.001 0.1

0 1

10

100

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

x Imagen de Entrada

6.5

1

Metrica

1

6

log C T

0.9

5.5

0.8

5

0.7

Σ

0.1 4.5 0.6

ε

4 0.5 3.5 0.4 3 0.01 0.3

2.5

C To 0.2

2

log C M 0.1

1.5 1 0

50

100

150

200

250

0.001 0.1

C To

0 1

10

100

0

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

Figura 3.6: Esquema de los pasos para calcular una medida de distorsion derivada del modelo de representacion UC.

Por tanto, la medida de distorsion queda: U(r; e) = U(r; e)  fm

(3.11)

8. La medida anterior es global porque tiene en cuenta todos los pxeles de la imagen. Como se ha comentado anteriormente, es importante seleccionar la informacion relevante de la imagen con el n de calcular la medida solo donde se encuentre esa informacion. De este modo se seleccionan un conjunto de puntos a los que llamamos puntos de interes para la imagen de referencia . Basicamente podran ser tratados como puntos de interes aquellos que corresponden a lneas y bordes de objetos que aparecen en la imagen. Por tanto, previo al calculo de la medida de distorsion se seleccionaran un conjunto de puntos de la imagen de referencia, al que denominaremos P , con algun algoritmo generico de deteccion de bordes. En este modelo se ha utilizado el algoritmo de Canny [26]. En este caso la medida anterior, que notamos ahora UA(r; e), se rede ne de la siguiente manera:

0 11= X UA (r; e) = Card[P ] @ jrc(x; y) ec(x; y)j A  fm 1

(x;y)2fP g

(3.12)

Un esquema de la obtencion de la medida de distorsion se muestra en la Figura 3.6.

3.2 Modelo de multiples canales frecuenciales MCF En esta seccion se describe un modelo de representacion en el que se analiza la imagen segun distintos canales, cada uno enfocado a una frecuencia espacial y orientacion espec cas. Lo interesante de esta aproximacion es que el numero y distribucion de los canales no es jo, sino que la particion del espectro de frecuencias en los distintos canales depende de la imagen de

3.2. Modelo de multiples canales frecuenciales MCF

47

entrada concreta. El tratamiento sobre cada uno de los canales va a ser muy simple, usaremos un ltro frecuencial ideal para quedarnos con la respuesta relativa a cada canal. Una descripcion en detalle del modelo de representacion completo, al que denominamos modelo MCF, se presenta mas adelante, aunque brevemente consta de los siguientes pasos: 1. Transformacion del dominio espacial al frecuencial contrastando los patrones de actividad1 del espectro de Fourier. 2. Particion del plano frecuencial de la imagen en un conjunto de sensores cada uno selectivo a un conjunto homogeneo y consecutivo de frecuencias espaciales y orientaciones. 3. De todos ellos se escoge solo un conjunto de sensores activos fChi ; i = 1 : : : ; K g, siendo K el numero de sensores activos. Finalmente, el modelo de representacion consiste en un conjunto de imagenes respuesta, una por cada uno de los sensores activos. Cada imagen respuesta es calculada multiplicando la transformada de Fourier de la imagen de entrada por un ltro 2D ideal correspondiente al sensor (todas las frecuencias dentro del sensor pasan sin atenuacion, mientras que todas las frecuencias de fuera son completamente atenuadas), y luego se calcula la transformada inversa. A continuacion se describen con mas detalle cada uno de los pasos y posteriormente se de ne una medida de distorsion asociada a este modelo.

3.2.1 Modelo de representacion Dada una imagen de entrada f (x; y), sea F (; ) su transformada de Fourier en coordenadas polares. La funcion magnitud jF (; )j se denomina espectro de Fourier de la imagen. Esta funcion toma valores en un rango dinamico bastante grande, mientras que los patrones de actividad toman valores en un rango peque~no de interes. Cuando el espectro de Fourier se escala linealmente para procesarlo en 8 bits, los valores mas altos dominan los patrones de actividad. Por lo tanto, se hace necesario mejorar este rango de interes. Y con este proposito se llevan a cabo dos tranformaciones en el espectro: 1. Para obtener una estimacion del rango de interes, se realiza una tranformacion logartmica que lleva a cabo una compresion del rango dinamico de los valores. De este modo, jF (; )j se tranforma en la funcion

c logf1 + jF (; )jg

(3.13) donde c es una constante de escalado seleccionada para normalizar los valores entre 0 y 255 para cada imagen. Por tanto, se calcula el rango de interes como el rango resultante de la tranformacion logartmica. 2. Para mejorar el rango de interes resultante, se realiza un stretching del histograma [90] sobre el resultado de la transformacion de la ecuacion 3.13. Como resultado, los patrones de actividad a traves del espectro de Fourier van a ser mas facilmente aislados usando un esquema multicanal dirigido por los datos. 1

Regiones de energa elevada sobre el espectro.

48

Captulo 3. Modelos de Representacion y Metricas Asociadas

3.2.1.1 Dise~no multicanal dirigido por los datos Uno de los problemas centrales en la aproximacion multicanal es la seleccion de un conjunto apropiado de unidades respuesta (los denominados sensores). Debido a la simetra conjugada, el dise~no de los sensores se lleva a cabo solo sobre la mitad del plano frecuencial 2D. En general, la aproximacion multicanal produce el esquema deseado por la superposicion de un numero jo de canales de frecuencia espacial sintonizados empricamente en cada banda de orientacion, las cuales se seleccionan con orientaciones jas (p. ej., 0 , 45 , 90 , 135 , con un ancho de banda en orientacion de 45 ). Esto esta en consonancia con evidencias biologicas que demuestran que el ancho de banda medio en orientacion de las celulas del cortex visual es de alrededor de 40 [38]. Sin embargo, existen a rmaciones contradictorias a esta, por ejemplo en [76] se a rma que los analizadores no deberan tener una anchura angular superior a 15 . No obstante, existen una serie de problemas con tales de niciones a priori sobre la regla de descomposicion, que son: (1) no pueden de hecho re ejar las estructuras subyacentes de la imagen bajo analisis, y (2) su falta de adaptabilidad puede sesgar cualquier procesamiento posterior. Aqu se consigue un dise~no multicanal realizando una particion adaptativa del espectro de una imagen, con las trasformaciones que se han de nido anteriormente, en un numero de bandas de orientacion y frecuencia espacial como se explica a continuacion (ver [145] para mas detalles): 1. El espectro mejorado de la imagen de entrada f (x; y), al que notaremos por R(; ), es primero dividido en un conjunto de bandas de orientacion. Esto se consigue usando una funcion que devuelve la razon de la desviacion estandar sobre la media para cada banda de orientacion (0; ) del espectro, con  variable. Esta funcion, notada como (), devuelve un estadstico de primer orden que proporciona una descripcion en forma cuantitativa de la banda de orientacion entre los angulos 0 y  grados:

() = 



(3.14)

donde  y  representan respectivamente la desviacion estandar y la media de la distribucion del espectro sobre la banda de orientacion entre los angulos 0 y . Sea 00 () la segunda derivada de  calculada como

d2 G () 00 () = ()  d 2 s

(3.15)

donde  es convolucionada con la segunda derivada de la Gaussiana a escala s para suavizar y derivar la funcion. La escala s de la Gaussiana es calculada como se describe en [54]. Un patron de actividad en R produce una discontinuidad signi cativa en la razon de la desviacion sobre la media para la banda (0; ) cuando se incrementa . Ya que la segunda derivada 00 tiene un cruce por cero en el punto medio de una transicion en (), los cruces por cero en la segunda derivada determinan una estimacion de la localizacion central de los patrones de actividad en el espectro de Fourier, asumiendo que producen las principales discontinuidades en .

3.2. Modelo de multiples canales frecuenciales MCF

49

Una vez que un patron de actividad ha sido detectado por un cruce por cero, para delimitarlo se crea una nueva banda de orientacion. Esto se realiza teniendo en cuenta que: (i) los extremos de 00 corresponden a las localizaciones de cambio en la razon de variacion de (); y (ii) la segunda derivada tiene un extremo local en el punto i para el comienzo de la discontinuidad se~nalada por el cruce por cero, y otro extremo local (de signo opuesto) en j para el nal de la discontinuidad. Por tanto, la banda de orientacion aislando un patron, notada como O(i ; j ), puede ser calculada a traves del par de extremos locales de la segunda derivada 00 que engloba el respectivo cruce por cero. Este proceso se ilustra en la Figura 3.7. 2. Para obtener los sensores combinando la selectividad en frecuencia espacial y la selectividad en orientacion, las bandas de orientacion resultantes son divididas independientemente en una serie de canales de una determinada frecuencia espacial (radial). Cada banda de orientacion O(i ; j ) creada previamente, se particiona en un conjunto de canales de frecuencia radial aplicando el proceso mencionado anteriormente a la funcion, notada como i;j (), que devuelve un estadstico de primer orden que proporciona una descripcion cuantitativa del sector O(i ; j ) entre las frecuencias radiales 0 y :

i;j () = ;i;j

;i;j

(3.16)

donde ;i;j y ;i;j representan respectivamente la desviacion estandar y la media de la distribucion espectral sobre la banda dada por (0; ) en la frecuencia radial, y por (i ; j ) en la orientacion. El proceso correspondiente a la division de una banda de orientacion en canales de frecuencia radial se muestra en la Figura 3.8. Por otro lado, la Figura 3.9 presenta la particion en sensores obtenida para un conjunto de imagenes. Las imagenes originales se muestran en la primera columna y las correspondientes particiones del espectro en sensores en la segunda columna de la Figura.

3.2.1.2 Seleccion de sensores activos Una vez que el espectro de Fourier se ha dividido en un conjunto de sensores, se analiza la importancia relativa de dichos sensores clasi candolos en dos clases: los sensores activos y los no activos. Los unicos sensores que nos interesan desde el punto de vista de la representacion de la imagen son aquellos que tienen una fuerte respuesta a las estructuras signi cativas de la misma y son a los que denominamos sensores activos. Cada sensor se describe mediante una medida o rasgo que lo caracterice. Aqu se propone una caracterstica derivada de la media de la distribucion espectral bajo cada sensor. Por supuesto, otras medidas que recojan caractersticas relevantes tambien pueden ser utilizadas: la localizacion, el tama~no y orientacion de picos o la entropa del espectro de Fourier. Para evaluar estas caractersticas del dominio frecuencial de acuerdo a su capacidad para distinguir los sensores activos, se puede usar un metodo de seleccion y borrado sucesivo basado en el criterio de Wilks [140]. La media de la distribucion espectral sobre cada sensor proporciona un rasgo efectivo para discriminar el conjunto de sensores sobre el conjunto total. Posteriormente se utiliza un analisis de agrupamiento [90] para clasi car los sensores, ya que el aprendizaje no supervisado puede explotar sus regularidades estadsticas usando las res-

50

Captulo 3. Modelos de Representacion y Metricas Asociadas Funcion de Pearson variando la orientacion 3

η (θ)

2.8

2.6

2.4

2.2

2

1.8

1.6

1.4

1.2 0

0.5

1

1.5

2

2.5

3

3.5

(a)

θ

Segunda derivada de la funcion de Pearson variando la orientacion 300

η ’’ (θ) 200

100

0

-100

-200

-300

-400 0

0.5

1

1.5

(b)

2

2.5

3

θ

3.5

(c)

Figura 3.7: (a) Razon desviacion/media de la banda de orientacion (0; ) (funcion ()) para la imagen de la Figura 3.9(b); (b) la segunda derivada 00 tiene un cruce por cero en el punto medio de una transicion de los valores de () al incrementar ; (c) espectro mejorado para la imagen 3.9(b) sobre el que se ha se~nalado la nueva banda de orientacion que se produce teniendo en cuenta que, como se muestra en (b), la segunda derivada tiene un unico extremo para el comienzo de la discontinuidad se~nalada por el cruce por cero y otro extremo local de signo opuesto para el nal de dicha continuidad. Estos extremos se encuentran en 1.46 y 1.64 radianes respectivamente para esa banda particular.

3.2. Modelo de multiples canales frecuenciales MCF

51

Funcion de Pearson variando la frecuencia

η (ρ)

1.6

1.4

1.2

1

0.8

0.6

0.4

0.2

0 0

20

40

60

80

100

120

140

ρ

(a)

Segunda derivada de la funcion de Pearson variando la frecuencia 250

η ’’ (ρ) 200 150 100 50 0 -50 -100 -150 -200 -250 0

20

40

60

80

100

120

(b)

ρ

140

10

5

0

-5

-10 60

70

80

90

100

110

120

(c)

Figura 3.8: (a) Para la banda de orientacion de la Figura 3.7(c), la funcion  devuelve la razon desviacion estandar/media calculada para el canal de frecuencia radial (0; ) incrementando  en el intervalo de orientacion mencionado; (b) segunda derivada de la funcion (); (c) extremos de la segunda derivada que de nen las bandas de frecuencia espacial en la que se divide dicha banda de orientacion para parte de la gra ca que se muestra en (b).

52

Captulo 3. Modelos de Representacion y Metricas Asociadas Imagen Original

Particio n Multisensor

Sensores Activos

(a)

(a)

(c)

(d) Figura 3.9: En la primera columna se muestran cuatro imagenes originales. En la columna central aparece la particion multicanal obtenida para cada una de ellas. La ultima columna muestra la seleccion de los sensores activos.

3.2. Modelo de multiples canales frecuenciales MCF Sensor

#1 #2 #3 #4 #5 #6 #7 #8 #9 #10 #11 #12 #13 #14 #15 #16 #17 #18 #19 #20

Frecuencia Espacial R-min R-max 0.0245 0.2699 0.0245 0.1227 0.7117 0.8344 0.3681 0.6135 0.0245 0.4172 0.1227 0.3436 0.1227 0.3681 0.1718 0.4417 0.0245 0.2945 0.5153 0.7362 0.3436 0.4417 0.3681 0.5153 0.4417 0.5399 0.5153 0.6135 0.4172 0.5153 0.2699 0.3436 0.3436 0.4172 0.0245 0.1227 0.2454 0.3190 0.4417 0.5153

53 Orientacion A-min A-max 1.4660 1.6231 2.3562 3.0892 1.4661 1.6231 0.0698 0.2618 2.1817 2.3562 0.0000 0.0698 2.3562 3.0892 1.6231 1.8326 0.0698 0.2618 0.0000 0.0698 1.4661 1.6231 2.3562 3.0892 1.6231 1.8326 1.4661 1.6231 0.0000 0.0698 1.4661 1.6231 0.0000 0.0698 0.0000 0.0698 1.9897 2.1817 1.4661 1.6231

Tabla 3.1: Especi cacion del ancho de banda de frecuencia espacial y orientacion de un conjunto de sensores activos obtenidos para la imagen que se muestra en la Figura 3.9(a).

puestas disponibles . Determinamos las dos clases de sensores por el metodo de agrupamiento del error cuadratico, implementado como el algoritmo k-medias [91]. Sea, nalmente, fChi ; i = 1; : : : ; K g el conjunto resultante de sensores activos para una imagen de entrada. La Figura 3.9 muestra en la columa 3 los sensores activos obtenidos para las imagenes que aparecen en la primera columna. La Tabla 3.1 muestra la frecuencia espacial radial maxima y mnima y la orientacion maxima y mnima que de nen algunos de los sensores activos obtenidos para la imagen 3.9(a).

3.2.2 Desarrollo de una medida de distorsion Sea r(x; y) una imagen original de referencia y e(x; y) una imagen de test. Los siguientes pasos describen el calculo de una medida de distancia o error entre las dos imagenes: 1. Calcular la particion en sensores activos para la imagen de referencia r(x; y). Sea fChi; i = 1; : : : ; K g el conjunto de sensores activos para dicha imagen, donde K es el numero de sensores activos. 2. Calcular la funcion CSF, S (), que se ajusta a la imagen original segun se ha descrito

54

Captulo 3. Modelos de Representacion y Metricas Asociadas para el modelo UC y ltrar ambas imagenes con esa funcion de sensibilidad. 3. Para obtener las respuestas derivadas del dise~no multicanal, se ltra la imagen de referencia r(x; y) (despues de haberle aplicado la CSF) con un ltro ideal para cada uno de esos sensores activos, despues calculamos la transformada inversa y nos quedamos con la magnitud de la transformada. Sea fri g el conjunto de imagenes respuesta as obtenidas. 4. Del mismo modo, ltrar la imagen e(x; y) para cada uno de los sensores activos obtenidos para la imagen de referencia. Obtenemos un conjunto de imagenes respuesta a las que notamos por fei g. 5. Aplicar una no-linealidad a cada una de las imagenes respuesta, las derivadas de la imagen r(x; y) y de la imagen e(x; y). La no-linealidad tiene la forma: expf  g tanh(;  ) = 11 + exp (3.17) f  g donde  es el nivel de activacion recti cado y  es un factor de ganancia. Esta no-

linealidad permite al sistema responder al contraste local sobre cambios de varias unidades logartmicas de iluminacion. 6. Para cada par de imagenes respuesta ri y ei correspondientes a un determinado sensor activo Chi calculamos una medida de distancia parcial. Esta medida de distancia se puede calcular sobre todos los puntos de la imagen o solo sobre un subconjunto de ellos. En este segundo caso se escogen aquellos que se consideran importantes desde el punto de vista del observador en la imagen de referencia. Los puntos seleccionados son bordes o aristas de objetos presentes en la imagen y pueden ser calculados como picos de la energa local sobre la correspondiente salida ltrada de la imagen de referencia [123, 124], como se describira en el apartado 3.4.1.3. Sea P (ri ) el conjunto de puntos de interes para cada imagen respuesta ri . La distancia entre respuestas se de ne como una suma de errores en todos los puntos de la imagen:

0N M 11= X X Fp(ri; ei ) = N 1 M @ jri (x; y) ei(x; y)j A x=1 y=1

(3.18)

Como se ha comentado anteriormente, tambien se pueden medir la diferencias de valores en los puntos de interes en ambas imagenes:

0 11= X FAp(ri ; ei ) = Card[1P (r )] @ jri(x; y) ei (x; y)j A i

(x;y)2P (ri )

(3.19)

7. Calcular un factor de enmascaramiento para cada uno de los sensores utilizando la ecuacion 3.9 y multiplicar la distancia parcial por este factor. De este modo tenemos en cuenta el enmascaramiento que ocurre cuando dos estmulos estan cercanamente

3.2. Modelo de multiples canales frecuenciales MCF

55

acoplados en el dominio frecuencial. Un estmulo enmascara a otro si ambos pertenecen al mismo sensor, es decir, deben tener similar orientacion y frecuencia espacial. En un modelo multicanal, a este enmascaramiento se le denomina enmascarameinto dentro de cada canal. Existe tambien una gran cantidad de enmascaramiento entre canales [81, 82]. Este modelo solo tendra en cuenta el enmascaramiento dentro de los canales y en modelos que se de niran mas adelante se considera enmascaramiento entre canales tambien. 8. Para resumir las distancias parciales obtenidas para cada canal en una unica medida de distorsion, es posible considerar dos metodos usados en la literatura: (a) Sumar las distancias parciales ponderando cada una por un peso que nos indique su importancia relativa: K X

F(r; e) =

i=1

mi  Fp(ri; ei )

(3.20)

donde K es el numero de sensores activos. La suma de pesos es igual a 1. Proponemos dos formas distintas de calcular el peso que se le asigna a cada uno de los sensores: i. En primer lugar, se escoge aquel conjunto de pesos que minimiza el error cuadratico medio entre la imagen original y la imagen reconstruida:

XX x y

(r(x; y) r^(x; y))2

(3.21)

donde r^(x; y) es la imagen reconstruida que se calcula P como una suma ponderada de las respuestas de cada sensor activo r^(x; y) = Ki=1 mi  ri (x; y). ii. En segundo lugar, consideramos un conjunto de pesos derivado de la funcion de sensibilidad que mejor se ajusta a la imagen de referencia segun se ha visto en el modelo anterior. La ponderacion de cada sensor es proporcional a la suma de la sensibilidad de un observador a las coordenadas de frecuencia espacial 2D que caen dentro de dicho sensor:

P

;)2Chi S () mi = PK (P j =1 ()2Chj S (; )

(3.22)

!(1= ) K X 1

F(r; e) = Fp(ri; ei ) K

(3.23)

(b) Utilizar una suma de Minkowski con un parametro de integracion entre canales, al que denominaremos : i=1

En las aplicaciones desarrolladas en el Captulo 4 se ha estudiado la in uencia de este parametro, haciendo variar su valor entre 1 y 5. Notaremos por FA(r; e) una metrica de distorsion atencional en la que se utilizan como medidas parciales entre respuestas las de nidas en la ecuacion 3.19.

56

Captulo 3. Modelos de Representacion y Metricas Asociadas

3.3 Modelo de Redundancia Normalizada A continuacion se describe un modelo computacional en el que las imagenes 2D son representadas usando un subconjunto de unidades activas sensibles a los patrones importantes presentes en la imagen. Las suposiciones basicas en esta representacion concuerdan con los modelos de canales espacio-frecuenciales, muy utiles para la deteccion de patrones visuales [76]: (i) la informacion espacial debe ser analizada por multiples reconocedores, cada uno de ellos sensible a patrones que contienen frecuencias espaciales en un rango restringido; (ii) el sistema debe basar sus respuestas solo en aquellos reconocedores sensibles a estructuras signi cativas de la imagen y (iii) las estructuras espaciales deben ser descritas a sus mejores escalas. El punto interesante es que este modelo de representacion, al que denominamos modelo de Redundancia Normalizada (RN), incorpora soluciones simples a la implementacion de estas suposiciones:

 En primer lugar, para analizar la informacion espacial por multiples ltros, el modelo de representacion RN utiliza un banco de funciones Gabor 2D.

 En segundo lugar, se seleccionan los ltros activos del banco (aquellos ltros sensibles a estructuras de la imagen) como aquellos ltros que se ajustan a un conjunto de canales espacio-frecuenciales 2D activos.

 En tercer lugar, las escalas de los ltros se de nen como aquellas de patrones espaciales

a los que el ltro es sensible, y son calculadas usando una aproximacion denomidada redundancia normalizada que esta basada en la redundancia intrnseca de las escenas naturales.

La introduccion de la medida de redundancia normalizada para el calculo de las escalas de los ltros esta motivada por el hecho de que en las escenas naturales generalmente existen estructuras que varan notablemente en extension y es conveniente analizar cada una a la escala mas apropiada. No es conveniente analizar toda la imagen a una unica escala global, ya que, a una escala demasiado na permanecen tanto detalles extra~nos como ruido y a una escala demasiado grande las caractersticas pueden perderse o distorsionarse por el excesivo suavizado. Ademas, en general nunca se podran tener bien enfocadas todas las estructuras de interes a la vez. Trabajar correctamente con una imagen requiere, por tanto, analizar cada estructura al nivel de escala natural para ella, es decir, al que esta estructura aparece mas contrastada y es mas visible. Esto es, usando escalas mayores para las estructuras grandes y escalas mas peque~nas para los detalles. Determinar estas escalas es una tarea importante de cara a posteriores etapas en el procesamiento de dichas imagenes. El problema de la escala ha sido ampliamente considerado en la literatura de procesamiento de imagenes. Con el n de considerar las estructuras relevantes presentes en una imagen que suelen aparecer en diferentes escalas espaciales han surgido distintas aproximaciones multiescala [12, 65, 97, 98, 108, 109, 150, 181, 182]. Estos metodos, en general, tienen el inconveniente de que se incrementa considerablemente el volumen de datos y es difcil posteriormente combinar toda la informacion de multiples escalas. El modelo de representacion que proponemos en esta seccion tiene la propiedad de proporcionar una herramienta basica para la seleccion de las escalas naturales a las que representar

3.3. Modelo de Redundancia Normalizada

57

cada estructura de una imagen bajo una organizacion multisensor inspirada en el funcionamiento del SVH [9, 10]. A continuacion se describe el banco de ltros Gabor y como son seleccionados los ltros activos. Posteriormente se presenta la medida de redundancia normalizada para la seleccion de escalas. Finalmente se de ne una medida de distorsion sobre dicho modelo de representacion.

3.3.1 Modelo de representacion 3.3.1.1 El banco de ltros Gabor En primer lugar la imagen es ltrada usando un conjunto de multiples ltros Gabor 2D, cada uno de los cuales es sensible a patrones que contienen frecuencias espaciales 2D en un rango restringido. Las se~nales Gabor dan un buen ajuste del comportamiento del campo receptivo de las celulas simples del cortex primario visual de los mamferos [32, 33, 92, 116]. Estas funciones analizan la imagen simultaneamente en los dominios espacial y frecuencial y as se pueden ajustar tanto a parametros frecuenciales como a parametros espaciales [38]. Ademas, permiten implementar las relaciones de cuadratura de fase [35, 104] observadas en numerosos pares de celulas del cortex visual [136]. Sea fi (x; y; ) la imagen original f (x; y) ltrada con una funcion Gabor 2D con frecuencia espacial i, orientacion i y escala 

fi (x; y; ) = f (x; y)  g(x; y; ; i ; i )

(3.24)

donde  denota el operador convolucion y g(x; y; ; i ; i ) es un ltro Gabor 2D, de nido como el producto de una funcion Gaussiana a escala , y una onda sinusoidal con frecuencia !0 = (!x0 ; !y0 ) tal que

!y0 = tan( ); y q!2 + !2 =  i i y0 x0 !x0

(3.25)

El impulso respuesta de un ltro Gabor 2D se representa, por tanto, con la siguiente ecuacion

g(x; y; ; i ; i ) = exp

(

)

x2 + y2 expfj (! x + ! y)g x0 y0 22

(3.26)

Los parametros del modelo seran precisamente aquellos de los ltros Gabor que van a ser seleccionados del banco de ltros: la frecuencia (radial) central , la orientacion central  y la escala espacial . A continuacion veremos como seleccionarlas.

3.3.1.2 Los ltros activos Aqu nos centramos en la suposicion de que el sistema basa sus respuestas solo en aquellos ltros sensibles a estructuras de la imagen. Para implementar esta suposicion se seleccionan un conjunto de ltros activos del banco de ltros total como aquellos cuya frecuencia (radial) central y orientacion se calculan del siguiente modo. En primer lugar se divide el plano de

58

Captulo 3. Modelos de Representacion y Metricas Asociadas

frecuencia espacial 2D de una imagen en un conjunto de regiones o sensores activos tal y como se ha descrito en el apartado 3.2.1.1. Sean fChi ; i = 1; : : : ; K g los sensores activos. Los ltros activos, notados por gi (x; y; i ; i ; i ); i = 1; : : : ; K , son seleccionados como aquellos del banco de ltros Gabor 2D cuyos parametros i y i vienen dados por la frecuencia radial y orientacion centrales de los sensores activos. Para cada ltro activo gi , la escala i se obtiene como se describe en el siguiente apartado.

3.3.1.3 Una medida normalizada de redundancia El punto importante ahora es como determinar la escala espacial i de dicho ltro. Una estimacion inicial podra ser elegida a partir del ancho de banda del sensor, calculada como la inversa de su frecuencia espacial central. Una estimacion mas na va a ser calculada usando un criterio de redundancia que se basa en el grado de predecibilidad o redundancia intrnseco que tienen las escenas reales. Un criterio de redundancia similar, pero aplicado a curvas 1D, ha sido usado de forma satisfactoria para obtener las escalas a las que analizar contornos [53, 54]. Este criterio de redundancia para seleccion de escalas de nido sobre cada ltro gi pretende dar una medida de la ambiguedad existente al ltrar una se~nal a escalas sucesivas. Si esta ambiguedad o redundancia es alta es porque las imagenes ltradas a escalas sucesivas son muy parecidas. Esto, en principio, no dice nada sobre la cantidad de informacion que tiene, sobre si las estructuras que aisla ese ltro gi estan muy contrastadas o poco. Lo que s es informativo al respecto es el hecho de que las estructuras de interes que son aisladas van a permanecer practicamente invariantes a lo largo de un rango de escalas. Esto se basa una de las propiedades inherentes de los objetos del mundo real: estos solo existen como entidades signi cativas para un cierto rango de escalas [97, 181]. Esto quiere decir que las estructuras de interes que forman parte de una imagen permanecen practicamente invariantes a lo largo de una serie de escalas, desde una escala de inicio o escala interna hasta una escala en la que se extingue dicha estructura denominada escala externa o de extincion. Entre estas escalas existe una en la que dicha estructura aparece completamente contrastada. Dicha escala es la escala natural, de enfoque o de madurez de la estructura y es aquella a la que dicha estructura es perfectamente visible. Field [63] ha demostrado que las escenas naturales son aproximadamente invariantes frente a la escala con respecto tanto a la informacion de potencia como a la informacion de fase del espectro. Vamos a utilizar esta invarianza para de nir el criterio de redundancia normalizada 2D. Para cada ltro Gabor activo gi , sean fi (x; y; ) y fi(x; y;  +) la imagen f (x; y) ltrada a escalas sucesivas  y  + , como se muestra en la ecuacion 3.24. Sobre ellas se calcula una medida de redundancia, que mide el grado de ambiguedad existente entre estas dos versiones suavizadas. Esta medida se estima en base a la correlacion entre las envolventes de dichas imagenes ltradas. La envolvente de una imagen a una determinada escala , notada por Ei (x; y; ), da una idea de la energa total de esa se~nal. Esta energa se calcula usando el metodo estandar [69] de usar una pareja de ltros que esten en cuadratura de fase. El ltro Gabor 2D complejo incluye una componente coseno con cuadratura par (parte real) y una componente seno con cuadratura impar (parte imaginaria), las cuales estan en cuadratura de fase. La envolvente

3.3. Modelo de Redundancia Normalizada Sensor Escala #1 6.5 #2 15.5 #3 1.25 #4 2.0 #5 5.0

Sensor Escala #6 4.5 #7 4.5 #8 3.25 #9 6.75 #10 1.75

59 Sensor Escala #11 2.5 #12 2.5 #13 2.0 #14 1.75 #15 2.25

Sensor Escala #16 3.25 #17 2.75 #18 14.5 #19 3.75 #20 2.0

Tabla 3.2: Escalas asociadas a cada uno de los sensores activos que se muestran en la Tabla 3.1 para la imagen de la Figura 3.9(a).

se calcula de la forma:

q

Ei(x; y; ) = Re(fi(x; y; ))2 + Im(fi(x; y; ))2

(3.27)

donde Re() e Im() denotan la parte real e imaginaria de la imagen ltrada con un ltro Gabor 2D complejo gi a escala . Calculamos entonces la medida de redundancia, notada por i (x; y; ), sobre las dos imagenes ltradas a escalas sucesivas fi (x; y; ) y fi(x; y;  + ) del siguiente modo:

R R E (x; y; )E (x; y;  + )dxdy x;y i qiR R i() = qR R 2 E (x; y; ) dxdy E (x; y;  + )2 dxdy x;y i

qR R

x;y i

qR R

(3.28)

2 2 El factor de normalizacion 1=( x;y Ei (x; y; ) dxdy x;y Ei (x; y;  + ) dxdy) hace comparables los valores de la medida a lo largo de una secuencia de escalas. El maximo valor que puede tomar esta medida es uno, en el caso de que las dos versiones suavizadas a escalas sucesivas sean exactamente iguales. Posteriormente se calcula la medida de redundancia normalizada 2D, i , para un determinado ltro gi a traves de un rango de escalas, obteniendose una funcion bidimensional que mide la variacion de la redundancia entre versiones ltradas consecutivas usando como parametro la escala espacial. Esta funcion presenta un mnimo en aquella escala en la que las dos imagenes ltradas a escalas sucesivas son mas diferentes, bien porque se este perdiendo informacion o porque se este ganando de una escala con respecto a la otra. Aparecera un maximo cuando las dos versiones suavizadas sean muy parecidas, bien porque las estructuras que aisla el sensor estan maximamente contrastadas o porque estas estructuras no estan presentes en esas escalas. Como las estructuras que aisla un determinado ltro gi deben tener un tama~no espacial muy concreto, la funcion de redundancia a traves de las escalas unicamente presentara un unico maximo local que coincide con la escala a la que la estructura que aisla el ltro es mas visible, su escala de madurez. Esta escala va a ser considerada la escala natural para las estructuras de ese ltro i . En la Tabla 3.2 se muestran las escalas obtenidas usando la medida de redundancia normalizada para los ltros Gabor correspondientes a un subconjunto de sensores activos de la imagen 3.9(a). El ancho de banda en frecuencia y orientacion que corresponde a cada uno de estos sensores se mostraba en la Tabla 3.1. Para la imagen 3.9(b), la Tabla 3.3 muestra la frecuencia espacial (radial) maxima y

60

Captulo 3. Modelos de Representacion y Metricas Asociadas

1

1

0.9999 0.9998 0.9998 0.9996 0.9997 0.9994

0.9996

0.9995

0.9992

0.9994 0.999 0.9993 0.9988 0.9992

0.9986

0.9991 5

10

1

15

(a)

20

25

5

10

5

10

5

10

1

0.9999

0.999

0.9998

0.998

0.9997

0.997

0.9996

0.996

0.9995

0.995

0.9994

15

20

25

15

20

25

15

20

25

(b)

0.994 5

10

1

15

(c)

20

25

1

(d)

0.9999

0.9998

0.9998 0.9996 0.9997 0.9994 0.9996 0.9992 0.9995 0.999 0.9994

0.9988

0.9993

0.9986

0.9992 5

10

15

(e)

20

25

(f)

Figura 3.10: Funciones de redundancia normalizada para los sensores activos que se especi can en las seis primeras las de la Tabla 3.3.

3.3. Modelo de Redundancia Normalizada

61

Frecuencia Espacial R-min R-max 0.0245 0.4663 0.0245 0.3681 0.0736 0.2699 0.4417 0.5399 0.0245 0.4172 0.0245 0.3190 0.1227 0.4172 0.0245 0.1227 0.4172 0.5644 0.6623 0.7362 0.5644 0.6626 0.9325 1.0307 0.8098 0.9325

Sensor

#1 #2 #3 #4 #5 #6 #16 #23 #38 #60 #68 #81 #82

Orientacion A-min A-max 1.4661 1.6406 1.6406 1.8675 0.6632 1.4661 1.6406 1.8675 0.2618 0.4189 0.4189 0.6632 2.6180 3.0892 2.6180 3.0892 2.6180 3.0892 2.6180 3.0892 2.6180 3.0892 2.6180 3.0892 2.6180 3.0892

Escala Espacial

3.75 4.75 6.25 2.00 5.25 6.75 4.25 16.0 2.25 1.50 1.75 1.25 1.25

Tabla 3.3: Ancho de banda de frecuencia espacial y orientacion de un conjunto de sensores activos obtenidos para la imagen que se muestra en la Figura 3.9(b). En la ultima columa se muestra la escala correspondiente a cada sensor calculada usando el metodo de redundancia normalizada.

1

1

0.9998

0.99998

1

0.999 0.9996 0.99996 0.9994

0.998 0.99994

0.9992 0.99992

0.997

0.999 0.9999 0.9988

0.996 0.99988

0.9986 0.995 0.99986

0.9984

0.9982

0.99984 5

10

1

15

(a)

20

25

0.994 5

10

1

15

(b)

20

25

5

10

5

10

1

15

20

25

15

20

25

(c)

0.999 0.998 0.998 0.996

0.995

0.997 0.996

0.99

0.994 0.995 0.992 0.994

0.985

0.993

0.99

0.992

0.98

0.988 0.991 0.986

0.99 5

10

15

(d)

20

25

0.975 5

10

15

(e)

20

25

(f)

Figura 3.11: Funciones de redundancia normalizada para los sensores (a) #16, (b) #23, (c) #38, (d) #60, (e) #68, (f) #81, que se especi can en la Tabla 3.3. Todos estos sensores correponden a la misma banda de orientacion.

62

Captulo 3. Modelos de Representacion y Metricas Asociadas

mnima y el angulo de orientacion maximo y mnimo de un subconjunto de sensores activos. La numeracion corresponde con el orden que se le da a los sensores con respecto a la medida que caracteriza a cada uno (apartado 3.2.1.2). En la ultima columna aparecen las escalas espaciales de los ltros Gabor asociados a esos sensores activos. Las primeras seis las corresponden a los sensores con mayor peso. Las gra cas de la medida de redundancia normalizada a traves de una secuencia de escalas para los ltros Gabor sintonizados a los parametros de frecuencia espacial y orientacion de cada uno de estos sensores se muestran en la Figura 3.10. En estas gra cas el comportamiento de la medida es el siguiente: la medida crece hasta llegar a un maximo donde la estructura que aisla el ltro esta mas contrastada y que se toma como la escala natural para dicha estructura. Posteriormente la redundancia decrece ya que se va perdiendo informacion de una escala a otra. En la Tabla 3.3 las ultimas las corresponden a los sensores activos de una banda de orientacion concreta. La Figura 3.11 muestra las funciones de redundancia normalizada para los ltros Gabor asociados a estos sensores. Se observa que se obtienen escalas espaciales mayores para ltros sintonizados a una frecuencia espacial central mas peque~na y viveversa.

3.3.2 Desarrollo de una medida de distorsion Sea r(x; y) una imagen original de referencia y e(x; y) una imagen relacionada. Los siguientes pasos describen como calcular una medida de distancia entre ambas imagenes teniendo en cuenta las caractersticas del modelo de representacion de Redundancia Normalizada. 1. Calcular el conjunto de ltros activos del banco de ltros Gabors para la imagen de referencia r(x; y). Para ello se calcula primero la particion multisensor. Sea fChi ; i = 1; : : : ; K g el conjunto de sensores activos. Para cada uno de ellos se de nira un ltro Gabor activo sintonizado a la frecuencia radial y orientacion central del sensor y a la escala calculada usando la medida normalizada de redundancia. Sea fgi ; i = 1; : : : ; K g el correspondiente conjunto de ltros activos. 2. Filtrar la imagen de referencia r(x; y) a traves de cada uno de los ltros Gabor gi activos:

r(x; y)  gi (x; y) 3. A continuacion aplicar a cada respuesta una no-linealidad de la forma: f  g tanh(;  ) = 11 + exp expf  g

(3.29) (3.30)

Sea fri g el conjunto de imagenes ltradas y pasadas por la no-linealidad as obtenido. 4. Del mismo modo, se ltra la imagen e(x; y) a traves de los ltros activos gi a las respuestas se les aplica la no-linealidad. As obtenemos una descomposicion de la imagen e(x; y) en el conjunto fei g de sus componentes, pero \vistos" a traves de los ltros activos para la imagen de referencia r(x; y). 5. Para cada par de imagenes respuesta ri y ei correspondientes a un determinado ltro activo gi se calcula una medida de distancia parcial entre componentes. La comparacion

3.3. Modelo de Redundancia Normalizada

63

se puede hacer punto a punto o de un modo selectivo. Como se ha indicado en el modelo anterior, la seleccion de los puntos de interes se hace usando el metodo desarrollado en [123, 124]. Sea, P (ri ) el conjunto de puntos de interes para la respuesta ltrada ri . La diferencia entre las componentes, notada Rp(ri ; ei ), es calculada usando una suma de errores entre sus valores, del siguiente modo:

0N N 11= X X @ Rp(ri ; ei ) = jri(x; y) ei (x; y)j A N M 1

x=1 y=1

(3.31)

Si se realiza la medida de un modo selectivo, la diferencia entre componentes se nota RA p(ri ; ei ) y se de ne:

0

11=

X jri(x; y) ei (x; y)j A RAp (ri ; ei ) = Card[1P (r )] @ i (x;y)2P (ri )

(3.32)

El valor del exponente se toma en el rango [2 5] y se analizan los resultados obtenidos en los experimentos que se describen en el Captulo 4. Tambien se analizaran los bene cios de utilizar una medida selectiva frente a no utilizarla. 6. Calcular un factor de enmascaramiento para cada uno de los ltros utilizando la ecuacion 3.9 y multiplicar la distancia parcial por dicho factor de enmascaramiento. 7. La medida nal de detectabilidad entre las dos imagenes se calcula segun dos alternativas: (a) Ponderar cada una de las distancias parciales obtenidas por un peso que indique su importancia relativa: R(r; e) =

K X i=1

mi  Rp(ri ; ei )

(3.33)

Consideramos distintas variantes, en cada una de ellas los pesos mi son calculados siguiendo un criterio distinto: i. Se escogen los pesos mi como aquellos que minimicen el error cuadratico medio entre la imagen original y la imagen reconstruida (error de reconstruccion):

XX x y

jr(x; y) r^(x; y)j2

(3.34)

donde r^(x; y) es la imagen reconstruida que se calcula como una suma ponderada de las respuestas de cada ltro activo. ii. El conjunto de pesos con los que ponderar las imagenes ltradas se obtiene a partir de una funcion de sensibilidad global S () ajustada a la imagen r(x; y) como se ha descrito en el modelo de unico canal. Cada peso es proporcional a la suma de la sensibilidad de un observador a las coordenadas de frecuencia

64

Captulo 3. Modelos de Representacion y Metricas Asociadas espacial 2D que caen dentro del sensor activo utilizado para de nir las coordenadas centrales del ltro. Esto se hace en vez de considerar las coordanadas que caen dentro del correspondiente ltro para evitar sumar la sensibilidad de algunas coordenadas mas de una vez, ya que los ltros pueden estar ligeramente solapados entre s. (b) Utilizar una metrica de Minkovsky con un parametro de integracion entre canales

: K X

R(r; e) = (

i=1

jRp(ri ; ei )j )1=

(3.35)

En las aplicaciones desarrolladas en el Captulo 4 se ha estudiado la in uencia de este parametro sobre la medida nal. Finalmente, notaremos por RA(r; e) la correponpondiente metrica de distorsion en la que se utilizan como distancias parciales entre componentes las de nidas en la ecuacion 3.32.

3.4 Modelo de multiples canales usando un banco de ltros log Gabors En esta seccion se introduce un modelo de representacion que incorpora un conjunto de puntos claves, algunos relacionados con propiedades del sistema visual humano: (i) un dise~no multisensor con multiples unidades sintonizadas a distintas resoluciones y orientaciones; (ii) un metodo para seleccionar aquellas unidades de fuerte respuesta dentro de la organizacion multisensor; y (iii) un conjunto de ltros que modelizan las respuestas de los sensores activados, que se asemeja a los campos receptivos de las celulas del cortex estriado y que explotan las propiedades basicas de sintonizacion en la frecuencia espacial 2D y selectividad espacial. Estas hipotesis son las mismas que en el modelo anterior, aunque va a ser distinta la forma de implementarlas. En este caso utilizaremos un banco de ltros jo, es decir, cada uno de los ltros del banco de ltros estara sintonizado a una frecuencia y orientacion espec cas. Este banco de ltros es el mismo independientemente de la imagen de entrada. Lo que vara es el subconjunto de ltros que se \activan" para cada imagen. En el modelo anterior, del banco de ltros Gabors, hipoteticamente in nito, se escogen algunas funciones y esta seleccion s depende totalmente de la imagen de entrada concreta. El modelo de representacion, al que llamaremos MCBF, se aproxima como se describe a continuacion. En primer lugar, se utiliza un banco de ltros log Gabors para descomponer la imagen de entrada. En segundo lugar, se identi can aquellos ltros denominados \activos" del conjunto de ltros del banco como aquellos cuya amplitud espectral se superpone con algun cumulo de energa en el espectro de la imagen de entrada. De esta manera, las unidades seleccionadas son los ltros del banco que responden mas fuertemente al contenido de informacion espacial de la imagen original. Finalmente, la representacion de una imagen consiste en un conjunto de imagenes respuesta obtenidas ltrando la imagen original con cada uno de los ltros activos.

3.4. Modelo de multiples canales usando un banco de ltros log Gabors

65

1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20

40

60

80

100

120

Figura 3.12: Cuatro per les 1D de ltros log Gabor 2D, de orientacion 0 con longitudes de onda de 6, 12, 24 y 48 respectivamente. En las abcisas se representan las frecuencias radiales y en ordenadas los valores de la funcion.

A continuacion se describe con mas detalle el dise~no de este modelo se representacion. Posteriormente se de nira una medida de distorsion asociada a el.

3.4.1 Modelo de representacion 3.4.1.1 Dise~no de un banco de ltros log Gabors El conjunto de ltros usados en la descomposicion de la imagen consiste en ltros log Gabors de diferentes frecuencias espaciales y orientaciones [62]. Las principales razones de la eleccion de ltros log Gabor frente a los ltros Gabor son las siguientes: (i) Estas funciones, por de nicion, no tienen componente DC a diferencia de las funciones Gabor. Esto signi ca que las respuestas de las funciones log Gabor no van a depender del valor medio de la imagen y consecuentemente estos ltros estaran bien decorrelados. (ii) La funcion de transferencia de un ltro log Gabor tiene una cola alargada al nal de las altas frecuencias. De esta manera, con sus extremos prolongados, las funciones log Gabor deberan ser capaces de codi car las imagenes naturales mas e cientemente que las funciones Gabor normales, las cuales sobrerepresentan los componentes de bajas frecuencias y representan pobremente los componentes de altas frecuencias. (iii) Otro argumento que apoya las funciones log Gabor es su consistencia con respecto a medidas observadas para el sistema visual de los mamferos [80, 100]. Una caracterstica comun a las funciones Gabor y log Gabor es que ambas son polarmente separables. La separabilidad polar indica que las frecuencias del ltro son independientes de la orientacion del mismo. Esta propiedad optimiza los costes computacionales. En la Figura 3.12 se muestra el per l 1D de cuatro ltros log Gabor 2D a cuatro escalas diferentes, con longitudes de onda de 6, 12, 24 y 48 pxeles (en el dominio espacial) y con orientacion 0 . Sobre las abcisas se muestran las frecuencias radiales y en las ordenadas los valores que toma la funcion. Se puede observar como la funcion log Gabor se extiende sobre

66

Captulo 3. Modelos de Representacion y Metricas Asociadas ρ =

u2 + v2

θ = arctang (v/u)

σ

θ

v

σρ

ρ

θ u

Figura 3.13: Representacion de la funcion de trasferencia de un ltro log Gabor, donde  es la frecuencia central,  es la orientacion del ltro,  y  son las sigma radial y angular de la gausiana.

las frecuencias altas. Un ltro log Gabor i puede ser representado en el dominio frecuencial como una gaussiana centrada en una coordenada frecuencial (i ; i ), donde i es la orientacion angular del ltro y i es su frecuencia radial central. Debido a la propiedad de separabilidad polar, los ltros log Gabor pueden expresarse como el producto de dos terminos, uno dependiente de la frecuencia espacial y otro de la orientacion, del siguiente modo:

8    2 9 ( > < log i > = 2) (   ) i i = exp >    2 > exp 22i : 2 log ii ;

(3.36)

donde i y i son las sigmas angular y radial de la gaussiana2 , respectivamente. La Figura 3.13 muestra la representacion de la funcion de transferencia (una gaussiana) de la funcion log Gabor a escala logartmica. La representacion dada en la ecuacion 3.36 fue propuesta por Field en [62] y determina una mejora signi cativa en la e cacia computacional cara a explicar los ltros orientados. Ademas estas funciones son un metodo apropiado para construir ltros de un ancho de banda arbitrario. La convolucion de una funcion log Gabor (cuyas partes real e imaginaria estan en cuadratura) con una imagen real da como resultado una imagen compleja. A su norma se le llama energa y a su argumento fase. La energa local de una imagen analizada por un ltro log Gabor (a lo que llamaremos respuesta del ltro) se puede expresar como [62]:

q

2 (x; y ) + O 2 E (x; y) = Opar impar (x; y)

(3.37)

donde Opar (x; y) es la imagen convolucionada con el ltro simetrico log Gabor par y Oimpar (x; y) es la imagen convolucionada con el ltro simetrico log Gabor impar en el punto (x,y). La funcion log Gabor tiene como funcion de transferencia una gaussiana cuando se representa sobre una escala logartmica. 2

3.4. Modelo de multiples canales usando un banco de ltros log Gabors

67

El banco de ltros debe dise~narse de tal manera que cubra el plano frecuencial uniformemente (la funcion de tranferencia debe ser una funcion paso banda perfecta). La razon longitud-anchura de la log Gabor 2D controla su selectividad direccional. Esta razon se puede variar al igual que el numero de orientaciones usado para conseguir un cubrimiento completo del espectro 2D. El grado de emborronamiento introducido por los ltros se ve incrementado con su selectividad en orientacion, de tal manera que esta se debe elegir cuidadosamente para minimizar la perdida en resolucion espacial. Por tanto, consideramos un banco de ltros con las siguientes caractersticas: 1. El plano frecuencial es dividido en 12 orientaciones diferentes. 2. Se divide el eje radial en 5 bandas con el mismo numero de octavas. Dos ltros consecutivos en una misma orientacion se encuentran separados por una octava y la frecuencia espacial se incrementa en un factor de 2. El ltro de frecuencia mas alta se situa cerca de la frecuencia de Nyquist para evitar problemas de ruido y anillamiento. La longitud de onda de los cinco ltros en cada direccion es de 3, 6, 12, 24 y 48 pxeles. 3. La razon entre la sigma radial y la frecuencia central, i =i , se escoge como 0.72 octavas, siendo el ancho de banda frecuencial de 1.2 octavas. La relacion entre el ancho de banda frecuencial y la razon i =i se describe en [144]. 4. La sigma angular i se escoge como 6.7 grados, siendo el ancho de banda angular 15 grados. La relacion entre el ancho de banda angular y la sigma angular esta descrito en [76]. Se toman, por tanto, doce angulos para cada resolucion y cinco escalas por cada orientacion. El banco de ltros resultante se denotara fi g60 i=1 . Dada una imagen, notaremos como 60 fEigi=1 los correspondientes mapas de energa local, donde Ei denota la energa local de la imagen analizada por el ltro log Gabor i , para i = 1; : : : ; 60 (ver ecuacion 3.37).

3.4.1.2 Filtros activos del banco de ltros Un ltro activo es una funcion log Gabor i del banco de ltros sensible a patrones de la imagen original. Estos patrones producen agrupaciones o cumulos de energa sobre el espectro de Fourier de la imagen de entrada. Los cumulos de energa pueden ser recogidos en un conjunto de canales frecuenciales selectivos en orientacion tal y como se describio en el apartado 3.2.1.1. Por tanto, el ltro log Gabor i se considera un ltro activo si su amplitud espectral se superpone parcial o totalmente con algun agrupamiento de energa. Y esto ocurre si existe al menos una coordenada frecuencial (; ) dentro de un canal espacio-frecuencial orientado que capture el correspondiente cumulo de energa, tal que:

j ij  i y j ij  i

(3.38)

donde i es el angulo de orientacion del ltro, i es la frecuencia radial central, i y i son la sigma angular y radial de la gaussiana, respectivamente. Al conjunto de ltros activos le notaremos como Act.

68

Captulo 3. Modelos de Representacion y Metricas Asociadas Imagen Original

Solapamiento

Filtros Activos

(a)

(b)

(c)

(d) Figura 3.14: En la primera columna se muestran cuatro imagenes originales. En la segunda columna aparece el banco de ltros log Gabors completo solapado con los sensores activos seleccionados para cada una de las imagenes. La ultima columna muestra la seleccion de los ltros activos.

3.4. Modelo de multiples canales usando un banco de ltros log Gabors

69

En la Figura 3.14 se muestra para cuatro imagenes diferentes (columna 1), la seleccion de sensores activos obtenida tal y como se describio en el apartado 3.2.1.2. Los sensores activos aparecen en la segunda columna superpuestos con el banco completo de ltros log Gabors usado. Cada ltro log Gabor es ilustrado como una elipse dibujada en el plano frecuencial 2D 1 2 en el punto donde ha decrecido a (e ) su valor maximo de amplitud. En la tercera columna se muestra los ltros log Gabors activos para cada una de las imagenes.

3.4.1.3 Seleccion de los puntos de interes La seleccion de las localizaciones de la imagen que contienen la informacion mas signi cativa es un punto clave para el posterior procesamiento de la misma. Estas localizaciones, a las que hemos llamado puntos de interes, pueden ser tomados como los picos de energa local sobre las respuestas ltradas. Como antecedente al uso de puntos de interes en una imagen esta el modelo de energa local para la deteccion de rasgos, lneas y aristas, que propusieron Morrone y Owens [124] y Morrone y Burr [123]. Este modelo postula que los rasgos de una imagen son percibidos en los puntos donde los componentes de Fourier entran en congruencia de fase, y explica con exito una serie de efectos psicofsicos en la percepcion humana de caractersticas [123]. Para detectar los puntos de congruencia en fase se de ne una funcion de energa. La energa de una imagen puede ser extrada usando el metodo estandar de obtener el modulo de las salidas de dos ltros que estan en cuadratura de fase (desplazados 90o en fase) [69]. Las caractersticas, tanto lneas como bordes, se detectan como los picos de la funcion de energa local, que se corresponden con aquellas localizaciones de la imagen donde las componentes armonicas del estmulo entran en fase [123]. Aqu, la implementacion del modelo de energa local es la que se describe en [55]. Dada la imagen original, el mapa de energa local Ei para el ltro activo i , ecuacion 3.37), nos proporciona una representacion espacial que abarca dos funciones, Opar (x; y) y Oimpar (x; y), donde Opar (x; y) es la imagen convolucionada con el ltro log Gabor de simetra par y Oimpar (x; y) es la imagen convolucionada con el ltro log Gabor de simetra impar en el punto (x; y). Los picos detectados en Ei actuan como un mapa detector de rasgos signi cativos sobre la respuesta ltrada.

3.4.2 Desarrollo de una medida de distorsion Sea r(x; y) una imagen original de referencia y e(x; y) una imagen relacionada. Los siguientes pasos describen como calcular una medida de distancia entre ambas imagenes teniendo en cuenta las caractersticas del modelo de representacion descrito anteriormente. Un esquema del metodo se muestra en la Figura 3.15. 1. Calcular el conjunto de ltros activos del banco de ltros log Gabor para la imagen de referencia r(x; y). Sea Act = fi g el correspondiente conjunto de ltros activos y Nf el numero total de ltros activos. 2. Filtrar la imagen de referencia r(x; y) a traves de cada uno de los ltros log Gabor i activos:

70

Captulo 3. Modelos de Representacion y Metricas Asociadas Imagen de Referencia

Imagen de Entrada

Descomposicion Multicanal

. . .

Normalizacion

. . .

-

Enmascaramiento

-

Enmascaramiento

. . . . . . Descomposicion Multicanal

. . .

Normalizacion

. . .

-

+

Metrica

Enmascaramiento

Figura 3.15: Esquema de la obtencion de una medida de distorsion de nida sobre el modelo de representacion MCBF.

r(x; y)  i (x; y)

(3.39)

3. A continuacion aplicar a cada respuesta una no-linealidad de la forma:

f  g tanh(;  ) = 11 + exp expf  g

(3.40)

4. Posteriormente se normaliza en contraste cada respuesta con respecto a las demas. El mecanismo de normalizacion del contraste usado aqu es analogo a los modelos de adaptacion a la luz y control de ganancia [51, 158], los cuales tienen como proposito mantener la respuesta de la retina aproximadamente igual frente a variaciones del nivel de iluminacion. De este modo, el cerebro puede proceder a procesar la informacion visual independientemente del nivel de luz. La consecuencia de la adaptacion a la luz de la retina es que la mayora de nuestra percepcion es invariante con respecto a la intensidad, sobre un amplio rango de niveles de luz. La normalizacion en contraste de cada respuesta se realiza dividiendo cada respuesta por la energa total, del siguiente modo:

ri =

jAi j P f 2 + Nj =1 jAj j

(3.41)

donde Ai i = 1; : : : ; Nf son cada una de las respuestas obtenidas ltrando la imagen original con los ltros activos y normalizandolas con la no-linealidad;  es una constante conocida como la constante de semisaturacion. Mientras esta constante sea distinta de cero, la salida normalizada siempre sera nita, incluso para un estmulo de contraste cero. De hecho, la salida normalizada siempre tendra un valor entre 0 y 1, saturandose para contrastes altos. Finalmente, sea fri g el conjunto de imagenes ltradas y normalizadas as obtenido. 5. Del mismo modo, se ltra la imagen e(x; y) a traves de los ltros i del conjunto Act y se normalizan. As obtenemos una descomposicion de la imagen e(x; y) en el conjunto

3.4. Modelo de multiples canales usando un banco de ltros log Gabors

71

fei g de sus componentes, pero \vistos" a traves de los ltros activos para la imagen de

referencia r(x; y).

6. Cada par de imagenes respuesta ri y ei para un determinado ltro i pueden ser comparadas punto a punto o de un modo selectivo. La seleccion de posiciones para examinar incluye una rapida asimilacion de informacion de la imagen completa y la distribucion de la atencion en puntos de interes. Los puntos de interes se calculan como picos de la energa local sobre la correspondiente salida ltrada de la imagen de referencia, como se describio en el apartado 3.4.1.3. Sea, por tanto, P (ri ) el conjunto de puntos de interes para la respuesta ltrada ri . 7. La diferencia entre las componentes ri y ei , notada Lp(ri ; ei ), es calculada usando una suma de errores entre sus valores, del siguiente modo:

0N N 11= X X @ Lp (ri ; ei ) = jri(x; y) ei (x; y)j A N M 1

x=1 y=1

(3.42)

Si se realiza la medida de un modo selectivo, es decir, esta se calcula solo sobre las posiciones donde es probable que es ser humano je su atencion, la diferencia entre componentes queda del siguiente modo: LAp (ri ; ei ) =

1

Card[P (ri )]

0 @

X (x;y)2FP (ri )

11= jri(x; y) ei (x; y)j A

(3.43)

El valor del exponente se toma en el rango [2 5] y se analizan los resultados obtenidos en los experimentos que se describen en el Captulo 4. Del mismo modo se analizaran los bene cios de utilizar una medida selectiva, ya que es de esperar que esta capture mejor la respuesta del sistema visual humano. 8. Multiplicar cada distancia parcial por un factor que indica el enmascaramiento que provoca el enmascarador sobre el objeto en cada uno de los canales (ecuacion 3.9). Este factor se calcula sobre la imagen ltrada antes de aplicar sobre ella la normalizacion. 9. Finalmente, la medida de distorsion entre las dos imagenes, a la que notaremos L(r,e), se calcula sumando las distancias entre componentes, del siguiente modo:

0 Nf 11= X L(r; e) = @ mi  Lp (ri ; ei ) A i=1

(3.44)

Se trata de una suma de Minkowski con exponente , en la que se ha incorporado la posibilidad de ponderar cada una de las distancias parciales por un peso que indique su importancia relativa. Consideramos distintas variantes, en cada una de ellas los pesos mi son calculados siguiendo un criterio distinto:

72

Captulo 3. Modelos de Representacion y Metricas Asociadas (a) Todos las distancias entre componentes son ponderadas con el mismo peso:

mi = N1

(3.45)

jr(x; y) r^(x; y)j2

(3.46)

f

donde Nf es el numero total de ltros activos. Esto reduce la formula a la metrica de Minkowski con exponente normalmente utilizada. A este conjunto de pesos le denominamos I . (b) Se escogen los pesos mi como aquellos que minimicen el error cuadratico medio entre la imagen original y la imagen reconstruida (error de reconstruccion):

XX x y

donde r^(x; y) es la imagen reconstruida que se calcula como la suma ponderada P de las respuestas de los ltros log Gabors activos r^(x; y) = Ni=1f mi  ri (x; y). Al conjunto de pesos derivado de este modo le denominaremos M . (c) El conjunto de pesos con los que ponderar las imagenes ltradas se obtiene a partir de una funcion de sensibilidad global S (; ) ajustada a la imagen r(x; y) como se ha descrito en el modelo de unico canal. Consideramos dos posibilidades: i. La ponderacion de cada imagen respuesta es proporcional al valor de la funcion de sensibilidad en el punto del plano frecuencial central del ltro log Gabor correspondiente.

mi = S (i ; i )

(3.47) donde i y i es la frecuencia radial y orientacion del punto central del ltro activo i . ii. La ponderacion de cada imagen respuesta es proporcional a la suma de la sensibilidad de un observador a las coordenadas de frecuencia espacial 2D dentro de la region efectiva, a la que llamamos RE, del ltro log Gabor i .

mi =

X

(;)2REi

S (; )

(3.48)

donde (; ) 2 REi sii j i j   y j i j   Al conjunto de pesos derivado de la funcion de sensibilidad le denominamos S 0 si se obtiene usando el criterio (i) y S 00 si se obtiene usando el criterio (ii). Notaremos por LA (r; e) una metrica de distorsion atencional en la que se utilizan como medidas parciales las de nidas en la ecuacion 3.43.

Captulo 4

Aplicaciones Las medidas de distorsion son muy utiles en el campo del procesamiento de imagenes, en problemas tales como deteccion de objetos, restauracion o compresion, ya que pueden facilitar mucho el proceso de evaluacion de la calidad de las imagenes que se obtienen como resultado de dichos procesos. Es importante disponer de una medida computacional objetiva para cuanti car la diferencia entre imagenes, ya que la alternativa a esto sera tener a personas que explorasen visualmente las imagenes resultantes del procesamiento y emitiesen un criterio subjetivo, lo cual presenta varios inconvenientes: (i) es subjetivo, (ii) el tiempo de procesamiento es mayor, (iii) cada sujeto tendera a resaltar unos rasgos mas que otros y (iv) si un mismo sujeto ha de evaluar la misma imagen dos veces, posiblemente no obtendra el mismo resultado en ambas ocasiones. Para intentar solucionar algunos de estos problemas se necesitara un gran numero de observadores y trabajar con algun estadstico (p. ej. la media) obtenido a partir de las conclusiones de todos ellos, lo cual es poco operativo. Muchas de las medidas computacionales que se usan en la actualidad no estan basadas en propiedades del SVH. Algunas de estas medidas clasicas (RMSE, SNR, . . . ) se describan en el apartado 2.3.2.1. Los resultados obtenidos con ellas generalmente no correlan bien con los que obtienen observadores humanos. Por otro lado, en la literatura aparecen medidas que s tienen en cuenta alguna propiedad que caracteriza al SVH. Se trata de las medidas perceptuales (ver apartado 2.3.2.2). Normalmente las perceptuales implicaran una mayor complejidad aunque a cambio parece razonable pensar que van a proporcionar una mayor precision y abilidad en los resultados. Lo deseable en una medida de distorsion es que tenga un comportamiento lineal respecto de la calidad percibida por un observador humano y esto es algo que solo parece al alcance de las medidas perceptuales. Las propiedades genericas que debera tener una buena medida de distorsion son (Kominek [99]):

 La medida ha de ser cero cuando comparamos la imagen consigo misma.  la medida no debe ser negativa.  La medida ha de ser monotona creciente conforme aumenta la diferencia existente entre

ambas imagenes. Esta difererencia habra de estar medida en terminos de una buena correlacion respecto a medidas realizadas por observadores humanos. 73

74

Captulo 4. Aplicaciones

En este Captulo abordaremos dos problematicas en las que interviene como elemento basico la medida de distorsion. En la primera, la medida se utiliza para determinar la visibilidad de un objeto sobre un fondo complejo (seccion 4.1). En la segunda se evaluara la calidad de imagenes comprimidas (seccion 4.2). Los modelos de representacion de nidos en el Captulo anterior y sus metricas asociadas seran utilizados en ambos casos. Cada una de las metricas esta de nida sobre un modelo que tiene en cuenta distintas caractersticas del SVH. Comparando los resultados obtenidos de cada una de ellas tambien pretendemos evaluar que caractersticas del SVH sera conveniente que incorporara un modelo de representacion para estas aplicaciones particulares.

4.1 Detectabilidad visual de objetos en una escena Distintos autores [61, 71, 120, 146, 148] han demostrado que una medida computacional que cuanti ca la visibilidad de las diferencias entre dos imagenes puede predecir la visibilidad de objetos en escenas naturales complejas. En esta seccion se muestran diversos experimentos relacionados con la detectabilidad de objetos en escenas naturales. La detectabilidad supone tener dos imagenes, una que representa una escena con un objeto presente y la segunda que representa la misma escena pero donde el objeto en cuestion esta ausente. Una medida de detectabilidad da una cantidad que debe re ejar la capacidad de detectar el objeto sobre el fondo. Con ello se pretende evaluar los modelos de nidos y las metricas de distorsion asociadas en base a su capacidad de medir la visibilidad de ciertos objetos de interes dentro de una escena natural compleja de manera similar a como lo haran observadores humanos. Tambien se compararan con el comportamiento de algunas medidas matematicas clasicas.

4.1.1 Metodo para la evaluacion de metricas de detectabilidad El desarrollo de una medida para predecir la visibilidad de objetos puede ser evaluado haciendo uso del grado de correlacion entre la detectabilidad visual de objetos medida por observadores humanos y la detectabilidad de objetos computacional. La aproximacion se de ne como sigue: 1. En primer lugar, se ha desarrollado un experimento psicofsico en el cual un conjunto de observadores estiman la detectabilidad visual de un objeto (apartado 4.1.2). Las imagenes utilizadas en este estudio son diapositivas tomadas durante el estudio de campo DISSTAF (Distributed Interactive Simulation, Search and Target Adquisition Fidelity ), que fue dise~nado y organizado por la NVESD (Night Vision & Electro-optic Sensors Directorate, Ft. Belvoir, VA, USA). Estas diapositivas contienen 44 escenas diferentes. Cada escena representa un vehculo militar en un fondo rural complejo. Hay un total de 9 vehculos diferentes empleados como objetivos de busqueda. La visibilidad de los vehculos vara a traves del conjunto de escenas, debido principalmente a variaciones en:

 la estructura del fondo,  la distancia de vision,

4.1. Detectabilidad visual de objetos en una escena

75

 la distribucion de luminosidad sobre el lugar donde se apoya el vehculo, (las som-

bras),  la orientacion del vehculo, y  el grado de oclusion del vehculo por la vegetacion.

La ordenacion subjetiva inducida por la detectabilidad psicofsica de los objetos es adoptada como el orden de referencia. 2. En segundo lugar, se han aplicado las medidas de distorsion de nidas anteriormente junto con algunas medidas de error clasicas (RMSE, SNR . . . ) para cuanti car la detectabilidad visual de los objetos. 3. En tercer lugar, se establece una relacion entre las estimaciones de detectabilidad computacional y psicofsica a traves de una funcion de evaluacion. E sta viene dada por: Correctamente Clasi cadas PCC = N u mero de Escenas N u mero de Escenas

(4.1)

donde esta medida denota la fraccion de parejas de imagenes bien clasi cadas (con respecto a la clasi cacion subjetiva de referencia) por la metrica computacional que se esta evaluando.

4.1.2 La distincion psicofsica de los objetos Para tener un marco de referencia con el que comparar los resultados de las medidas computacionales se ha realizado un experimento psicofsico en el que observadores humanos estimaron la visibilidad de vehculos militares. El experimento consiste en medir tiempos de busqueda y probabilidades de deteccion acumuladas para los nueve vehculos militares en fondos naturales complejos.

4.1.2.1 Experimento de busqueda Se utilizo un proyector de diapositivas Kodak Ektapro 7000, equipado con una lente de 90 mm, para proyectar las diapositivas en una pantalla blanca. Un segundo proyector fue usado para crear una frontera brillante alrededor de la escena proyectada. Un total de 64 observadores civiles, con edades comprendidas entre 18 y 45 a~nos, participaron en el experimento de busqueda visual. Aproximadamente la mitad de ellos eran mujeres. Ninguno tena experiencia previa en tareas de busqueda militar. Todas las personas que participaron en este estudio tenan vision correcta, con una agudeza visual mayor de 1:25 arcmin 1 . El experimento de busqueda se desarrollo del siguiente modo. Se utilizo un ordenador para controlar el orden y duracion de la presentacion del estmulo y para registrar los tiempos de respuesta y las localizaciones estimadas de los tanques. Antes de comenzar el experimento de busqueda, se mostraron primeros planos de cada uno de los 9 vehculos para familiarizar a los sujetos con los objetos que se deban localizar.

76

Captulo 4. Aplicaciones

Esta presentacion inicial de esos primeros planos de los vehculos fue seguida por un test que consista en 10 pruebas de busqueda. Esto serva para familiarizar al sujeto con el proceso de busqueda visual. Cada tentativa de busqueda comienza con la presentacion de una nueva escena. La tarea del sujeto consista en buscar en la escena un vehculo militar y presionar un boton inmediatamente en cuanto detectaba el objeto. El intervalo de tiempo que transcurre entre el momento en que comienza la presentacion de la escena y el momento en el que el sujeto hace la se~nal de la deteccion del objeto se anota y se toma como el tiempo de busqueda. Despues de que el sujeto haya respondido, la escena expuesta se reemplaza por la proyeccion de una cuadrcula rectangular con celdas numeradas del 0 al 99. Para veri car si la deteccion ha sido o no correcta, se le pide al sujeto que indique la localizacion donde ha percibido el objeto dando el numero de la celda que cubre la localizacion del objeto percibido. Una deteccion se considera que es correcta si la celda indicada corresponde a la que de hecho contena el objeto o una de sus celdas adyacentes. Cada estmulo no es mostrado mas de 60 segundos. El experimento de busqueda comienza despues de que los sujetos terminen las 10 primeras pruebas de practica. El observador puede decidir que estrategia de busqueda utiliza, no se le pide que procese la imagen en ningun orden especial ni que empiece la busqueda en ninguna localizacion particular. El resultado de la busqueda generalmente se expresa como la probabilidad de deteccion acumulada en funcion del tiempo, y se aproxima por la siguiente funcion teorica (Krendel et al. [101], Rotman et al. [151], Toet [167], Waldman et al. [169]):

(0

Pd (t) = P



1 exp

inf

n

) t < t0 o t t0 ; t  t0 

(4.2)

donde

Pd (t) es la fraccion de detecciones correctas en tiempo t, P es la probabilidad de una respuesta correcta despues de una cantidad in nita de inf

tiempo de respuesta, t0 es el tiempo mnimo requerido para responder, y  es una constante de tiempo. En la mayora de las condiciones P aproximada por la siguiente:

inf

(0

 1, de tal manera que la ecuacion 4.2 puede ser

Pd (t) = 1 exp

n

) t < t0 o t t0 ; t  t0 

(4.3)

La Figura 4.1 muestra las funciones de distribucion acumuladas correspondientes a los tiempos de busqueda medidos para las escenas usadas en los experimentos que se describen en el siguiente apartado. La diferencia entre dos de estas funciones puede ser medida restando el area que queda debajo de sus gra cas. La operacion corresponde a un test de KolmogorovSmirnov (K-S) (Law et al. [103], Press et al. [138]). Para comparar la detectabilidad relativa

4.1. Detectabilidad visual de objetos en una escena

77

Conjunto de Datos #1 Pd (%) 1

C1 0.8

C2 C3

0.6

C1={16,18,10}

0.4

C2={43,6,30} C3={19,3,32}

0.2

0 0

10

20

30

40

50

60

Tiempo de Busqueda (s)

Conjunto de Datos #2 Pd (%) 1

C1 0.8

C2 0.6

C3

C1={35,16}

0.4

C2={28,36,6} C3={19,23,3}

0.2

0 0

10

20

30

40

50

60

Tiempo de Busqueda (s)

Conjunto de Datos #3 Pd (%) 1

C1 0.8

C2 0.6

C4

C1={16,9,37}

0.4

C3

C2={6,30,26,29} C3={3,21,11}

0.2

C4={4} 0 0

10

20

30

40

50

60

Tiempo de Busqueda (s)

Figura 4.1: Funciones de distribucion teoricas del tiempo de deteccion para las imagenes que forman los conjuntos #1, #2 y #3. Con un crculo se indican los grupos detectados.

78

Captulo 4. Aplicaciones

de los vehculos en las diferentes escenas las curvas han sido ordenadas segun el area que queda debajo de sus gra cas. Este orden es tomado en cada uno de los experimentos realizados como referencia para la evaluacion de las metricas computacionales de nidas. Las escenas que dan lugar a curvas de deteccion acumuladas proximas entre s, es decir, que son similares conforme a un test K-S, se dice que tienen detectabilidad visual similar. De las 44 escenas iniciales se han seleccionado 36, las cuales se han dividido en cuatro grupos (clusters ) con detectabilidad visual analoga. Hay que tener en cuenta que las permutaciones en el orden entre elementos que pertenecen al mismo grupo no son signi cativas. En cambio, las permutaciones entre elementos de diferentes agrupaciones si son signi cativas.

4.1.3 Descripcion de la experimentacion computacional Las imagenes utilizadas en los experimentos son subsecciones de las diapositivas originales. Estas subimagenes son de tamano 256  256 y estan centradas en el punto medio del objeto. Para cada escena original que contiene un objeto se crea una escena vaca. Esta escena es igual a la original, excepto en que el objeto es eliminado y su hueco rellenado por el nivel del fondo. Este reemplazamiento se hace a mano, usando la herramienta de borrado del Photoshop 3.05. El objetivo de esta operacion es crear una imagen identica a la escena del objeto fuera de la region del mismo, y en la cual los gradientes de contraste para la region del objeto sean inducidos por el fondo que limita con el mismo. La imagen vaca se obtiene, por tanto, suavizando los valores de fondo en el area que rodea al objeto. El suavizado produce la mezcla del borde local en la region del objeto. El resultado se acepta si la variacion del fondo sobre el area del objeto no tiene un contraste apreciable con respecto a la variacion natural en el fondo local. Las 36 parejas de imagenes (con y sin objeto) usadas en los experimentos computacionales se ilustran en las Figuras 4.2, 4.3, 4.4 y 4.5. Todas estas imagenes han sido proporcionadas por el Instituto de Investigacion de Factores Humanos TNO de Holanda. Mas detalles sobre estas imagenes se pueden encontrar en [167]. El conjunto de datos completo fue tomado con la nalidad de validar (i) metricas que calculan la visibilidad de objetos en escenas complejas y (ii) modelos de busqueda y deteccion visuales humanos. Se han dise~nado un conjunto de experimentos para validar las metricas perceptuales propuestas utilizando en ellos la base de datos mencionada anteriormente:

 Para un primer experimento se han determinado tres conjuntos de datos diferentes a

partir de la base de datos. Estos conjuntos se han seleccionado de tal manera que contienen imagenes que representan distintas condiciones de visibilidad y tama~no del objeto, luminosidad, etc.

{ Conjunto #1: Formado por nueve imagenes naturales complejas que contienen un

unico objeto que corresponden a las escenas numeradas 16, 18, 10, 43, 6, 30, 19, 3 y 32; y las correspondientes imagenes vacas con el mismo fondo pero sin objeto. Las imagenes estan agrupadas en tres grupos de visibilidad similar. { Conjunto #2: Formado por los ocho pares de imagenes naturales, con y sin objeto, correspondientes a las escenas 35, 16, 28, 36, 6, 19 y 23 y 3.

4.1. Detectabilidad visual de objetos en una escena

79

Cluster #1 de Escenas con Detectabilidad Visual similar

#35

#16

#34

#9

#37

#12

#18

#20

#40

#5

#10

Figura 4.2: Cluster #1 de escenas con detectabilidad visual similar.

80

Captulo 4. Aplicaciones Cluster #2 de Escenas con Detectabilidad Visual similar

#28

#43

#33

#36

#17

#25

#42

#6

#30

#26

#29

Figura 4.3: Cluster #2 de escenas con detectabilidad visual similar.

4.1. Detectabilidad visual de objetos en una escena

81

Cluster #3 de Escenas con Detectabilidad Visual similar

#19

#8

#27

#23

#38

#15

#3

#32

#1

#2

#21

#11

Figura 4.4: Cluster 3 de escenas con detectabilidad visual similar.

82

Captulo 4. Aplicaciones Cluster #4 de Escenas con Detectabilidad Visual similar

#22

#4

Figura 4.5: Cluster #4 de escenas con detectabilidad visual similar.

{ Conjunto #3: Formado por las once parejas de imagenes que corresponden a las escenas 16, 9, 37, 6, 30, 26, 29, 3, 21, 11 y 4, agrupadas en cuatro grupos de visibilidad similar.

 En un segundo experimento se analizan los resultados de las metricas usando como

referencia los valores de medidas estadsticas clasicas generadas a partir de un numero mayor de conjuntos de datos.

 En tercer lugar nos planteamos si los resultados obtenidos en los experimentos anteriores

son generalizables para cualquier base de datos. Para ello usamos metodos estadsticos bootstrap que analizan de forma mas precisa la abilidad de los resultados de las medidas de detectabilidad derivadas de los distintos modelos.

4.1.4 Valoracion de la metrica derivada del modelo unicanal UC Con los siguientes experimentos se pretende encontrar la de nicion de los parametros optimos del modelo unicanal que dan lugar a una medida de detectabilidad con mejor comportamiento con respecto a su correlacion con la visibilidad percibida por observadores humanos. Sacaremos conclusiones sobre:

 La conveniencia de aplicar una metrica atencional en vez de una global donde la medida de detectabilidad se calcule solo sobre una seleccion de puntos de la imagen de referencia.

 Si mejora la detectabilidad visual el hecho de introducir una funcion de sensibilidad adaptativa con respecto a usar la misma funcion de sensibilidad independientemente de la imagen de entrada como se utiliza en otros modelos [7, 156]. En caso a rmativo dar un criterio de ajuste.

 El mejor exponente en la suma de errores para la integracion de la informacion espacial (ver ecuacion 3.8).

 La in uencia efectiva del enmascaramiento debido al contraste inducido por el fondo sobre la deteccion del objeto en el calculo de una medida de detectabilidad basada en un modelo unicanal.

4.1. Detectabilidad visual de objetos en una escena

83

Conjunto de Datos #1

Metrica U1;E U1;C U2;E U2;C U3;E U3;C

Probabilidad de Correcta Clasi cacion =3 =4 =5 0.67 0.78 0.67 0.67 0.67 0.67 0.78 0.78 0.67 0.78 0.67 0.56 0.44 0.44 0.33 0.33 0.44 0.44 0.44 0.44 0.44 0.44 0.44 0.44

=2

Tabla 4.1: Valores de PCC que produce la metrica derivada del modelo unicanal para el conjunto de datos #1, variando el criterio de ajuste de la funcion de sensibilidad del modelo.

4.1.4.1 Experimento 1 En el apartado 3.1.1.2 se describan distintos modos de ajustar la funcion de sensibilidad al contraste del modelo unicanal a una imagen dada. En concreto, se apuntaron tres posibilidades de variar los parametros de la funcion de sensibilidad junto con dos criterios de seleccion (minimizacion del error o maximizacion del contraste). Esto daba lugar a seis modos de ajustar la CSF a los datos, que ahora pretendemos evaluar. La metrica derivada del modelo unicanal se nota por U con un subndice indicando el modo de ajuste de la funcion de sensibilidad S que incluye. En este apartado se comparan tales variantes utilizando en primer lugar los conjuntos de datos particulares mencionados anteriormente.

? Conjunto #1

La Tabla 4.1 muestra los resultados de la funcion de evaluacion PCC aplicada a las ordenaciones obtenidas por las seis variantes para el conjunto de datos #1. En esta Tabla se analiza tambien la dependencia del resultado con respecto al valor del parametro de integracion espacial (ver ecuacion 3.8), que toma valores entre dos y cinco. El valor maximo de la funcion de evaluacion (PCC = 0:78) se obtiene para las metricas U1;E , U1;C y U2;E . Para la primera y tercera mencionadas este maximo se produce para = 3:0 mientras que en la segunda se obtiene para = 4:0 y = 5:0. Seleccionamos la metrica U1;C para mostrar en la Tabla 4.2 la ordenacion concreta que produce comparandola con la ordenacion subjetiva RPd y con la ordenacion que produce la medida RMSE. Al nal de cada una de las columnas se muestra la probabilidad de clasi cacion correcta de la metrica de dicha columna con respecto al orden de referencia que se muestra en la columna 2. Los valores de detectabilidad junto con la ordenacion resultante obtenida por la medida RMSE aparecen en la columna 3. Esta medida da unos resultados muy pobres. Los cambios signi cativos en la ordenacion se han representado dentro de unos recuadros. La ordenacion resultante de la metrica RMSE tiene siete cambios de orden signi cativos con respecto a la ordenacion inducida por la medida de detectabilidad psicofsica de la columna 2. Estas permutaciones corresponden a las escenas 16, 10, 43, 6, 30, 19 y 3. A las otras escenas se les asocia ordenes que no di eren signi cativamente del orden de referencia. Esta metrica produce una probabilidad baja (PCC = 0:22). Estos resultados

84

Captulo 4. Aplicaciones Par de Cluster Im agenes #16 C1 #18 #10 #43 C2 #6 #30 #19 C3 #3 #32

V alor de PCC

Conjunto de Datos #1

RPd

Valor Orden 96.39 1 96.02 2 95.63 3 93.34 4 90.95 5 90.66 6 84.79 7 80.02 8 79.52 9

RMSE Valor Orden 2.55 6 4.50 2 3.20 4 5.50 1 1.94 8 2.37 7 3.30 3 2.83 5 1.11 9 0.22

U1;C ( = 4) Valor Orden 4.34 2 9.36 1 3.20 6 3.26 5 3.72 3 3.55 4 2.91 7 1.15 9 1.67 8 0.78

Tabla 4.2: Columna 1: imagenes que forman parte del conjunto #1 junto con el grupo al que pertenecen. Columna 2: orden de referencia dado por la ordenacion psicofsica. Columnas 3 y 4: valores de detectabilidad calculados por las metricas RMSE y U1;C respectivamente. Al nal de cada columna se muestra la probabilidad de correcta clasi cacion PCC del orden dado por la metrica en esa columna con respecto al orden de referencia de la columna 2.

muestran claramente que la metrica RMSE no es capaz de ordenar las escenas del conjunto #1 con respecto a su detectabilidad visual. Los valores de detectabilidad y la ordenacion resultante de la medida U1;C se muestran en la columna 4. Se puede observar que esta metrica comete un error signi cativo en la medida que asocia a la escena 10, esto hace que aparezcan mal ordenadas dos escenas, la 10 y la 6. En cualquier ordenacion, el encontrar una imagen mal ordenada provoca una permutacion con otra imagen, as que como mnimo apareceran dos errores en la ordenacion. Por tanto, para el conjunto #1 la metrica U1;C determina una ordenacion de detectabilidad que esta altamente correlada (PCC = 0:78) con la realizada por observadores humanos.

? Conjunto #2

En este caso usamos una base formada por las ocho parejas de escenas 35, 16, 31, 36, 6, 19, 23 y 3, divididas en tres grupos. La Tabla 4.3 muestra los resultados de la funcion de evaluacion PCC para cada metrica derivada de los distintos modos de ajustar la funcion de sensibilidad y para distintos valores del parametro de integracion espacial . El valor mas alto de esta funcion (PCC = 0:75) se obtiene para las metricas U1;E , U1;C , U2;E y U3;E . Para la metrica U3;C se obtienen valores de la funcion de evaluacion igual al obtenido por la metrica RMSE, mientras que todas las demas metricas superan el resultado de RMSE. Los mejores resultados junto con la mayor estabilidad con respecto a se re eja en la metrica U1;C . Los resultados comparativos de la metrica U1;C y los obtenidos para las medidas cuantitativa y cualitativa se presentan en la Tabla 4.4. En la parte de abajo de cada columna

4.1. Detectabilidad visual de objetos en una escena

85

Conjunto de Datos #2

Probabilidad de Correcta Clasi cacion =3 =4 =5 0.5 0.5 0.75 0.75 0.5 0.75 0.75 0.75 0.5 0.5 0.75 0.75 0.5 0.5 0.5 0.5 0.63 0.63 0.75 0.75 0.38 0.38 0.38 0.38

Metrica U1;E U1;C U2;E U2;C U3;E U3;C

=2

Tabla 4.3: Valores de PCC que produce la metrica derivada del modelo unicanal para el conjunto de datos #2, variando el criterio de ajuste de la funcion de sensibilidad al contraste del modelo.

Par de Cluster Im agenes #35 C1 #16

C2 C3

#28 #36 #6 #19 #23 #3

V alor de PCC

Conjunto de Datos #2

RPd

Valor Orden 96.40 1 96.39 2 93.48 3 92.81 4 90.95 5 84.79 6 82.91 7 80.02 8

RMSE Valor Orden 15.40 1 2.55 6 3.86 3 4.56 2 1.94 7 3.30 4 1.42 8 2.83 5 0.38

U1;C ( = 4) Valor Orden 5.29 2 4.34 3 4.17 4 6.15 1 3.72 5 2.91 6 1.55 7 1.15 8 0.75

Tabla 4.4: Columna 1: imagenes que forman parte del conjunto #2. Columna 2: el orden de referencia. Columnas 3 y 4: los valores de las metricas RMSE y U1;C y el orden resultante calculado sobre las metricas computacionales.

86

Captulo 4. Aplicaciones Conjunto de Datos #3

Metrica U1;E U1;C U2;E U2;C U3;E U3;C

Probabilidad de Correcta Clasi cacion =3 =4 =5 0.82 0.82 0.64 0.54

=2

0.82 0.64 0.64 0.73 0.64

0.82 0.64 0.64 0.73 0.64

0.82 0.64 0.64 0.54 0.64

0.82 0.64 0.64 0.54 0.45

Tabla 4.5: Valores de PCC que produce la metrica derivada del modelo unicanal para el conjunto de datos #3, variando el criterio de ajuste de la funcion CSF del modelo.

se muestra la probabilidad de correcta clasi cacion de la metrica de dicha columna con respecto a la ordenacion de referencia de la columna 2. En la columna 3 aparecen los valores de detectabilidad y la ordenacion resultante para la metrica RMSE. Al ordenar las escenas, esta metrica comete cinco errores signi cativos con respecto al orden de referencia inducido por la medida de detectabilidad psicofsica mostrada en la columna 2. Estos cambios de orden corresponden a las escenas 16, 31, 6, 19 y 3. La metrica RMSE produce una baja probabilidad global de correcta clasi cacion (PCC = 0:38), lo cual muestra que no es capaz de ordenar adecuadamente las escenas del conjunto #2 con respecto a su detectabilidad visual. Los valores de detectabilidad as como la ordenacion resultante para la metrica U1;C se muestran en la columna 4. Esta metrica induce una ordenacion con dos permutaciones en el orden, las escenas 36 y 16 estan ordenadas incorrectamente. A las otras escenas se les asocia ordenes que no di eren signi cativamente del orden de referencia basado en la medida psicofsica. El valor de correcta clasi cacion obtenido por la metrica U1;C (PCC = 0:75) lleva a la conclusion de que esta metrica determina en este conjunto una ordenacion de detectabilidad similar a la realizada por observadores humanos.

? Conjunto #3

En esta tercera parte del experimento se usa el conjunto formado por once imagenes correspondientes a las escenas 16, 9, 37, 6, 30, 26, 29, 3, 21, 11 y 4 y sus respectivas imagenes vacas. La Tabla 4.5 compara los valores de la funcion de evaluacion PCC para la metrica derivada del modelo unicanal, variando el modo de ajustar la funcion de sensibilidad. En este caso el valor mas alto de la funcion (PCC = 0:82) se obtiene para las metricas U1;E y U1;C . Aunque se puede observar un comportamiento mas estable con respecto a para la variante U1;C ya que en este caso se mantiene el resultado de la funcion de evaluacion a este valor independientemente del valor del parametro . Los valores de detectabilidad y la ordenacion resultante para la metrica que produce el valor mas alto de la funcion, U1;C , son comparados con las medidas cuantitativa y cualitativa en la Tabla 4.6. La metrica RMSE (columna 3) produce una ordenacion con cinco cambios de orden signi cativos. Esto hace que la probabilidad de correcta

4.1. Detectabilidad visual de objetos en una escena Par de Cluster Im agenes #16 C1 #9 #37 #6 #30 C2 #26 #29 #3 C3 #21 #11 C4 #4

V alor de PCC

Conjunto de Datos #3

RPd

Valor Orden 96.39 1 96.27 2 96.19 3 90.95 4 90.66 5 90.06 6 89.47 7 80.02 8 73.84 9 73.40 10 58.89 11

RMSE Valor Orden 2.55 4 16.90 1 16.12 2 1.94 7 2.37 5 1.71 8 1.60 9 2.83 3 1.35 10 1.96 6 0.98 11 0.54

87 U1;C ( = 4) Valor Orden 4.34 3 9.12 2 9.58 1 3.72 4 3.55 5 1.06 10 2.19 6 1.15 8 1.14 9 1.66 7 0.93 11 0.82

Tabla 4.6: Columna 1: imagenes que forman parte del conjunto #3. Columna 2: el orden de referencia. Columnas 3 y 4: los valores de las metricas RMSE y U1;C y el orden resultante calculado sobre dichas metricas.

clasi cacion para esta metrica sea PCC = 0:54. Estos resultados muestran que la metrica RMSE no es capaz de producir una buena ordenacion de las escenas del conjunto #3 con respecto a su detectabilidad visual. La metrica U1;C (columna 4) induce una ordenacion con dos cambios signi cativos con respecto a la ordenacion de referencia basada en medidas psicofsicas ya que ordena de forma incorrecta las escenas 10 y 7. El valor de probabilidad de correcta clasi cacion PCC = 0:82 muestra que para el conjunto #3 la metrica U1;C es capaz de ordenar las escenas con un alto grado de correlacion con respecto a su detectabilidad visual. Como conclusiones se~nalaremos que para cualquiera de los conjuntos de imagenes seleccionados es posible encontrar variantes derivadas del modelo unicanal que inducen ordenaciones muy parecidas a la ordenacion psicofsica y que superan ampliamente los resultados obtenidos por la metrica RMSE. Es interesante destacar que aunque la medida RMSE se comporta de forma distinta para los tres conjuntos, obteniendo valores de PCC de 0.2, 0.38 y 0.54 para cada uno de ellos, la metrica derivada del modelo unicanal muestra un comportamiento mas estable en el valor de PCC (0.78, 0.75, 0.82) para los tres conjuntos. La variante que obtiene mejores resultados para estos tres conjuntos es la U1;C , sin embargo existen otras para las que se obtienen resultados similares en cada caso particular. De los tres modos de ajustar los parametros de la funcion de sensibilidad que haban sido descritos seleccionamos la funcion S1 , y analizaremos en los experimentos sucesivos cual de los dos criterios es mas e caz para derivar una buena medida de detectabilidad. Tambien se observan los mejores resultados cuando el parametro toma valores entre 3 y 4. Aunque es posible sacar algunas conclusiones usando conjuntos particulares de imagenes, parece evidente que en este caso es necesario un numero mayor de conjuntos diferentes para

88

Captulo 4. Aplicaciones Metrica U1;E U1;C U2;E U2;C U3;E U3;C RMSE

Media fPCC g Var fPCC g 0.71 0.0162 0.70 0.0187 0.68 0.0156 0.53 0.0167 0.62 0.0210 0.64 0.0241 0.398 0.0002

Tabla 4.7: Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una, variando el modo de ajustar la CSF en el modelo unicanal. La ultima la muestra la media y varianza de la medida RMSE para dicho conjunto.

conocer la in uencia de los parametros a ajustar sobre el modelo unicanal de nido. Para eso, se han desarrollado experimentos utilizando un numero mayor de conjuntos de imagenes con el objetivo de obtener resultados de un modo mas general y able.

4.1.4.2 Experimento 2 La precision de la media de PCC es mayor cuando aumenta el numero de conjuntos de imagenes. Esta precision signi ca que conforme se incrementa el numero de conjuntos, la dispersion de los posibles valores de la media de la funcion PCC sobre el valor correcto es mas peque~no. Ya que esta propiedad de incremento de precision es evidentemente una propiedad deseable, se han seleccionado cincuenta nuevos subconjuntos de 10 pares de imagenes cada uno. Esta seleccion se llevo a cabo usando un generador de numeros aleatorios a partir de las imagenes tomadas durante el estudio de campo DISSTAF. Los subconjuntos que se tomaron fueron los primeros 50 subconjuntos de 10 pares de imagenes generados tales que la fraccion de escenas correctamente clasi cadas dadas por la metrica RMSE era menor de 0.5. La Tabla 4.7 muestra la media de la funcion de evaluacion PCC , notada por MediafPCC g, y su varianza, notada por V arfPCC g, sobre los 50 conjuntos de 10 pares de imagenes. La Figura 4.6 muestra estos mismos datos comparandolos con la media de la fraccion de escenas correctamente clasi cadas por la metrica RMSE (PCC = 0:398). Las barras de error se calculan basandose en la varianza de PCC sobre los 50 conjuntos: (Media fPCC g Var fPCC g; Media fPCC g + Var fPCC g). El valor mas alto de la media de la funcion de evaluacion sobre los cincuenta conjuntos se obtiene para la medida U1;E , aunque se obtiene un valor muy parecido para U1;C . La varianza tambien es similar para ambas metricas. Todos los valores de la media de la funcion de evaluacion son superiores al obtenido utilizando una funcion de sensibilidad ja (0:59  0:0223) (ver Apendice B) excepto el correspondiente a la metrica U2;C . La metrica que utilizamos como medida de detectabilidad ha sido de nida de tal modo que tiene en cuenta el enmascaramiento que produce el fondo sobre el objeto. De hecho todos los resultados que muestra este experimento se obtienen de esta manera. En el Apendice B se puede ver cuales seran los resultados de la media y varianza de la funcion PCC sobre los 50 conjuntos de 10 pares de imagenes mencionado anteriormente si utilizaramos la misma metrica pero sin tener en cuenta enmascaramiento. Se observa que, independientemente de

4.1. Detectabilidad visual de objetos en una escena

89

1 0.9 0.8

U1,E

U1,C

U2,E U3,E

0.7

U3,C

U2,C

0.6 0.5 0.4 0.3

RMSE

0.2 0.1

1

2

3

4

5

6

Figura 4.6: Media de la funcion de evaluacion PCC para 50 conjuntos de imagenes, para cada variante del modelo unicanal. Las barras de error son calculadas basandose en la varianza de PCC para los 50 conjuntos (MediafPCC g V arfPCC g; MediafPCC g + V arfPCC g). La lnea discontinua representa el valor de PCC para la metrica RMSE.

la CSF que se utilice en el modelo, el hecho de tener en cuenta el enmascaramiento mejora signi cativamente los resultados. Para estudiar la dispersion del valor Media fPCC g sobre el valor medio conforme aumenta el numero de conjuntos, se ha calculado el valor de la media para n conjuntos de 10 pares de imagenes, tomando n los valores de 30, 50, 70, 100, 150, 200, 250, 300, 400 y 500. Para ello se tomaron n nuevos subconjuntos usando un generador pseudo-aleatorio, a partir de las 36 parejas de imagenes. En cada caso, los subconjuntos seleccionados fueron los primeros n subconjuntos de diez pares de imagenes tales que la fraccion de escenas correctamente clasi cadas dada por la metrica RMSE para dicho subconjunto era menor o igual que 0.5. La Tabla 4.8 muestra los valores de la media de la funcion de evaluacion variando el numero de conjuntos n para las metricas U1;E y U1;C comparandolas con los valores obtenidos por la metrica RMSE. La media de la fraccion de escenas correctamente clasi cadas por la metrica RMSE para los n conjuntos da un valor de PCC de alrededor de 0.4. Se visualizan los resultados de las dos medidas en las Figuras 4.7 y 4.8 comparandolas con RMSE. Ambas medidas tienen un comportamiento muy similar, para las dos se mantiene aproximadamente constante su comportamiento variando n. Las dos se mantienen en un valor de PCC aproximado a 0:73 conforme aumenta el numero de conjuntos. En los experimentos ilustrados en las Figuras 4.6, 4.7 y 4.8 cada conjunto estaba formado por diez parejas de imagenes. Para nalizar el experimento, se hace necesario considerar un ultimo apartado donde se vare el tama~no de cada conjunto. En este caso se tomaron cincuenta subconjuntos de k parejas de imagenes usando un generador de numeros pseudoaleatorios a partir de las imagenes originales, donde a k se le dieron valores de 10, 15, 20, 25 y 30. La Tabla 4.9 muestra los valores medios de PCC para las metricas U1;E , U1;C , as como para la metrica RMSE. Se observa en las Figuras 4.9 y 4.10 que conforme k disminuye, el valor de la media de RMSE tambien disminuye. Por el contrario, el valor de la media de PCC para las otras dos medidas no se hace mas peque~no conforme k disminuye. Para las dos medidas el valor de la media permanece aproximadamente constante alrededor de un valor

90

Captulo 4. Aplicaciones

Numero de Conjuntos

30 50 70 100 150 200 250 300 400 500

RMSE

U1;E

U1;C

Media fPCC g Var fPCC g Media fPCC g Var fPCC g Media fPCC g Var fPCC g 0.410 0.410 0.417 0.416 0.424 0.421 0.428 0.418 0.425 0.425

0.0036 0.0041 0.0034 0.0037 0.0039 0.0050 0.0034 0.0049 0.0041 0.0033

0.78 0.74 0.74 0.72 0.71 0.73 0.74 0.72 0.73 0.72

0.0124 0.0204 0.0165 0.0142 0.0156 0.0176 0.0158 0.0158 0.0175 0.0154

0.75 0.75 0.73 0.72 0.73 0.72 0.74 0.72 0.72 0.73

0.0177 0.0205 0.0194 0.0176 0.0152 0.0181 0.0146 0.0173 0.0164 0.0176

Tabla 4.8: Media y varianza de la funcion de evaluacion PCC para las metricas RMSE, U1;E y U1;C variando el numero de conjuntos de 10 imagenes.

1

PCC

0.9 0.8 0.7

U1,E

0.6 0.5 0.4

RMSE

0.3 0.2 0.1

30 50 70

100

150

200

250

300

400

500

Numero de Conjuntos

Figura 4.7: Valores de la media de la funcion de evaluacion PCC para las metricas U1;E (en lnea continua) y RMSE (en lnea discontinua) variando el numero de conjuntos de 10 imagenes, desde 30 a 500.

4.1. Detectabilidad visual de objetos en una escena

91

1

PCC

0.9 0.8 0.7

U

0.6

1,C

0.5 0.4

RMSE

0.3 0.2 0.1

30 50 70

100

150

200

250

300

400

500

Numero de Conjuntos

Figura 4.8: Valores de la media de la funcion PCC para las metricas U1;C y RMSE variando el numero de conjuntos de 10 imagenes cada uno. Numero de Imagenes

10 15 20 25 30

RMSE

U1;E

U1;C

Media fPCC g Var fPCC g Media fPCC g Var fPCC g Media fPCC g Var fPCC g 0.42 0.48 0.50 0.52 0.60

0.0034 0.0016 0.0002 0.0000 0.0000

0.75 0.71 0.72 0.73 0.74

0.0188 0.0074 0.0052 0.0050 0.0026

0.73 0.72 0.75 0.75 0.75

0.0175 0.0052 0.0033 0.0023 0.0020

Tabla 4.9: Media y varianza de la funcion de evaluacion PCC calculada para las metricas RMSE, U1;E y U1;C dejando jo el numero de conjuntos (50) y variando el numero de imagenes en cada uno de ellos.

de 0.73 para la primera y de 0.74 para la segunda, segun vara el numero de imagenes por conjunto.

Consideraciones sobre la sensibilidad en la frecuencia de Nyquist Todos los experimentos y resultados mostrados hasta ahora se basan en un modelo que ajusta una CSF cuya sensibilidad para la frecuencia de Nyquist es cero. En este punto hemos considerado interesante estudiar el comportamiento de las metricas si se permite que la funcion de sensibilidad se ajuste independientemente de cual sea su valor para la frecuencia de Nyquist, es decir, podra ser cero o mayor que cero dependiendo del criterio y de la imagen concreta. Manteniendo el modelo de ajuste U1 se observa un comportamiento distinto para ambos criterios: (i) Si se considera el criterio de minimizar el error (metrica U1;E ), una elevada proporcion con respecto al total de imagenes cambia la funcion de sensibilidad ajustada por otra diferente. En este caso con una sensibilidad positiva para la frecuencia mas peque~na. Esto hace que los resultados mejoren signi cativamente. Por ejemplo, para el conjunto de 50

92

Captulo 4. Aplicaciones

1

PCC

0.9

U1,E

0.8 0.7 0.6 0.5 0.4

RMSE 0.3 0.2 0.1

10

15

20

25

30

Numero de Imagenes por Conjunto

Figura 4.9: Valores de la media de la funcion PCC para las metricas U1;E y RMSE variando el numero de imagenes dentro de los conjuntos.

PCC

1 0.9

U

1,C

0.8 0.7 0.6 0.5 0.4

RMSE 0.3 0.2 0.1

10

15

20

25

30

Numero de Imagenes por Conjunto

Figura 4.10: Valores de la media de la funcion PCC para las metricas U1;C y RMSE variando el numero de imagenes dentro de los conjuntos.

4.1. Detectabilidad visual de objetos en una escena

93

Numero de U1;E U1;C Conjuntos Media fPCC g Var fPCC g Media fPCC g Var fPCC g 30 0.80 0.0127 0.74 0.0177 50 0.78 0.0190 0.74 0.0166 70 0.76 0.0134 0.72 0.0178 100 0.76 0.0173 0.72 0.0175 150 0.75 0.0156 0.72 0.0128 200 0.77 0.0147 0.71 0.0157 250 0.77 0.0134 0.73 0.0132 300 0.76 0.0160 0.72 0.0153 400 0.76 0.0167 0.72 0.0149 500 0.77 0.0149 0.72 0.0151 Tabla 4.10: Media y varianza de la funcion PCC para las metricas U1;E y U1;C considerando que la sensibilidad en la frecuencia de Nyquist puede ser mayor que cero, variando el numero de conjuntos.

Numero de U1;E U1;C Imagenes Media fPCC g Var fPCC g Media fPCC g Var fPCC g 10 0.79 0.0162 0.72 0.0168 15 0.74 0.0082 0.72 0.0055 20 0.76 0.0032 0.76 0.0028 25 0.78 0.0028 0.77 0.0017 30 0.81 0.0009 0.77 0.0018 Tabla 4.11: Media y varianza de la funcion PCC para las metricas U1;E y U1;C considerando que la sensibilidad en la frecuencia de Nyquist puede ser mayor que cero, variando el numero de imagenes por conjunto.

bases de imagenes el valor de la media de PCC vara de 0.71 a 0.77. Esta mejora se mantiene as tanto si variamos el numero de bases n como el numero de imagenes por base k (ver Tablas 4.10 y 4.11). (ii) Si se utiliza el criterio de maximizacion del contraste (metrica U1;C ) los resultados se mantienen practicamente estables. En este caso, un peque~no numero de imagenes vara la funcion de sensibilidad que se ajusta a la informacion que contiene. La media se mantiene constante (Media fPCC g = 0:70) para el conjunto de 50 bases de imagenes. La Figura 4.11 muestra el comportamiento practicamente constante de los valores de la media de la probabilidad de correcta clasi cacion tanto para la metrica U1;E como para U1;C cuando vara el numero de conjuntos de imagenes. Aqu es evidente que la medida U1;E mejora signi cativamente cuando se deja libre en el ajuste de la CSF el valor de la sensibilidad para la frecuencia de Nyquist. En la Figura 4.12 tambien se observa la mejora que produce la medida U1;E y la estabilidad con respecto a resultados anteriores de U1;C si se vara el numero de imagenes por conjunto.

Consideraciones sobre los puntos de interes Para detectar diferencias entre dos escenas, el ser humano ja su atencion en ciertos

94

Captulo 4. Aplicaciones

1

PCC

0.9

U1,E

0.8 0.7

U1,C

0.6 0.5 0.4

RMSE

0.3 0.2 0.1 0 0

100

200

300

400

500

Numero de Conjuntos

Figura 4.11: Representacion de los valores de la media y varianza de PCC obtenidos por las metricas U1;E , U1;C y RMSE, variando el numero de conjuntos.

1

PCC

0.9

U

1,E

0.8 0.7

U1,C

0.6 0.5 0.4

RMSE 0.3 0.2 0.1 0 5

10

15

20

25

30

35

Numero de Imagenes por Conjunto

Figura 4.12: Representacion de los valores de la media y varianza de PCC obtenidos por las metricas U1;E , U1;C y RMSE, variando el numero de imagenes por conjunto.

4.1. Detectabilidad visual de objetos en una escena

95 

Puntos de Interes Metrica Media fPGlobal g Var f P g Media fPCC g Var fPCC g CC CC U1;E 0.77 0.0152 0.75 0.0233 U1;C 0.70 0.0203 0.75 0.0160

Tabla 4.12: Media y varianza de la funcion de evaluacion calculada para un conjunto de 50 bases de 10 imagenes utilizando las metricas U1;E y U1;C . En la segunda columna se muestran los resultados usando la metrica global y en la tercera los calculos han sido hechos teniendo en cuenta solo los puntos de interes.

Numero de U1;C P. Interes Conjuntos Media fPCC g Var fPCC g 30 0.81 0.0136 50 0.78 0.0168 100 0.77 0.0164 200 0.76 0.0166 500 0.77 0.0165 Tabla 4.13: Media y varianza de la funcion PCC para la metrica U1;C usando puntos de interes, variando el numero de conjuntos.

Numero de Imagenes 10 15 20 25 30

U1;C P. Interes Media fPCC g Var fPCC g 0.77 0.0187 0.78 0.0039 0.79 0.0019 0.81 0.0030 0.81 0.0017

Tabla 4.14: Media y varianza de PCC para la metrica U1;C usando puntos de interes, variando el numero de imagenes por conjunto.

puntos o regiones claves de la imagen. Teniendo esto en cuenta es posible utilizar una metrica atencional en vez de una global tal y como se describio en la ecuacion 3.12. Para ello se seleccionan ciertos puntos de la escena a los que llamamos puntos de interes. Por puntos de interes entendemos aquellas localizaciones en las que el ser humano centra su atencion cuando observa una imagen. Se pueden asociar con aquellos puntos que corresponden con lneas y bordes de objetos y nos permiten detectar que puntos de la imagen son interesantes para su procesamiento. Por regiones de interes entendemos el conjunto de puntos alrededor de un punto de interes. Estos puntos de interes van a ser detectados en este caso usando el algoritmo de Canny [26] para deteccion de bordes. Si los puntos o regiones seleccionadas en una metrica atencional corresponden a aquellas zonas donde estan las diferencias entre las escenas a comparar, esta metrica tendra un mejor comportamiento que una global en relacion con las medidas realizadas por humanos. En el caso de una medida de detectabilidad sera necesario que esos puntos correspondan en la mayor medida posible a puntos del objeto en cuestion, base de las diferencias entre ambas imagenes. En nuestro caso concreto, dependiendo de la funcion de sensibilidad escogida se veran mejor o peor re ejados los puntos de atencion del sujeto. Si se re ejan bien sera positivo calcular la medida de detectabilidad con respecto a estos puntos, en caso contrario no lo sera. De este modo, las metricas que venamos comparando U1;E y U1;C presentan de nuevo distinto comportamiento: (i) si se calcula la medida de detectabilidad U1;E teniendo en cuenta solo los puntos de interes, se consiguen peores resultados tal y como muestra la Tabla 4.12; (ii) para la metrica U1;C se mejoran sensiblemente los resultados si se tiene solo en cuenta los puntos de interes. Se mantiene esta mejora tanto si se vara el numero de bases n como el numero de imagenes por base k como muestran las Tablas 4.13 y 4.14 respectivamente. Para ambas metricas estos resultados se mantienen independientemente del criterio que se use para

96

Captulo 4. Aplicaciones

(a)

(b)

(c)

(d) Figura 4.13: Puntos de interes para las imagenes (a) 35, (b) 37, (c) 43 y (d) 3. La primera columna muestra las imagenes originales, la segunda los puntos de interes obtenidos para dichas imagenes y la tercera los puntos de interes obtenidas para las imagenes sin objeto.

4.1. Detectabilidad visual de objetos en una escena

97

la sensibilidad a la frecuencia de Nyquist. En la Figura 4.13 se muestran los puntos de interes obtenidos para las imagenes 35, 37, 43 y 3 despues de ltrar la imagen con la funcion de sensibiblidad S1;C . Las imagenes originales aparecen en la primera columna, la segunda columna muestra los puntos de interes obtenidos para cada imagen y la tercera los puntos de interes obtenidos cada una de las imagenes sin objeto. Como conclusion destacamos que los mejores resultados, segun los experimentos anteriormente descritos, se obtienen para la metrica U1;C usando puntos de interes o bien para la metrica U1;E global, es decir, sin puntos de interes. Aunque el hecho de que la medida U1;C se comporte de forma mas estable frente a una serie de parametros (p. ej. la seleccion de puntos de interes) parece indicar que la funcion de sensibilidad S1;C es la mejor forma de ajustar una CSF en un modelo unicanal para la base de imagenes que se ha utilizado.

4.1.4.3 Experimento bootstrap Los experimentos anteriores nos proporcionan una serie de resultados que se re eren al conjunto de 36 imagenes. Ahora nos preguntamos si esos resultados son indicadores precisos del comportamiento de la medida si se aplicara a cualquier otro conjunto de la poblacion total de imagenes, es decir, si es posible generalizar estos resultados independientemente de la muestra que se tome de la poblacion original. En otras palabras, nos interesa saber el valor real de PCC para una medida particular, es decir, el valor de PCC que veramos si inspeccionaramos cualquier conjunto de imagenes de la poblacion, y no solo una muestra de 36 escenas. Para ello necesitamos algun tipo de tecnica estadstica que prediga como de preciso es el valor PCC estimado para una medida particular. Dadas estas premisas, se nos plantean los siguientes problemas:

 Desafortunadamente solo disponemos de una muestra, a la que notaremos X , de 36

parejas de imagenes (mostradas en las Figuras 4.2, 4.3, 4.4 y 4.5).  La distribucion de la poblacion, de la que esta muestra particular X ha sido tomada, se desconoce.  La distribucion de muestreo de PCC es tambien desconocida.

Por tanto, la pregunta original podra ser reescrita del siguiente modo: Dada una medida particular, >como generar conocimiento sobre la distribucion de todos los valores de PCC correspondientes a cualquier posible muestra Xi tomada de la misma poblacion que la muestra original X ? Esto es posible utilizando la tecnica de muestreo estadstico bootstrap. Se trata de un metodo de simulacion basado en los datos para calcular o valorar la precision estadstica, [48, 49, 50]. Estas tecnicas han sido recientemente desarrolladas ya que requieren la potencia de los ordenadores modernos para simpli car los calculos de la teora estadstica tradicional. El unico requisito de este tipo de inferencia es que la muestra original X sea representativa de la poblacion. De esta manera podemos tratar nuestra muestra X de tama~no 36 como si fuera la poblacion. Y as hacer inferencias de toda la poblacion completa usando bootstrap. As podemos simular el muestreo remuestreando a partir de X , como si lo

98

Captulo 4. Aplicaciones

hicieramos a partir de una poblacion completa. Este metodo funciona bien ya que la distribucion de muestreo es el mejor estimador de la distribucion de la poblacion, es decir, si la muestra contiene N datos x1 ; x2 ; : : : ; xN , entonces el estimador de maxima verosimilitud de la distribucion de la poblacion se encuentra asignando a cada xi la probabilidad 1=N . Dada una muestra original X de tama~no N (en nuestro caso de tama~no 36), para conseguir una distribucion de muestreo para PCC simplemente utilizamos el procedimiento que muestra la Figura 4.14. Repetir i = 1; 2; : : : ; 1000 veces: Tomar una muestra bootstrap Xi de tama~no N a partir de X muestreando con reemplazamiento del siguiente modo: Repetir j = 1; 2; : : : ; N veces: Seleccionar un miembro xj de X aleatoriamente y a~nadirlo a Xi. Calcular y anotar el valor de PCC para Xi . Figura 4.14: Procedimiento de muestreo bootstrap

Una vez que se tiene la distribucion de muestreo bootstrap de PCC , la utilizamos para producir intervalos de con anza automaticamente. Existen distintas maneras de determinar intervalos de con anza de una medida a partir de la distribucion bootstrap, algunas de ellas se describen brevemente en el Apendice C. Una descripcion en profundidad se puede encontrar en [50]. Los intervalos bootstrap mas avanzados son los intervalos BCa . Una breve descripcion de como se construyen los intervalos BCa usando el muestreo bootstrap se describe en el Apendice C. La experimentacion realizada es la siguiente: A partir del conjunto original de 36 parejas de imagenes se han seleccionado seis muestras de distinto tama~no (N =12, 15, 20, 25, 30 y 36), denominadas M1 M6, como se muestra en la Tabla 4.15. Cada muestra pretende representar la poblacion original, por lo que se han escogido muestras de los tama~nos mencionados con el siguiente criterio: Para cada tama~no de muestra se han tomado 100 subconjuntos de N parejas de imagenes a partir del conjunto original y se ha calculado la media de la medida RMSE y su varianza. Se ha escogido una muestra representante de la poblacion de tama~no N cuyo valor de RMSE sea lo mas cercano posible a esa media. La idea de hacer esto es que la abilidad de la medida aumenta conforme aumenta el tama~no de la muestra, de hecho si tuvieramos toda la poblacion sabramos el comportamiento exacto de la medida, pero generalmente no disponemos de esa informacion, sino de una muestra normalmente de tama~no peque~no. Entonces interesa una medida que presente un buen comportamiento independientemente de si en un problema particular se dispone de una muestra mas o menos grande que represente la poblacion original. La Tabla 4.16 muestra los resultados de aplicar la funcion PCC a cada una de estas

4.1. Detectabilidad visual de objetos en una escena

Cluster

C1

C2

C3

C4

Pareja de Imagenes

# 35 # 16 # 34 #9 # 37 # 12 # 18 # 20 # 40 #5 # 10 # 28 # 43 # 33 # 36 # 17 # 25 # 42 #6 # 30 # 26 # 29 # 19 #8 # 27 # 23 # 38 # 15 #3 # 32 #1 #2 # 21 # 11 # 22 #4

99

Muestras Originales Bootstrap

M1 M2 M3 M4 M5 M6

 

  

 

   





 

  



  

 





  



 







 

    

       

         

    

    

 

    

   

  

  

  

   



  

  



                                   

Tabla 4.15: Muestras bootstrap de tama~no 12, 15, 20, 25, 30 y 36.

100

Captulo 4. Aplicaciones Muestra Original

M1 M2 M3 M4 M5 M6

Probabilidad de Correcta Clasi cacion Metrica Global Metrica con Atencion U1;E U1;C UA 1;E UA1;C 0.83 0.67 0.67 0.83 0.60 0.73 0.67 0.73 0.65 0.75 0.65 0.75 0.76 0.76 0.76 0.88 0.77 0.87 0.63 0.87 0.78 0.78 0.69 0.80

Tabla 4.16: Valores de la funcion de evaluacion PCC calculada para cada una de las muestras originales bootstrap de nidas en la Tabla 4.15. Las columnas 2 y 3 muestran los resultados obtenidos por las metricas U1;E y U1;C globales y las columnas 4 y 5 los resultados de las mismas metricas pero usando solo puntos de interes para calcular la medida.

Muestra Original M1 M2 M3 M4 M5 M6

Intervalos BCa con un 95% de Confianza

Metrica Global U1;E U1;C (0.50, 1.00) (0.33, 0.83) (0.33, 0.73) (0.47, 0.87) (0.30, 0.75) (0.50, 0.90) (0.52, 0.92) (0.52, 0.92) (0.57, 0.93) (0.70, 1.00) (0.61, 0.89) (0.61, 0.89)

Metrica con Atencion UA 1;E UA 1;C (0.50, 0.83) (0.50, 1.00) (0.33, 0.87) (0.47, 0.87) (0.30, 0.90) (0.55, 0.90) (0.44, 0.92) (0.64, 1.00) (0.50, 0.77) (0.67, 1.00) (0.50, 0.83) (0.64, 0.92)

Tabla 4.17: Intervalos BCa calculados para cada muestra original bootstrap.

muestras originales para las metricas U1;E y U1;C tomadas como medida global o utilizando solo puntos de interes. Cada la muestra los resultados en caso de que se usen los conjuntos de distinto tama~no. La metrica U1;C utilizando puntos de interes muestra los valores mas altos independientemente del tama~no de la muestra utilizada. En la Tabla 4.17 se muestran los intervalos BCa con un nivel de con anza del 95% para la medida PCC . La muestra original de 36 parejas de imagenes que se describa en las Figuras 4.2 4.5 ha sido usada como la muestra bootstrap M6. A partir de estos resultados, la teora estadstica nos permite hacer la siguiente infererencia: El valor correcto de la funcion PCC para la metrica UA 1;C cae en el intervalo 0:64 < PCC < 0:92 con un 95% de con anza. Esto signi ca que si se ejecutara un experimento mucho mayor, el valor de PCC obtenido por dicha metrica no sera muy diferente al valor de PCC = 0:8 estimado para la muestra M6. Las otras las de la Tabla 4.17 muestran los intervalos BCa para la medida PCC en caso de que se utilicen las otras muestras bootstrap de nidas. A partir de esos intervalos de con anza observamos que: Si la muestra original para el muestreo bootstrap es el conjunto M1, la hipotesis PCC > 0:5 es aceptada al 95% por las metricas U1;E , U1;C y UA 1;C .

4.1. Detectabilidad visual de objetos en una escena

101

Si la muestra original para el muestreo bootstrap es el conjunto M2, la hipotesis PCC > 0:47 solo es aceptada al 95% por la metrica U1;C tanto global como utilizando solo puntos de interes. Si la muestra original para el muestreo bootstrap es el conjunto M3, la hipotesis PCC > 0:5 es aceptada al 95% por la metrica U1;C tanto global como utilizando puntos de interes. Ademas la hipotesis PCC > 0:55 solo es aceptada por la metrica UA 1;C . Si la muestra original para el muestreo bootstrap es el conjunto M4, la hipotesis PCC > 0:52 es aceptada por las metricas U1;E , U1;C y UA1;C . La hipotesis PCC > 0:64 es solo aceptada por esta ultima. Si la muestra original es el conjunto M5, la hipotesis PCC > 0:5 es aceptada por todas las metricas que se comparan. La hipotesis PCC > 0:67 es ademas aceptada solo por la metrica U1;C tanto global como utilizando los puntos de interes. Si la muestra original es el conjunto M6, la hipotesis PCC > 0:5 es aceptada por todas las metricas que se comparan. La hipotesis PCC > 0:64 es solo aceptada por la metrica UA 1;C . Los intervalos de con anza bootstrap nos con rman que es muy probable que el valor correcto de PCC dado por la metrica UA1;C iguale el valor 0.8 para cualquier posible muestra tomada de la misma poblacion que la muestra original de 36 pares de imagenes. Como conclusion nal, la metrica UA 1;C ha sido encontrada signi cativamente mejor que el resto de metricas derivadas del modelo unicanal para la prediccion de la detectabilidad visual de objetos.

4.1.5 Valoracion de la metrica derivada del modelo MCF En este apartado se obtienen resultados sobre los mejores parametros a utilizar en la de nicion de una metrica derivada de un modelo de multiples canales, en el que cada canal es selectivo a un rango de frecuencias espaciales y orientaciones y donde la informacion relativa a cada canal se trata usando un ltro frecuencial ideal. Con los siguientes experimentos pretendemos sacar conclusiones sobre:

 Como realizar la integracion de la informacion de los distintos canales en una unica

medida. Prestaremos atencion tanto a la integracion de la informacion espacial dentro de cada canal como a la integracion de la informacion entre los distintos canales frecuenciales.  Si es interesante el uso de los puntos de interes frente a usar la informacion total de la imagen en la de nicion de la medida.  Enmascaramiento dentro de cada canal.

4.1.5.1 Experimento 1 ? Conjunto #1

102

Captulo 4. Aplicaciones Conjunto de Datos #1

Metrica

FM FS

=1

=2

=3

=4

=5

Probabilidad de Correcta Clasi cacion Global Con Atencion =2 =3 =4 =5 =2 =3 =4 =5 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.44 0.56 0.56 0.56 0.67 0.67 0.67 44

0.67 0.67 0.67 0.67 0.44 0.44 0.44 0.44

0.44 0.44 0.44 0.44

0.44 0.44 0.44 0.44

0.44 0.44 0.44 0.33

0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.67 0.44 0.44 0.44

0.44 0.44 0.44

0.44 0.44 0.44

0.44 0.44 0.44

Tabla 4.18: Valores de PCC que produce la metrica derivada del modelo de multiples canales frecuenciales para el conjunto de datos #1.

La Tabla 4.18 muestra los resultados de la funcion de evaluacion PCC aplicada a las ordenaciones obtenidas por la metrica derivada del modelo de multiples canales frecuenciales para el conjunto de datos #1. En cada la aparecen resultados para distintos modos de integrar la informacion entre canales, en las las 1 y 2 multiplicando la distancia derivada de cada canal por un peso y en las las 3-7 utilizando una suma de Minkowski con distintos exponentes. Representaremos con un subndice el conjunto de pesos utilizado (M o S ). Si no se indica subndice nos referimos a una metrica que usa suma de distancias parciales sin pesos y con parametro . Las columnas 2-5 re ejan los resultados para una metrica global y las columnas 6-9 los resultados si se tienen en cuenta solo los puntos de interes para realizar la suma de errores. En esta Tabla se analiza tambien la dependencia del resultado con respecto al parametro (ver ecuacion 3.19) utilizado para integrar la informacion espacial dentro de cada canal. El valor maximo de la funcion de evaluacion (PCC = 0:67) se obtiene para la metrica FAS , para F global con = 1 y para FA con = 1; 2. Con todas las variantes se supera el valor obtenido por la metrica RMSE (PCC = 0:22). En general se consiguen mejores resultados con la metrica utilizando los puntos de interes que usando todos los puntos de la imagen. Seleccionamos la metrica FA con = 1 para mostrar en la Tabla 4.19 la ordenacion concreta que produce comparandola con la ordenacion subjetiva RPd . Al nal de la columna 3 se muestra la probabilidad de clasi cacion correcta de la metrica de dicha columna con respecto al orden de referencia que se muestra en la columna 2. Esta metrica comete un error al ordenar las escenas 10, 6 y 19 tal y como se muestra en la columna 3. Con ella es posible calcular una ordenacion de detectabilidad que se asemeja a la realizada por observadores humanos.

? Conjunto #2

La Tabla 4.20 muestra los resultados de la funcion de evaluacion PCC para las variantes de la metrica derivada del modelo de multiples canales frecuenciales utilizando el conjunto de datos #2. Se obtienen resultados practicamente iguales para una metrica global o con atencion, independientemente del conjunto de pesos o del valor de . Se

4.1. Detectabilidad visual de objetos en una escena

103

Conjunto de Datos #1 Par de RPd FA ( = 1)

Imagenes #16 #18 #10 #43 #6 #30 #19 #3 #32

PCC

Valor Orden 96.39 1 96.02 2 95.63 3 93.34 4 90.95 5 90.66 6 84.79 7 80.02 8 79.52 9

Valor Orden 0.296 4 1.138 1 0.314 2 0.212 5 0.202 6 0.175 7 0.300 3 0.150 8 0.099 9 0.67

Tabla 4.19: En la columna 3 se muestran los valores de detectabilidad calculados por la metrica FA con = 1:0 y el valor de PCC del orden dado por esta metrica con respecto al orden de referencia de la columna 2.

Conjunto de Datos #2

Metrica

FM FS

=1

=2

=3

=4

=5

Probabilidad de Correcta Clasi cacion Global Con Atencion =2 =3 =4 =5 =2 =3 =4 =5

0.75 0.75 0.75 0.75 0.63 0.63 0.50 0.50 0.50 0.50

0.63 0.63 0.63 0.63 0.50 0.50

0.63 0.63 0.63 0.63 0.63 0.50

0.63 0.63 0.63 0.63 0.63 0.50

0.75 0.75 0.75 0.75 0.63 0.63 0.63 0.63 0.50 0.50

0.63 0.63 0.63 0.63 0.63 0.50

0.63 0.63 0.63 0.63 0.63 0.50

0.63 0.63 0.63 0.63 0.63 0.50

Tabla 4.20: Valores de PCC que producen las metricas derivadas del modelo de multiples canales frecuenciales para el conjunto de datos #2.

104

Captulo 4. Aplicaciones Conjunto de Datos #2 Par de RPd FAM ( = 4)

Imagenes #35 #16 #28 #36 #6 #19 #23 #3

PCC

Valor Orden 96.40 1 96.39 2 94.66 3 92.81 4 90.95 5 84.79 6 82.91 7 80.02 8

Valor Orden 1.25 2 0.20 7 0.48 4 0.88 3 0.35 5 0.22 6 0.14 8 3.56 1 0.75

Tabla 4.21: Columna 1: imagenes que forman parte del conjunto #2. Columna 2: el orden de referencia. Columna 3: valores de la metrica FA utilizando el conjunto de pesos M. Conjunto de Datos #3

Probabilidad de Correcta Clasi cacion Metrica Global Con Atencion =2 =3 =4 =5 =2 =3 =4 =5 FM 0.64 0.64 0.64 0.64 0.73 0.64 0.64 0.64 FS 0.64 0.64 0.64 0.64 0.82 0.82 0.82 0.64

= 1 0.82 0.82 0.82 0.82 0.82 0.82 0.82 0.82

= 2 0.82 0.82 0.82 0.64 0.82 0.82 0.82 0.82

= 3 0.64 0.64 0.64 0.64 0.64 0.64 0.82 0.82

= 4 0.64 0.45 0.64 0.45 0.64 0.64 0.64 0.45

= 5 0.64 0.45 0.45 0.45 0.64 0.64 0.54 0.54 Tabla 4.22: Valores de PCC que producen las metricas derivadas del modelo de multiples canales frecuenciales para el conjunto de datos #3.

obtienen valores de PCC superiores a los obtenidos por la metrica RMSE (PCC = 0:38) para todas las variantes. El valor mas alto de esta funcion (PCC = 0:75) se obtiene cuando se utiliza el conjunto de pesos M . En la Tabla 4.21 se muestran los valores concretos de detectabilidad que se derivan de la metrica con atencion usando el conjunto de pesos M para = 4. Se producen dos errores signi cativos al ordenar las escenas 16 y 3.

? Conjunto #3

La Tabla 4.22 compara los valores de la funcion de evaluacion para las distintas alternativas de la metrica derivada del modelo de multiples canales frecuenciales. En este caso el valor mas alto de la funcion (PCC = 0:82) se obtiene tanto para la ordenacion producida por la metrica que utiliza el conjunto de pesos S, FS , como para la que utiliza la suma de errores global con = 1; 2 y usando puntos de interes con = 1; 2; 3.

4.1. Detectabilidad visual de objetos en una escena

105

Conjunto de Datos #3 Par de RPd FA ( = 1:0)

Imagenes #16 #9 #37 #6 #30 #26 #29 #3 #21 #11 #4

PCC

Valor Orden 96.39 1 96.27 2 96.19 3 90.95 4 90.66 5 90.06 6 89.47 7 80.02 8 73.84 9 73.40 10 58.89 11

Valor Orden 0.296 3 1.469 1 1.203 2 0.202 4 0.175 6 0.139 8 0.184 5 0.145 7 0.080 10 0.081 9 0.067 11 0.82

Tabla 4.23: Columna 1: imagenes que forman parte del conjunto #3. Columna 2: orden de referencia. Columna 3: valores de la metrica FA con = 1:0.

Se obtienen valores superiores al obtenido por la metrica RMSE (PCC = 0:54) excepto para = 4:0 y = 5:0. Se observan valores muy parecidos si se utiliza una metrica global o una con puntos de interes, aunque ligeramente mejores en este ultimo caso. En la Tabla 4.23 se comparan los valores de detectabilidad y la ordenacion de la metrica FA para = 1:0 con la medida cualitativa. Esta metrica comete dos errores de orden signi cativos en las escenas 26 y 3. Una metrica derivada de un modelo de multiples canales frecuenciales es capaz de producir una buena ordenacion de las escenas del conjunto #3 con respecto a su detectabilidad visual. Como conclusiones de este primer experimento destacamos, en primer lugar, que la diferencia de resultados si se vara es mnima para los tres conjuntos considerados. En general se obtienen mejores valores de PCC para valores de entre 3 y 4. El valor de la funcion PCC disminuye si se aumenta el valor de , ya sea una metrica global o utilizando puntos de interes. Es decir, en ambos casos los mejores resultados se obtienen para = 1:0. Solo para uno de los conjuntos considerados el uso de un conjunto de pesos que pondera las distancias parciales derivadas de cada canal frecuencial mejora los resultados con respecto a considerar que todas ellas tienen la misma importancia relativa.

4.1.5.2 Experimento 2 Como mencionabamos anteriormente para el modelo unicanal, el estudio del comportamiento de las metricas de detectabilidad para conjuntos concretos de imagenes puede hacernos intuir que parametros conducen a un mejor modelo, pero de ah no obtenemos, en general, resultados concluyentes. Por ello acudimos a estudiar su comportamiento no para un conjunto de

106

Captulo 4. Aplicaciones Metrica

FM FS

=1

=2

=3

=4

=5 RMSE

Global Con Atencion Media fPCC g Var fPCC g Media fPCC g Var fPCC g 0.52 0.0120 0.52 0.0148 0.58 0.0168 0.66 0.0168 0.66 0.0105 0.67 0.0143 0.57 0.0156 0.63 0.0163 0.56 0.0150 0.59 0.0162 0.55 0.0115 0.57 0.0180 0.54 0.0142 0.57 0.0180 0.398 0.0002 -

Tabla 4.24: Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una para las metricas derivadas del modelo de multiples canales frecuenciales. La ultima la muestra la media y varianza de la medida RMSE para dicho conjunto.

Numero de Conjuntos 30 50 100 200 500

F ( = 1) FA ( = 1) Media fPCC g Var fPCC g Media fPCC g Var fPCC g 0.69 0.0213 0.73 0.0229 0.69 0.0216 0.72 0.0163 0.69 0.0156 0.71 0.0148 0.69 0.0179 0.71 0.0184 0.68 0.0197 0.70 0.0185

Tabla 4.25: Media y varianza de la funcion de evaluacion PCC para la metrica derivada del modelo de multiples canales frecuenciales con = 1:0 variando el numero de conjuntos de 10 imagenes cada uno.

imagenes concreto, sino para un numero mayor de conjuntos, lo que nos llevara a resultados mas precisos. Del mismo modo, se toma en primer lugar 50 subconjuntos de 10 pares de imagenes cada uno. La Tabla 4.24 muestra la media de la funcion de evaluacion (Media fPCC g) y su varianza (Var fPCC g), sobre los 50 conjunto de 10 pares de imagenes. En general todos los valores que muestra la Tabla superan la media obtenida para los 50 conjuntos por RMSE (Media fPCC g = 0:398). Los mejores resultados de la media de la funcion de evaluacion sobre los 50 conjuntos se obtienen para = 1 independientemente de si se trata de una metrica global o con atencion. Si se utiliza el conjunto de pesos S tambien se obtienen buenos resultados para una metrica con atencion. Los valores de la media disminuyen conforme aumenta el valor de . Utilizando el conjunto de pesos M se obtienen valores muy bajos. Esto puede ser debido a que la reconstruccion que se obtiene con este modelo no es directamente comparable con la original, es decir, que la mejor reconstruccion no tiene por que ser la mas parecida con la original usando un criterio de mnimos cuadrados y por lo tanto los pesos que se obtienen de este modo no son los mas adecuados para ponderar la distancia parcial correspondiente a cada canal. La Tabla 4.25 muestra el comportamiento de la media y varianza de la funcion PCC si se

4.1. Detectabilidad visual de objetos en una escena

107

1

PCC

0.9

FA

0.8 0.7 0.6

F

0.5 0.4

RMSE

0.3 0.2 0.1

100

200

300

400

500

Numero de Conjuntos

Figura 4.15: Valores de la media de la funcion de evaluacion PCC para las metricas FA (en lnea continua) y F (en lnea discontinua) variando el numero de conjuntos de 10 imagenes, desde 30 a 500.

Numero de F ( = 1) FA ( = 1) Imagenes Media fPCC g Var fPCC g Media fPCC g Var fPCC g 10 0.67 0.0241 0.72 0.0284 15 0.68 0.0095 0.71 0.0106 20 0.72 0.0031 0.74 0.0035 25 0.76 0.0023 0.77 0.0017 30 0.81 0.0012 0.81 0.0012 Tabla 4.26: Media y varianza de la funcion de evaluacion PCC para las metricas derivadas del modelo de multiples canales frecuenciales con = 1:0 variando el numero de imagenes por conjunto.

vara el numero de conjuntos n de 10 imagenes cada uno para n=30, 50, 100, 200 y 500 para las metricas F y FA con = 1:0. En cualquiera de los casos, la media permanece practicamente constante. En la Tabla 4.26 se muestra el comportamiento de la media y varianza de la funcion PCC si se vara el numero de imagenes por conjunto k=10, 15, 20, 25 y 30 para la metrica derivada del modelo de multiples canales frecuenciales utilizando suma de errores con

= 1. En todos los casos aumenta el valor de la media a medida que aumenta el numero de imagenes por conjunto. Se llega a un valor de 0:81 para k = 36 tanto si la metrica es global como con atencion. Las Figuras 4.15 y 4.16 muestran los mismos resultados de forma gra ca.

4.1.5.3 Experimento bootstrap La Tabla 4.27 muestra los valores de probabilidad de correcta clasi cacion PCC calculados por variantes de la metrica derivada del modelo de multiples canales frecuenciales para cada una de las muestras bootstrap originales de nidas en la Tabla 4.15. Cada una de ellas consiste en un subconjunto de diferente tama~no (12, 15, 20, 25, 30 y 36) tomado de la base de imagenes total mostrada en las Figuras 4.2, 4.3, 4.4 y 4.5. Se observa que los valores mas altos de PCC se obtienen por la metrica utilizando suma de errores entre canales con = 1 y puntos de

108

Captulo 4. Aplicaciones 1

PCC

0.9

FA

0.8 0.7 0.6

F

0.5 0.4

RMSE 0.3 0.2 0.1

10

15

20

25

30

Numero de Imagenes por Conjunto

Figura 4.16: Valores de la media de la funcion PCC para las metricas FA y F variando el numero de conjuntos de 10 imagenes cada uno.

Muestra Original M1 M2 M3 M4 M5 M6

Probabilidad de Correcta Clasificacio n FS F F AS FA

0.42 0.67 0.60 0.76 0.63 0.64

0.67

0.73 0.65 0.76 0.70 0.75

0.83 0.73 0.65 0.80 0.70 0.75

0.67

0.73 0.70 0.84 0.80 0.78

Tabla 4.27: Valores de la funcion de evaluacion PCC obtenidos por la metrica derivada del modelo MCF para cada una de las muestras originales bootstrap de nidas en la Tabla 4.15.

interes para todas las muestras excepto para M1. La Tabla 4.28 muestra los intervalos bootstrap BCa con un 95% de con anza para esos valores de PCC . De estos intervalos sacamos las siguientes conclusiones: Si la muestra original para el muestreo bootstrap es el conjunto M1, la hipotesis PCC > 0:667 solo es aceptada al 95% por la metrica FAS . Si la muestra original para el muestreo bootstrap es el conjunto M2, la hipotesis PCC > 0:467 es aceptada en un 95% por las metricas F con = 1 global y usando puntos de interes y para la metrica FAS . Si la muestra original para el muestreo bootstrap es el conjunto M3, la hipotesis PCC > 0:5 solo es aceptada al 95% por la metrica FA con = 1. Si la muestra original es el conjunto M4, la hipotesis PCC > 0:52 es aceptada en un 95% por las metricas F con = 1 global y usando puntos de interes y para la metrica FAS . Ademas la hipotesis PCC > 0:6 unicamente es aceptada al 95% por FA.

4.1. Detectabilidad visual de objetos en una escena Muestra Original M1 M2 M3 M4 M5 M6

109

Intervalos BCa con un 95% de Confianza

Metrica Global Metrica con Atencion FS F F AS FA (0.167, 0.583) (0.333, 0.833) (0.667, 1.000) (0.333, 0.833) (0.333, 0.867) (0.467, 1.000) (0.467, 1.000) (0.467, 0.867) (0.350, 0.850) (0.300, 0.900) (0.300, 0.900) (0.500, 0.900) (0.480, 0.840) (0.520, 0.840) (0.520, 0.920) (0.600, 0.920) (0.400, 0.800) (0.467, 0.867) (0.467, 0.867) (0.533, 0.867) (0.472, 0.778) (0.556, 0.889) (0.556, 0.889) (0.611, 0.889)

Tabla 4.28: Intervalos BCa con un 95% de con anza calculados para los valores de PCC que se muestran en la Tabla 4.27.

Si la muestra original es el conjunto M5, la hipotesis PCC > 0:533 solo es aceptada al 95% por la metrica FA con = 1. Si la muestra original es el conjunto M6, la hipotesis PCC > 0:556 es aceptada por las metricas F tanto global como usando puntos de interes y FS usando puntos de interes. La hipotesis PCC > 0:611 solo es aceptada al 95% por la metrica FA. Los intervalos de con anza bootstrap nos muestran que es probable que el valor correcto de PCC calculado por la metrica FA iguale el valor 0:78 para cualquier muestra tomada de la misma poblacion que la muestra original de 36 parejas de imagenes. De hecho, esta metrica muestra mejores intervalos de con anza que el resto de variantes del modelo de multiples canales frecuenciales comparadas. Como conclusion se~nalaremos que claramente el calcular unos puntos de interes en la imagen mejora la medida de detectabilidad sobre el uso de una medida global. Ademas el uso de una suma de errores con = 1 es la mejor opcion para integrar la informacion de los distintos canales frecuenciales en una unica medida de detectabilidad.

4.1.6 Valoracion de la metrica derivada del modelo RN En este apartado evaluamos algunos parametros de la metrica derivada del modelo RN para determinar cuales son mas adecuados para el uso de la metrica como una medida de detectabilidad visual que se asemeje en sus resultados a valoraciones realizadas por observadores humanos. En este caso pretendemos sacar conclusiones sobre: (i) los parametros de integracion espacial y de integracion entre canales en la suma de errores, (ii) el uso de puntos de interes o todos los puntos de la imagen para la obtencion de las distancias parciales y (ii) la in uencia del enmascaramiento dentro de cada canal.

4.1.6.1 Experimento 1 ? Conjunto #1 y Conjunto #2

En las Tablas 4.29 y 4.30 se puede observar que estos dos conjuntos no proporcionan informacion sobre los parametros a usar en la metrica derivada del modelo RN. En

110

Captulo 4. Aplicaciones Conjunto de Datos #1

Metrica

RM RS

= 1; : : : ; 5

Global

= 2; 3; 4; 5

0.67 0.67 0.67

PCC

Con Atencion = 2; 3; 4; 5

0.67 0.67 0.67

Tabla 4.29: Valores de PCC que producen las metricas derivadas del modelo RN para el conjunto de datos #1.

Conjunto de Datos #2

Metrica

RM RS

= 1; : : : ; 5

Global

= 2; 3; 4; 5

0.5 0.5 0.5

PCC

Con Atencion = 2; 3; 4; 5

0.5 0.5 0.5

Tabla 4.30: Valores de PCC que producen las metricas derivadas del modelo RN para el conjunto de datos #2.

Conjunto de Datos #3

Probabilidad de Correcta Clasi cacion Metrica Global Con Atencion =2 =3 =4 =5 =2 =3 =4 =5 RM 0.64 0.64 0.64 0.54 0.64 0.64 0.64 0.64 RS 0.73 0.73 0.73 0.73 1.0 1.0 0.82 0.82

= 1 0.73 0.73 0.73 0.82 1.0 1.0 1.0 1.0

= 2 0.73 0.73 0.73 0.82 1.0 1.0 1.0 1.0

= 3 0.73 0.73 0.73 0.82 1.0 1.0 1.0 1.0

= 4 0.73 0.73 0.73 0.82 1.0 1.0 1.0 1.0

= 5 0.73 0.73 0.73 0.82 1.0 1.0 1.0 0.82 Tabla 4.31: Valores de PCC que producen las metricas derivadas del modelo RN para el conjunto de datos #3.

ambos casos el valor de PCC se mantiene constante en 0:67 para el conjunto #1 y 0:5 para el conjunto #2, independientemente del valor del parametro de integracion espacial , o de utilizar pesos para ponderar cada canal o una suma de errores en la integracion de la informacion entre canales.

? Conjunto #3 La Tabla 4.31 compara los valores de la funcion de evaluacion PCC obtenidos por la metrica derivada del modelo de redundancia normalizada utilizando distintos parametros. Las columnas 2-5 muestran los valores si la metrica utilizada es global y las columnas 6-9 si la metrica se evalua solo sobre un conjunto de puntos de interes. En ambos casos el parametro de integracion espacial toma valores entre 2 y 5. Esta Tabla muestra que los resultados mejoran siempre si se evalua la diferencia entre imagenes solo sobre los puntos de interes. El valor mas alto de la funcion (PCC = 1:0) se obtiene para la metrica RA independientemente del valor del parametro y para RAS . Este alto valor obtenido indica que la metrica RA es capaz de ordenar correctamente todas las escenas del conjunto #3 con respecto a su detectabilidad visual.

4.1. Detectabilidad visual de objetos en una escena R

=1

=2

=3

=4

=5

= 2:0 0:59  0:0178 0:65  0:0160 0:65  0:0169 0:68  0:0179 0:71  0:0183

= 3:0 0:62  0:0224 0:67  0:0238 0:68  0:0258 0:73  0:0226 0:74  0:0219

111

= 4:0 0:60  0:0171 0:67  0:0271 0:66  0:0235 0:70  0:0216 0:70  0:0197

= 5:0 0:60  0:0171 0:64  0:0272 0:70  0:0216 0:70  0:0216 0:69  0:0214

Tabla 4.32: Media y varianza de la funcion PCC para 50 conjuntos de 10 imagenes para la metrica R variando el parametro de integracion espacial y el parametro de integracion entre canales .

Con Atencion Metrica Media fP Global CC g Var fPCC g Media fPCC g Var fPCC g RM 0.62 0.0228 0.65 0.0143 RS 0.66 0.0229 0.66 0.0172

=1 0.62 0.0224 0.69 0.0139

=2 0.67 0.0238 0.70 0.0181

=3 0.68 0.0258 0.72 0.0132

=4 0.73 0.0226 0.73 0.0138

=5 0.74 0.0219 0.79 0.0184 RMSE 0.398 0.0002 Tabla 4.33: Media y varianza de la funcion PCC para 50 conjuntos de 10 imagenes cada una para las metricas derivadas del modelo RN. La ultima la muestra la media y varianza de la medida RMSE para dicho conjunto.

4.1.6.2 Experimento 2 Ya que los tres conjuntos de datos particulares estudiados anteriormente no dan informacion de cual es el mejor valor del parametro de integracion espacial para calcular la medida de distorsion, utilizamos en este segundo experimento 50 conjuntos de 10 pares de imagenes en primer lugar para obtener informacion sobre el valor adecuado para este parametro. En la Tabla 4.32 aparecen los valores de la media y varianza de la funcion de evaluacion PCC obtenidos por la metrica R variando el valor del parametro de integracion espacial y el parametro de integracion entre canales . Se observan mejores resultados para = 3. La Tabla 4.33 muestra la media de la funcion de evaluacion PCC y su varianza sobre los 50 conjuntos de 10 pares de imagenes cada uno para la metrica R global y atencional. En ambos casos los mejores resultados de la media de la funcion sobre los 50 conjuntos se obtienen para

= 5:0. En general se observa una tendencia creciente del valor de la media de PCC segun aumenta el valor de . Se obtienen mejores resultados si se utiliza el conjunto de pesos S derivado de la funcion de sensibilidad al contraste que el conjunto M obtenido minimizando el error entre la imagen original y la reconstruida. El comportamiento de la media y varianza de la funcion PCC si se vara el numero de conjuntos n de 10 imagenes cada uno para n = 30, 50, 100, 200 y 500 se muestra en la Tabla 4.34 para R y RA con = 5:0. En cualquiera de los casos la media permanece practicamente

112

Captulo 4. Aplicaciones Numero de Conjuntos 30 50 100 200 500

R ( = 5) RA ( = 5) Media fPCC g Var fPCC g Media fPCC g Var fPCC g 0.76 0.0196 0.82 0.0188 0.73 0.0201 0.80 0.0255 0.73 0.0176 0.80 0.0194 0.75 0.0245 0.79 0.0172 0.74 0.0208 0.79 0.0165

Tabla 4.34: Media y varianza de la funcion de evaluacion PCC para la metrica derivada del modelo RN con = 5:0 variando el numero de conjuntos de 10 imagenes cada uno.

1

PCC

RA

0.9 0.8 0.7

R

0.6 0.5 0.4

RMSE

0.3 0.2 0.1

100

200

300

400

500

Numero de Conjuntos

Figura 4.17: Valores de la media de la funcion de evaluacion PCC para las metricas RA (en lnea continua) y R (en lnea discontinua) variando el numero de conjuntos de 10 imagenes, desde 30 a 500.

Numero de Imagenes 10 15 20 25 30

R ( = 5) RA ( = 5) Media fPCC g Var fPCC g Media fPCC g Var fPCC g 0.72 0.0234 0.81 0.0227 0.71 0.0113 0.77 0.0049 0.73 0.0054 0.80 0.0023 0.72 0.0039 0.80 0.0017 0.75 0.0017 0.81 0.0013

Tabla 4.35: Media y varianza de la funcion de evaluacion PCC para las metricas derivadas del modelo RN con = 5:0 variando el numero de imagenes por conjunto.

4.1. Detectabilidad visual de objetos en una escena

113

1

PCC

0.9

RA

0.8 0.7 0.6

R

0.5 0.4

RMSE

0.3 0.2 0.1

10

15

20

25

30

Numero de Imagenes por Conjunto

Figura 4.18: Valores de la media de la funcion PCC para las metricas RA y R variando el numero de imagenes por conjunto.

constante en un valor mas bajo para la metrica global que para la metrica que usa puntos de atencion. La Tabla 4.35 muestra el comportamiento de la media y varianza de la funcion PCC si se vara el numero de imagenes por conjunto k = 10, 15, 20, 25 y 30 para R y RA con = 5:0. En este caso, a diferencia de lo que ocurra con las metricas derivadas de los modelos anteriores, la media permanece practicamente constante independientemente del numero de imagenes que se tomen en los conjuntos. Las Figuras 4.17 y 4.18 muestran estos mismos datos de forma gra ca. En resumen, se~nalamos que la metrica derivada del modelo de redundancia normalizada que utiliza suma de errores con valor del parametro de integracion de la informacion entre canales = 4 o superior se ha encontrado que correla bien con las medidas psicofsicas tomadas a observadores humanos. El valor del parametro con el que se consiguen resultados de la medida de detectabilidad mejores es = 3:0. Destacar tambien que el evaluar las distancias parciales sobre los puntos de interes mejora signi cativamente el valor nal de la medida.

4.1.6.3 Experimento bootstrap La Tabla 4.36 muestra la probabilidad de correcta clasi cacion PCC de la medida computacional derivada del modelo RN para las muestras de distinto tama~no de nidas en la Tabla 4.15. Las columnas 2 y 4 muestran los valores de PCC obtenidos usando el conjunto de pesos S para ponderar cada ltro y las columnas 3 y 5 si se utiliza una suma de errores con = 5:0. Los resultados son los siguientes: Para el conjunto M1, la probabilidad mas alta (PCC = 0:83) es obtenida por RA . Para el conjunto M2, de nuevo la metrica RA produce la probabilidad mas alta (PCC = 0:87). Para el conjunto M3, la probabilidad mas alta (PCC = 0:75) es obtenida por RA .

114

Captulo 4. Aplicaciones

Muestra Original M1 M2 M3 M4 M5 M6

Probabilidad de Correcta Clasificacio n RS R RA S RA

0.67 0.60 0.65 0.72 0.77 0.78

0.67 0.73 0.65

0.76 0.77 0.78

0.67 0.60 0.65

0.76 0.70 0.75

0.83 0.87 0.75 0.76 0.87 0.81

Tabla 4.36: Valores de la funcion de evaluacion PCC calculada para cada una de las muestras originales bootstrap de nidas en la Tabla 4.15.

Muestra Original M1 M2 M3 M4 M5 M6

Intervalos BCa con un 95% de Confianza

Metrica Global

RS (0.333, 0.833) (0.333, 0.733) (0.400, 0.900) (0.440, 0.840) (0.600, 0.933) (0.639, 0.944)

R (0.333, 0.833) (0.467, 0.867) (0.400, 0.850) (0.520, 0.920) (0.600, 0.933) (0.639, 0.944)

Metrica con Atencion RA S RA (0.333, 0.833) (0.500, 1.000) (0.333, 0.733) (0.600, 1.000) (0.400, 0.900) (0.550, 0.900) (0.520, 0.920) (0.600, 0.840) (0.533, 0.800) (0.733, 1.000) (0.639, 0.944) (0.667, 0.944)

Tabla 4.37: Intervalos BCa calculados para cada muestra original bootstrap.

4.1. Detectabilidad visual de objetos en una escena

115

Para el conjunto M4, la probabilidad mas alta (PCC = 0:76) es obtenida por la metrica R tanto global como utilizando puntos de interes. Para el conjunto M5, la probabilidad mas alta (PCC = 0:87) es obtenida por RA . Finalmente, para el conjunto M6, la metrica RA produce la probabilidad mas alta (PCC = 0:81). Los intervalos de con anza BCa para estos valores de PCC se muestran en la Tabla 4.37. A partir de estos intervalos de con anza, observamos que: Si la muestra original para el muestreo bootstrap es el conjunto M1, la hipotesis PCC > 0:5 es aceptada al 95% solo por la metrica RA . Si la muestra original para el muestreo bootstrap es el conjunto M2, la hipotesis PCC > 0:6 es aceptada al 95% solo por la metrica RA . Si la muestra original para el muestreo bootstrap es el conjunto M3, la hipotesis PCC > 0:55 es aceptada al 95% de nuevo por la metrica RA. Si la muestra original es el conjunto M4, la hipotesis PCC > 0:52 es aceptada al 95% por las metricas R, RAS y RA . Ademas la hipotesis PCC > 0:6 unicamente es aceptada al 95% por RA . Si la muestra original es el conjunto M5, la hipotesis PCC > 0:53 es aceptada al 95% por todas las metricas comparadas. La hipotesis PCC > 0:733 solo es aceptada de nuevo por la metrica RA. Si la muestra original es el conjunto M6, la hipotesis PCC > 0:634 es aceptada al 95% tambien por todas las metricas. La hipotesis PCC > 0:667 es unicamente aceptada por RA . La metrica RA presenta intervalos de con anza donde PCC > 0:5 independientemente de la muestra utilizada. Estos intervalos nos muestran que es probable que el valor correcto de PCC que se obtenga con esta medida iguale el valor 0.81 para cualquier posible muestra tomada de la misma poblacion que la muestra original de 36 parejas de imagenes.

4.1.7 Valoracion de la metrica derivada del modelo MCBF En este apartado se evaluan algunos parametros de la metrica derivada del modelo MCBF en relacion con su bondad para estimar la detectabilidad visual de objetos en una escena. En concreto, los experimentos estan encaminados a sacar conclusiones sobre:

 La integracion espacial dentro de cada canal utilizando una suma de errores con distintos

valores del parametro . Para la integracion se usan todos los puntos de la imagen o bien solo algunos puntos seleccionados como puntos de interes.  La integracion de la informacion entre canales para producir un unico valor de detectabilidad, utilizando (i) una suma ponderada o (ii) una suma de errores con distintos valores del parametro .  La in uencia del enmascaramiento dentro de cada canal.

116

Captulo 4. Aplicaciones Conjunto de Datos #1

Metricas ( = 1) LM

LS LS

0

00

LI

PCC =2 =3 =4 =5 0.44 0.56 0.22 0.78 0.22 0.78 0.22 0.78

0.44 0.78 0.22 0.78 0.22 0.78 0.22 0.78

0.56 0.78 0.22 0.78 0.22

0.56 0.78 0.22 0.78 0.44

0.22 0.78

0.22 0.78

1.0

1.0

Tabla 4.38: Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion espacial para el conjunto de datos #1.

4.1.7.1 Experimento 1 ? Conjunto #1

Conjunto de Datos #1

Metricas ( = 4) LM

LS LS

0

00

LI

PCC

=1 =4 =8 0.56 0.78 0.22 0.78 0.22

1.0

0.22 0.78

0.22 0.56 0.22 0.56 0.22 0.78 0.22 0.78

0.22 0.56 0.22 0.78 0.22 0.78 0.22 0.78

Tabla 4.39: Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion entre canales para el conjunto de datos #1.

La Tabla 4.38 muestra los valores de la funcion de evaluacion PCC aplicada a las ordenaciones que produce el modelo de multiples canales espacio-frecuenciales MCBF para el conjunto de datos #1. Se analiza la dependencia de los resultados con respecto al parametro de integracion espacial as como para las distintas formas de ponderar cada canal que se proponan en el apartado 3.4.2. Se ha tomado el valor del parametro de integracion entre canales como 1. Para cada medida, la lnea superior en la Tabla muestra los resultados obtenidos por una metrica global (todos los puntos de la imagen) y la inferior por una metrica atencional (solo los puntos de interes). Existe una clara diferencia entre los valores obtenidos para la medida usando la metrica global o la atencional. En este caso concreto, con una metrica global no se consigue mejorar el valor de RMSE (PCC = 0:22) excepto cuando se utiliza el conjunto de pesos M en que se llega a un valor de 0:56. El valor maximo de la funcion de evaluacion (PCC = 1:0) se obtiene para una metrica atencional utilizando el conjunto de pesos S 00 . En cualquier caso todas ellas producen un alto valor (0.78 o superior) consiguiendose los maximos valores para un valor de igual o superior a 4.0. En la Tabla 4.39 se analiza el comportamiento de las medidas cuando vara el parametro de integracion entre canales. Se han escogido los valores de 1, 4 y 8 para mostrar la tendencia (creciente, decreciente o constante) de los valores de PCC . En este caso se toma el valor de a 4.0. Se observa que para una metrica global el valor maximo se sigue obteniendo cuando se usa el conjunto de pesos M para = 1:0, y disminuye para los demas valores de . Para el resto de pesos, los valores permanecen constantes independientemente del valor de . Para la metrica atencional se observa un ligero decrecimiento para los pesos M y S 00 y un valor constante para los otros dos conjuntos de pesos a comparar S 0 e I . La Tabla 4.40 muestra la ordenacion concreta que se produce para obtener el valor

4.1. Detectabilidad visual de objetos en una escena

117

Conjunto de Datos #1 Par de RPd LA S ( = 4)

Imagenes #16 #18 #10 #43 #6 #30 #19 #3 #32

PCC

Valor Orden 96.39 1 96.02 2 95.63 3 93.34 4 90.95 5 90.66 6 84.79 7 80.02 8 79.52 9

00

Valor Orden 0.0153 3 0.0165 1 0.0158 2 0.0108 6 0.0109 5 0.0123 4 0.0075 8 0.0085 7 0.0023 9 1.0

Tabla 4.40: Valores de detectabilidad calculados por la metrica LS y valor de PCC del orden dado por la metrica que se muestra en la columna 3 con respecto al orden de referencia mostrado en la columna 2. 00

de PCC maximo. De este modo se muestra que, para el conjunto #1, la metrica con atencion LA determina una ordenacion de detectabilidad que se asemeja a la realizada por observadores humanos, obteniendose una maxima correlacion para el conjunto de pesos S 00 y para = 1:0.

? Conjunto #2

Las Tablas 4.41 y 4.42 muestran los resultados de la funcion de evaluacion PCC para el conjunto de imagenes #2 variando el valor del parametro de integracion espacial dentro de cada canal y el de integracion entre canales respectivamente. Para una metrica global el valor maximo de la funcion (PCC = 0:63) se obtiene para cualquier valor de para los conjuntos de pesos S 00 e I y para valores superiores a = 4:0 para el conjunto de pesos M . El valor maximo de la funcion (PCC = 1:0) se obtiene para la metrica atencional utilizando el conjunto de pesos M independientemente del valor de y para los otros conjuntos de pesos para valores de superiores a 2 para I y superiores a 4 para los pesos derivados de la CSF. En general podemos decir que la tendencia para la metrica global es que el valor de PCC permanece constante o mejora segun aumenta el valor de . La Tabla 4.43 muestra los valores de detectabilidad y la ordenacion resultante para la metrica con el conjunto de pesos M , comparada con la medida psicofsica. Esto lleva a la conclusion de que, para el conjunto de datos #2, tanto la metrica global como la atencional proporcionan valores que superan el obtenido por RMSE (PCC = 0:38) para dicho conjunto, aunque la atencional siempre con valores superiores. De hecho el alto valor de probabilidad muestra que la metrica es en general capaz de ordenar correctamente las escenas de este conjunto con respecto a su detectabilidad visual.

? Conjunto #3

La Tabla 4.44 compara los valores de la funcion de evaluacion para los distintos conjuntos

118

Captulo 4. Aplicaciones

Conjunto de Datos #2

Metricas ( = 1) LM

LS LS

0

00

LI

Conjunto de Datos #2

PCC =2 =3 =4 =5 0.50 0.75 0.38 0.75 0.50 0.5 0.38 0.75

0.50

0.50

0.50

0.38 0.75 0.63 0.5 0.38 0.75

0.38 0.75 0.63 0.75 0.63 0.75

0.38 0.75 0.63 0.75 0.63 0.75

1.0

1.0

Metricas ( = 4) LM

1.0

Tabla 4.41: Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion espacial para el conjunto de datos #2.

LS LS

0

00

LI

PCC

=1 =4 =8 0.50

0.63

0.63

0.38 0.75 0.63 0.75 0.63 0.75

0.50 0.75 0.63 0.75 0.63

0.50

1.0

1.0

1.0

1.0 1.0

0.63

1.0

0.63

1.0

Tabla 4.42: Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion entre canales para el conjunto de datos #2.

Conjunto de Datos #2 Par de RPd LA M ( = 4)

Imagenes #35 #16 #28 #36 #6 #19 #23 #3

PCC

Valor Orden 96.40 1 96.39 2 94.66 3 92.81 4 90.95 5 84.79 6 82.91 7 80.02 8

Valor Orden 472.00 1 192.88 2 175.97 3 147.72 4 89.65 5 60.11 7 38.86 8 84.88 6 1.0

Tabla 4.43: Valores de detectabilidad calculados por la metrica LA M y valor de PCC del orden dado por la metrica que se muestra en la columna 3 con respecto al orden de referencia mostrado en la columna 2.

4.1. Detectabilidad visual de objetos en una escena Conjunto de Datos #3

Metricas ( = 1) LM

LS LS

0

00

LI

PCC =2 =3 =4 =5 0.45 0.64 0.36 0.64 0.36 0.64 0.36

0.45

0.64

0.64

0.36 0.64 0.45 0.64 0.45

0.54 0.64 0.45 0.64 0.64

0.54 0.64 0.45 0.64 0.64

0.82 0.82 0.82

0.82 0.82 0.82 0.82

Tabla 4.44: Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion espacial para el conjunto de datos #3.

119 Conjunto de datos #3

Metricas ( = 4) LM

LS LS

0

00

LI

PCC

=1 =4 =8 0.64

0.64

0.64

0.54

0.45

0.64 0.64 0.64

0.64 0.64 0.64

0.82 0.82 0.82 0.54 0.64 0.45 0.64 0.64

0.82 0.82

0.82 0.82 0.82

Tabla 4.45: Valores de PCC para las metricas derivadas del modelo MCBF variando el parametro de integracion entre canales para el conjunto de datos #3.

de pesos variando el valor de (entre 2 y 5) y dejando jo el valor del parametro

= 1:0. La metrica global muestra los mejores resultados para valores de = 4:0 o superiores. Para la metrica atencional los valores permanecen practicamente constantes con respecto a este parametro. La Tabla 4.45 muestra los valores de PCC variando el valor de y manteniendo constante el de = 4:0. Para la metrica global los valores de PCC son proximos al valor obtenido por la metrica RMSE (PCC = 0:54). En ningun caso superan el valor de 0:64. Incluso para el conjunto de pesos S 0 no se supera el valor obtenido por RMSE. Si se utilizan los puntos de interes, PCC toma un valor de 0:82, consiguiendose para cualquier conjunto de pesos excepto para el conjunto S 00 . De este modo se muestra que la metrica LA es capaz de ordenar las escenas del conjunto #3 de forma muy parecida a la realizada por observadores humanos. Una mayor estabilidad con respecto a los parametros analizados se observa para el conjunto de pesos I . Como conclusiones, en cualquiera de los tres casos la metrica atencional proporciona mejores resultados que la global. La global muestra resultados que mejoran RMSE excepto para el conjunto 1 que la iguala. La atencional muestra resultados muy buenos para los tres conjuntos, aunque no hay aun resultados su cientes para determinar el optimo o que pesos son mas adecuados, puesto que dependen del conjunto concreto y con unas diferencias muy peque~nas. En los tres casos los mejores resultados se dan para valores de = 4 o superiores.

4.1.7.2 Experimento 2 La Tabla 4.47 muestra los valores de la media y varianza de PCC para las metricas derivadas del modelo de multiples canales espacio-frecuenciales MCBF aplicadas sobre un total de 50 conjuntos de 10 imagenes cada uno. En esta Tabla se comparan los resultados obtenidos por una metrica global con respecto a una atencional variando en ambos casos tanto el conjunto de pesos que pondera cada canal como el parametro de integracion de la informacion entre canales . Para la metrica global la tendencia es siempre a mejores valores de MediafPCC g segun aumenta el valor de independientemente del conjunto de pesos. Los mejores va-

120

Captulo 4. Aplicaciones Conjunto de Datos #3 Par de RPd LA I ( = 4)

Imagenes #16 #9 #37 #6 #30 #26 #29 #3 #21 #11 #4

PCC

Valor Orden 96.39 1 96.27 2 96.19 3 90.95 4 90.66 5 90.06 6 89.47 7 80.02 8 73.84 9 73.40 10 58.89 11

Valor Orden 0.0152 3 0.0283 2 0.0298 1 0.0066 10 0.0130 4 0.0090 6 0.0113 5 0.0088 7 0.0079 9 0.0080 8 0.0047 11 0.82

Tabla 4.46: Valores de detectabilidad calculados por la metrica LA I y valor de PCC del orden dado por la metrica que se muestra en la columna 3 con respecto al orden de referencia mostrado en la columna 2.

Pesos

1.0 M 2.0 4.0 8.0 1.0 S' 2.0 4.0 8.0 1.0 S" 2.0 4.0 8.0 1.0 2.0 I 4.0 8.0 RMSE

Metrica Global

Metrica con Atencion

MediafPCC g V arfPCC g MediafPCC g V arfPCC g 0.51 0.54 0.56 0.63 0.51 0.54 0.55 0.57 0.55 0.56 0.59 0.66 0.51 0.54 0.64 0.67 0.398

0.0228 0.0228 0.0218 0.0199 0.0198 0.0224 0.0225 0.0168 0.0164 0.0179 0.0160 0.0171 0.0266 0.0260 0.0248 0.0181 0.0002

0.71 0.70 0.72 0.71 0.69 0.69 0.70 0.70 0.62 0.63 0.66 0.65 0.72 0.67 0.69 0.71 -

0.0199 0.0246 0.0164 0.0114 0.0182 0.0255 0.0255 0.0169 0.0163 0.0189 0.0138 0.0143 0.0190 0.0237 0.0204 0.0108 -

Tabla 4.47: Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una. Media y varianza de la medida RMSE para dicho conjunto.

4.1. Detectabilidad visual de objetos en una escena 1

1

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0

121

0 0

1

2

3

1

4

(a)

5

6

7

8

9

0

1

2

3

0

1

2

3

1

0.8

0.8

0.6

0.6

0.4

0.4

0.2

0.2

0

4

5

6

7

8

9

4

5

6

7

8

9

(b)

0 0

1

2

3

4

(c)

5

6

7

8

9

(d)

Figura 4.19: En lnea continua se muestra la media y varianza de una metrica atencional y en discontinua de una global derivadas del modelo MCBF para (a) el conjunto de pesos M , (b) el conjunto de pesos I , (c) el conjunto de pesos S 0 y (d) el conjunto de pesos S 00 .

lores se consiguen para los conjuntos de pesos S 00 e I para = 8:0. Para esta metrica el comportamiento es constante a partir de valores de cercanos a 8. En la cuarta columna de la Tabla 4.47 se muestran los valores de media y varianza para la metrica atencional. En este caso el valor de la media permanece practicamente constante independientemente del valor de . En todos los casos se obtienen mejores resultados que con la metrica global excepto para el conjunto de pesos S 00 . En este caso para = 8:0 las dos metricas tienen el mismo comportamiento. Estos mismos resultados se pueden observar de forma gra ca en la Figura 4.19. En la Tabla 4.48 tomamos la metrica atencional con los pesos M , S 00 e I para = 1 para observar el comportamiento de la media segun aumenta el numero de conjuntos de 10 parejas de escenas cada uno. Cada columna de la Tabla muestra el valor de la MediafPCC g VarfPCC g para los distintos conjuntos de pesos. Independientemente del numero de conjuntos que se tomen, el valor de la media se mantiene estable. Con el conjunto de pesos M se consiguen mejores resultados. Esto se puede observar tambien de forma gra ca en la Figura 4.20, donde se muestra el comportamiento de la media segun cambia el numero de conjuntos

122

Captulo 4. Aplicaciones Numero de Conjuntos 30 50 100 200 500

LA M 0:75  0:0112 0:74  0:0192 0:74  0:0188 0:75  0:0134 0:75  0:0135

Metricas LA S 0:68  0:0182 0:69  0:0178 0:68  0:0178 0:69  0:0174 0:70  0:0181

LA I 0:70  0:0203 0:70  0:0126 0:70  0:0169 0:71  0:0212 0:72  0:0177

Tabla 4.48: Media y varianza de la funcion de evaluacion PCC variando el numero de conjuntos de imagenes para las metricas LA M , LA S y LA I .

1

PCC LA M

0.8

LA I

0.6

LA S 0.4

RMSE 0.2

0 0

100

200

300

400

500

Numero de Conjuntos

Figura 4.20: Representacion gra ca de los valores de la media y varianza de la funcion de evaluacion PCC obtenidos por las metricas LA M , LA I , LA S y RMSE, variando el numero de conjuntos.

comparandolo con el comportamiento para la metrica RMSE. De igual modo analizamos el comportamiento de la metrica LA para conjuntos de 50 bases con distinto numero de parejas de imagenes desde un numero reducido (10) hasta un numero proximo al total de parejas de la base de imagenes utilizada (30). Esta informacion se re eja en la Tabla 4.49 y en la Figura 4.21, donde se muestra ademas su comparacion con los resultados obtenidos por la metrica RMSE. Para la metrica RMSE, conforme aumenta el numero de imagenes por conjunto tambien aumenta signi cativamente el valor de la media de la funcion PCC . Algo parecido ocurre con la metrica LA si se utilizan los conjuntos de pesos M y S 00 pero de una forma mas suave, mientras que si no se utiliza ningun conjunto de pesos la media permanece practicamente constante. En cualquier caso, de nuevo se pone de mani esto que el conjunto de pesos que consigue una ponderacion de los distintos canales tal que las ordenaciones que consigue la metrica derivada son mas parecidas a una ordenacion psicofsica realizada por observadores humanos es el conjunto M .

4.1. Detectabilidad visual de objetos en una escena

Numero de Imagenes 10 15 20 25 30

LA M

0:73  0:0108 0:76  0:0078 0:76  0:0018 0:77  0:0003 0:80  0:0000

123

Metricas LA S 0:69  0:0183 0:72  0:0081 0:72  0:0031 0:73  0:0023 0:76  0:0005

LA I 0:74  0:0292 0:75  0:0079 0:73  0:0023 0:74  0:0020 0:76  0:0005

Tabla 4.49: Media y varianza de la funcion de evaluacion PCC variando el numero de imagenes por base para las metricas LA M , LA S y LA I .

1

PCC

LA M

LA I

0.8

LA S

0.6

0.4

RMSE 0.2

0 5

10

15

20

25

30

35

Numero de Imagenes por Conjunto

Figura 4.21: Representacion gra ca de los valores de la media y varianza de la funcion de evaluacion PCC obtenidos por las metricas LA M , LA I , LA S y RMSE, variando el numero de imagenes por conjunto.

124

Captulo 4. Aplicaciones Muestra Original M1 M2 M3 M4 M5 M6

Probabilidad de Correcta Clasificacio n

LM 0.67 0.73 0.75 0.68 0.63 0.69

Metrica Global LS 0.58 0.47 0.70 0.68 0.63 0.69

LI 0.67 0.73 0.70 0.68 0.70 0.69

Metrica con Atencion LA S LA I 0.67 0.75 0.75

LA M

0.80 0.80 0.84 0.80 0.83

0.80 0.65 0.72 0.70 0.75

0.80 0.75 0.72 0.70 0.75

Tabla 4.50: Valores de la funcion de evaluacion PCC obtenidos por las variantes de la metrica derivada del modelo MCBF para las muestras que aparecen en la Tabla 4.15. Intervalos BCa con un 95% de Confianza

Muestra Original M1 M2 M3 M4 M5 M6

LM

(0.333, 0.833) (0.467, 0.867) (0.500, 0.900) (0.520, 0.840) (0.467, 0.733) (0.500, 0.806)

Metrica Global LS (0.167, 0.750) (0.267, 0.600) (0.450, 0.900) (0.440, 0.800) (0.367, 0.733)

LI

(0.333, 0.833) (0.467, 0.867) (0.500,0.900) (0.440, 0.840)

(0.500, 0.833) (0.500, 0.861) (0.500, 0.806)

Tabla 4.51: Intervalos de con anza BCa al 95% para los valores de PCC obtenidos para las distintas muestras originales bootstrap por las metricas globales LM , LS y LI con = 8:0.

4.1.7.3 Experimento bootstrap Todas las conclusiones a las que se ha llegado en los apartados anteriores son obtenidas para la base de imagenes que se muestra en las Figuras 4.2, 4.3, 4.4 y 4.5. Como se ha comentado anteriormente, lo que pretendemos es generalizar estas conclusiones para cualquier conjunto de imagenes y para ello nos valemos de nuevo de la tecnica estadstica de muestreo bootstrap. La Tabla 4.50 muestra los valores de PCC obtenidos al aplicar la metrica LA con los distintos conjuntos de pesos para las muestras que aparecen en la Tabla 4.15. Los valores mas altos de PCC son obtenidos por la metrica usando el conjunto de pesos M y calculando la integracion espacial solo sobre unos puntos de interes. En las Tablas 4.51 y 4.52 aparecen los intervalos de con anza BCa con un 95% de con anza para la metrica L global y atencional respectivamente. Estos intervalos nos muestran que: Si la muestra original para el muestreo bootstrap es el conjunto M1, la hipotesis PCC > 0:333 es aceptada por las metricas LM , LI , LA M y LA S . Si la muestra original para el muestreo bootstrap es el conjunto M2, la hipotesis PCC > 0:6 solo es aceptada por la metrica LAM . Si la muestra original es el conjunto M3, la hipotesis PCC > 0:5 se cumple si se utiliza

4.1. Detectabilidad visual de objetos en una escena

125

Intervalos BCa con un 95% de Confianza

Muestra Original M1 M2 M3 M4 M5 M6

LA M

Metrica con Atencion LA S

(0.333, 0.833) (0.600, 1.000) (0.550, 1.000) (0.640, 0.920) (0.700, 1.000) (0.722, 1.000)

LA I (0.333, 1.000) (0.250, 1.000) (0.467, 1.000) (0.467, 1.000) (0.400, 0.800) (0.500, 0.900) (0.480, 0.880) (0.520, 0.880) (0.467, 0.867) (0.500, 0.867) (0.556, 0.889) (0.556, 0.861)

Tabla 4.52: Intervalos de con anza BCa al 95% para los valores de PCC obtenidos para las distintas muestras bootstrap por las metricas atencionales derivadas del modelo MCBF con = 1:0.

una metrica usando el conjunto de pesos M o bien el conjunto S tanto global como usando solo puntos de interes. Ademas, la hipotesis PCC > 0:55 solo es aceptada por la metrica LAM . Si la muestra original es el conjunto M4, la hipotesis PCC > 0:52 es aceptada por LM , LA M y LA I . La hipotesis PCC > 0:64 solo es aceptada por la metrica LA M . Si la muestra original es el conjunto M5, la hipotesis PCC > 0:5 es aceptada por la metricas LA M , LA I y LI . Ademas la hipotesis PCC > 0:7 es solo aceptada por la metrica LAM . Si la muestra original es el conjunto M6, la hipotesis PCC > 0:5 es aceptada por todas las variantes que se comparan. La hipotesis PCC > 0:722 de nuevo solo es aceptada por la metrica LAM . Los intervalos de con anza bootstrap muestran que es probable que el valor correcto de PCC obtenido por la metrica LAM iguale el valor 0.83 para cualquier posible muestra tomada de la misma poblacion que el conjunto original de 36 imagenes.

4.1.8 Comparacion de las metricas perceptuales de nidas y otras medidas clasicas Por ultimo, se han comparado los resultados obtenidos en detectabilidad de objetos por las metricas derivadas de los cuatro modelos que se han desarrollado en este trabajo con los resultados obtenidos por un conjunto de medidas clasicas. Para ello se han utilizado los cuatro subconjuntos M2, M3, M5 y M6 de nidos en la Tabla 4.15. Los dos primeros contienen 15 y 20 imagenes y los dos ultimos 30 y 36. De esta manera podemos comparar el comportamiento de las medidas tanto si disponemos de una muestra original relativamente peque~na o una muestra mayor (en nuestro caso cercana o igual a la base de imagenes utilizada en los experimentos). La Tabla 4.53 muestra los valores de la funcion de evaluacion PCC que obtienen las metricas U, F, R y L tanto globales, en las cuatro primeras las, como atencionales, en las cuatro siguientes. Las cuatro ultimas las muestran los resultados obtenidos por medidas clasicas.

126

Captulo 4. Aplicaciones

Probabilidad de Correcta Clasificacio n

Medida

U F R L UA FA RA LA RMSE MAE SNR PSNR

log

M2

0.73 0.73 0.73 0.73 0.73 0.73

0.87 0.80 0.53 0.47 0.60 0.53

Muestras Originales M3 M5 0.75 0.87 0.65 0.70 0.65 0.77 0.70 0.70 0.75 0.87 0.70 0.80 0.75 0.87 0.80 0.80 0.65 0.60 0.65 0.63 0.70 0.67 0.65 0.53

M6

0.78 0.75 0.78 0.69 0.80 0.78 0.81

0.83 0.67 0.69 0.72 0.61

Tabla 4.53: Valores de la funcion de evaluacion PCC calculada para las muestras bootstrap M1, M2, M4 y M5 por las medidas perceptuales desarrolladas y un conjunto de medidas clasicas.

Intervalos BCa con un 95% de Confianza

Medida

U F R L UA FA RA LA RMSE MAE SNR PSNR

log

Muestras Originales M2 M3 M5 M6 (0.467, 0.867) (0.500, 0.900) (0.700, 1.000) (0.611, 0.889) (0.467, 1.000) (0.300, 0.900) (0.467, 0.867) (0.556, 0.889) (0.467, 0.867) (0.400, 0.850) (0.600, 0.933) (0.639, 0.944) (0.467, 0.867) (0.500, 0.900) (0.500, 0.833) (0.500, 0.806) (0.467, 0.867) (0.550, 0.900) (0.667, 1.000) (0.640, 0.920) (0.467, 0.867) (0.500, 0.900) (0.600, 0.933) (0.611, 0.889) (0.600, 1.000) (0.550, 0.900) (0.733, 1.000) (0.667, 0.944) (0.600, 1.000) (0.550, 1.000) (0.700, 1.000) (0.722, 1.000) (0.267, 0.733) (0.300, 0.900) (0.400, 0.800) (0.440, 0.833) (0.200, 0.733) (0.350, 0.900) (0.400, 0.733) (0.472, 0.889) (0.333, 0.733) (0.400, 0.900) (0.467, 0.800) (0.500, 0.833) (0.200, 0.800) (0.350, 0.850) (0.300, 0.700) (0.389, 0.694)

Tabla 4.54: Intervalos BCa al 95% para los valores de PCC obtenidos para las muestras bootstrap M2, M3, M5 y M6 por las medidas perceptuales de nidas y un conjunto de medidas clasicas.

4.2. Evaluacion de la calidad de imagenes comprimidas

127

De estas medidas clasicas, la que obtiene mejores resultados para todas las muestras es SNR . Para las metricas globales, los valores mas altos de PCC son obtenidos por la metrica U. Para el conjunto M6 la metrica R llega a igualar el valor obtenido por U. Los valores de PCC obtenidos por las metricas usando puntos de interes superan en general (en algunos casos igualan como ocurre para UA con la mayora de las muestras) los valores obtenidos por las mismas metricas globales. Los valores mas altos de PCC son obtenidos, en este caso, por las metricas RA y LA , aunque para UA se obtienen unos valores de la funcion bastante altos tambien a pesar de tratarse de una metrica derivada de un modelo monocanal. La Tabla 4.54 muestra los intervalos de con anza BCa para cada uno de los valores de la funcion PCC mostrados en la Tabla 4.53. De nuevo observamos que de las medidas clasicas la que muestra mejor comportamiento en esta aplicacion de detectabilidad es SNR . En algunas medidas perceptuales el valor de PCC para alguna muestra concreta coincide con el valor obtenido por alguna de las medidas clasicas. Aun as , los intervalos de con anza BCa correspondientes suelen ser mejores para las metricas perceptuales. Segun los intervalos de con anza obtenidos si tomamos como muestra original el conjunto M6, es decir, el total de imagenes, es posible sacar las siguientes conclusiones: log

log

 Si las metricas son utilizadas de forma global, es decir, usando todos los puntos de

la imagen para calcular la medida de detectabilidad nal, aquella que presenta mejor intervalo de con anza es R. Esto quiere decir que si tomaramos una nueva muestra de la poblacion de la que fue tomada la muestra M6, es muy probable que su valor correcto de PCC obtenido por la metrica R iguale el valor 0.78. La metrica U obtiene el mismo valor de PCC (0.78) aunque un intervalo de con anza mas bajo. Esta ultima metrica, a pesar de tratarse de una metrica derivada de un modelo monocanal, obtiene mejores resultados que la metrica multicanal F. Como metrica global, L es la que presenta un comportamiento peor.

 Si se calculan unos puntos de interes en la imagen y se estima la medida de detectabilidad solo sobre esos puntos, la metrica LA mejora notablemente sus resultados. E sta es la metrica que obtiene ahora mejor intervalo de con anza. A partir de el deducimos que el valor de PCC obtenido por dicha metrica para cualquier posible muestra tomada de la misma poblacion que el conjunto M6 no sera muy diferente del valor 0.83. La metrica RA muestra un comportamiento tambien bastante bueno. En este caso tambien el intervalo de con anza obtenido para los valores de PCC por la metrica UA es mejor que el obtenido por la metrica derivada del modelo de multiples canales frecuenciales F A.

4.2 Evaluacion de la calidad de imagenes comprimidas Uno de los principales usos de una metrica de calidad de imagenes es medir con precision la calidad visual de imagenes comprimidas durante procesos de compresion sin retroalimentacion a partir del usuario. Sin una metrica para calcular la calidad, a menudo se deja que observadores humanos manualmente ajusten el nivel de cuantizacion, normalmente multiplicando la matriz de cuantizacion por un factor de escala, hasta que se alcanza un nivel aceptable de calidad visual. Idealmente, la metrica que mide la calidad de una imagen debera ser capaz

128

Captulo 4. Aplicaciones

de predecir el punto de compresion sin perdida visual ademas de proporcionar una escala perceptualmente signi cativa. Tal metrica debera ser validada usando experimentos psicofsicos, una tarea que puede ser sumamente difcil y costosa. El nivel de cuantizacion optimo puede ser aquel con el que se consiga una cierta perdida permitida en un entorno, de ah la importancia de encontrar una buena medida de calidad que permita medir objetivamente dicha perdida. Actualmente uno de los principales problemas que afectan al desarrollo de esquemas de compresion es la falta de una metrica bien aceptada para la prediccion de la calidad de una imagen. Las metricas comunmente usadas son demasiado simples, se trata de medidas clasicas tales como PSNR o MSE. Cuando la cuantizacion es variada sobre una imagen simple de una forma sencilla, por ejemplo variando el factor de escala en la compresion JPEG, estas metricas correlan con la calidad de la imagen. Sin embargo, a menudo fallan al predecir la calidad de una imagen cuando se utilizan diferentes tecnicas de compresion. Incluso mas importante, estas metricas no predicen con precision la calidad visual a traves de un conjunto de imagenes con variaciones en su contenido, tal como bordes, regiones texturadas y grandes variaciones de luminosidad. En respuesta a los problemas de las metricas estandar, se han propuesto metricas de calidad de imagenes que incorporan factores perceptuales a distintos niveles tal y como se indico en el apartado 2.3.2.2. Generalmente las metricas perceptuales proporcionan estimaciones mas consistentes de la calidad de una imagen que las metricas clasicas simples. Sin embargo, la implementacion de las tecnicas es a menudo tan compleja, y el estudio psicologico que se requiere para validarlas requiere tanto tiempo, que una validacion exhaustiva y una comparacion directa de los resultados entre metricas raramente se lleva a cabo. Hay, sin embargo, algunas excepciones a esto [11, 68, 72, 152]. La mayora de las metricas de calidad perceptuales [4, 6, 15, 70, 154] son incorporadas en los esquemas de compresion calculando la calidad de la imagen reconstruida a cada nivel de cuantizacion. La e ciencia del calculo es baja ya que cada iteracion requiere la aplicacion de la cuantizacion, la transformacion inversa y el calculo de la metrica. Ademas, la e ciencia computacional se convierte en un asunto importante, ya que el numero de calculos es signi cativamente mayor en una metrica perceptual que en la mayora de las metricas clasicas. Tambien existen metricas [153, 176] que se calculan directamente en el dominio transformado. Esta aproximacion es mas e ciente ya que as solo es necesario aplicar la transformacion una vez. La principal limitacion de esta aproximacion es que las transformaciones lineales utilizadas en los esquemas de compresion tienen de ciencias con respecto a las caractersticas de frecuencia espacial de los canales del sistema visual, lo que puede llevar a predicciones incorrectas de la calidad de una imagen. Otras aproximaciones, actualmente en desarrollo, en la evaluacion de metodos de compresion y de un criterio objetivo de seleccion de la mejor razon de compresion alcanzable pueden verse en [70, 72]. En esta seccion se describen un conjunto de experimentos que evaluan la idoneidad de las metricas generales, desarrolladas sobre los cuatro modelos de representacion descritos en el Captulo 3, como medidas de la calidad de imagenes comprimidas. La tecnica de compresion con perdidas1 usada en la primera parte del experimento descrito en esta seccion es el estandar Joint Photographic Expert Group (JPEG) [105, 170]. En este algoritmo, el Hay dos tipos de algoritmos de compresion: sin perdidas y con perdidas. En los primeros la imagen reconstruida es exactamente igual a la original; en cambio, en los segundos no ocurre as. La diferencia esta en la razon de compresion, en los primeros suele ser baja (5:1) mientras que en los segundos se pueden alcanzar razones muy elevadas (100:1) a cambio de alguna perdida en la calidad de la imagen. 1

4.2. Evaluacion de la calidad de imagenes comprimidas

129

grado de compresion se controla mediante un parametro denominado factor de calidad (qf ) que cambia la matriz de cuantizacion usada en dicho algoritmo. Un factor de calidad bajo da lugar a un alto grado de compresion y peor calidad de la imagen y un factor de calidad alto implica poca compresion y mejora en la calidad de la imagen. Este metodo de compresion ha sido usado con imagenes mamogra cas (apartado 4.2.1), sobre las que se ha desarrollado un criterio objetivo de validacion de medidas de calidad, atendiendo a su utilidad en el diagnostico. En el apartado 4.2.2 se utilizan las metricas como medidas de calidad con otro tipo de images comprimidas usando el algoritmo JPEG. Por ultimo, en el apartado 4.2.3 se comprueba si las metricas presentan tambien un buen comportamiento para medir la calidad de imagenes comprimidas usando otros algoritmos de compresion.

4.2.1 Calidad de imagenes de mamografas comprimidas Para este experimento se han utilizado imagenes digitalizadas de la base de datos Nijmegen [94] y de la base de datos MIAS [164]. La Figura 4.22 muestra las 14 imagenes de mamografas usadas. Estas imagenes contienen algunos grupos de microcalci caciones. A partir de cada imagen seleccionada se obtiene la region de tama~no 256  256 donde estan presentes las microcalci caciones. Grupos de microcalci caciones granulares y menudas en las mamografas pueden ser un indicio de cancer. Los granulos individuales son difciles de detectar y segmentar debido a su variabilidad en tama~no y forma y tambien a que la textura del fondo de una mamografa no suele ser homogenea. La visibilidad de los grupos es bastante variable y a menudo degradada por la textura de alta frecuencia del tejido del pecho. Los radiologos especialistas analizan las imagenes originales mediante inspeccion visual para detectar las microcalci caciones. Todas las mamografas de la base de datos MIAS fueron digitalizadas con un microdensmetro de visualizacion radiogra ca (Scadig3) a una resolucion de 50  50 micras. Estas imagenes fueron reducidas a un tama~no de pxel de 200 micras y cortadas para que cada imagen sea de 8 bits y tenga 1024  1024 pxeles. Las imagenes de la base de datos Nijmegen tienen tama~no 2048  2048. En esta base de datos, las imagenes fueron digitalizadas a partir de una pelcula hecha con una camara CCD de 12 bits Eikonix 1412. Se utilizo una apertura de muestreo de 0.05 mm de diametro y una distancia de muestreo de 0.1 mm. No fue llevado a cabo ningun paso de preprocesamiento sobre las imagenes. Cada una de las 14 imagenes originales ha sido comprimida utilizando el algoritmo JPEG con factores de calidad que varan entre 1 y 99. La Figura 4.23 muestra la imagen original numero 9 comprimida a distintos niveles de compresion, con factores de calidad qf = 1, 4, 7, 10, 15, 20, 50, 75 y 99. Menor factor de calidad implica mayor nivel de compresion. El metodo para caracterizar perdidas por compresion en imagenes reconstruidas bajo distintos grados de compresion va a ser la razon entre falsos positivos y verdaderos positivos para la deteccion de microcalci caciones. Para obtener la razon entre falsos positivos y verdaderos positivos, las imagenes reconstruidas despues de la compresion se procesaron para detectar las microcalci caciones individuales (el proceso completo esta descrito en [59]). Los falsos positivos seran aquellas microcalci caciones que se detectan en la imagen reconstruida pero no estan en la original y los verdaderos positivos son aquellas que se detectan y estan en la original. De este modo, este estudio relaciona la precision en el diagnostico con el

130

Captulo 4. Aplicaciones

1

2

3

4

5

6

7

8

9

10

11

12

13

14

Figura 4.22: Catorce imagenes digitalizadas de mamografas tomadas de las bases de datos Nijmegen y MIAS.

4.2. Evaluacion de la calidad de imagenes comprimidas

131

qf =99

qf =75

qf =50

qf =20

qf =15

qf =10

qf =7

qf =4

qf =1

Figura 4.23: Imagen de mamografa numero 9 reconstruida bajo distintos grados de compresion usando el algoritmo de compresion JPEG.

132

Captulo 4. Aplicaciones

nivel de compresion. La Figura 4.24 muestra un ejemplo ilustrativo del metodo utilizado para caracterizar las perdidas en la compresion. La imagen original aparece en la parte superior izquierda de esta Figura. Varias imagenes reconstruidas bajo diferentes grados de compresion son ilustradas en la parte superior derecha. Tambien se muestra la curva de verdaderos positivos (VP) y la de falsos positivos (FP) para la deteccion de calci caciones individuales. Finalmente, en la parte inferior, se muestra la razon de falsos positivos y verdaderos positivos (FP/VP) para la secuencia de 99 imagenes con distintos niveles de compresion. Podemos observar que cuando la utilidad para el diagnostico de las imagenes reconstruidas decrece signi cativamente, la razon de falsos positivos y verdaderos positivos muestra un incremento signi cativo. Esto indica que la evaluacion de la razon FP/VP puede ser su ciente para estudios que tienen en cuenta la utilidad en el diagnostico. La Figura 4.25 muestra las gra cas de la razon de falsos positivos y verdaderos positivos para las secuencias de imagenes comprimidas derivadas de las imagenes de mamografas originales numeradas 3, 4, 5, 8, 12 y 14.

4.2.1.1 Utilidad de las medidas desarrolladas para predecir la calidad de imagenes de mamografas comprimidas Ahora mostraremos la utilidad de las medidas desarrolladas para predecir la calidad de una imagen en terminos de su utilidad para diagnostico. Esto sera evaluado haciendo uso del grado de correlacion entre la razon entre falsos positivos y verdaderos positivos (FP/VP) y la medida particular. Cada medida sera aplicada para cuanti car la distorsion de la imagen midiendo la diferencia entre la mamografa original y las imagenes reconstruidas despues de la compresion. El coe ciente de correlacion viene dado por:

P99 (y  )(z  ) corr(y; z) = hP i=1 i Py i z i 1 99 (y  )2 99 (z  )2 2 y z i=1 i i=1 i

(4.4)

donde yi es la medida de distorsion que se este evaluando aplicada entre la imagen original y la imagen reconstruida con factor de calidad i; zi es el valor de la razon FP/VP para la P P 99 99 imagen reconstruida con factor i; y y = i=1 yi =99, z = i=1 zi =99. Los resultados comparativos de las metricas derivadas de los modelos de representacion descritos en el Captulo 3 y las medidas clasicas MAE, RMSE, SNR y PSNR se pueden observar en las Tablas 4.55 4.62. Para cada imagen mamogra ca, el coe ciente de correlacion corr(y; z) entre una medida de distorsion particular y la razon FP/VP se usa para estudiar la e cacia de cada medida para predecir distorsion entre imagenes. Al nal de cada una de las columnas se da la media corr(y; z ) de los coe cientes de correlacion de esa columna. La Tabla 4.55 muestra los coe cientes de correlacion obtenidos por la metrica derivada del modelo unicanal. Las dos primeras columnas muestran los resultados de las metricas globales UE y UC . De nuevo se observan mejores resultados si se utiliza el criterio del contraste para determinar la CSF que mejor se ajusta a cada imagen concreta. Mejora tambien ligeramente si se calcula usando los puntos de interes. log

4.2. Evaluacion de la calidad de imagenes comprimidas

133

Imagenes Comprimidas con Niveles de Calidad qf=1,...,99 Imagen Original

COMPRESION DE LA IMAGEN qf=1 qf=7 qf=99

80

80

N

N 70

70

60

60

50

50

40

40

30

30

20

20

10

10

0

0 1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

Nivel de Calidad

50

60

70

80

90

99

Nivel de Calidad

FALSOS POSITIVOS (FP)

VERDADEROS POSITIVOS (VP)

12

N 10

8

6

4

2

0 1

10

20

30

40

50

60

70

80

90

99

Nivel de Calidad RAZON FALSOS POSITIVOS ENTRE VERDADEROS POSITIVOS (FP/VP)

Figura 4.24: Metodo para caracterizar las perdidas en la compresion: la razon entre los falsos positivos y los verdaderos positivos (FP/VP) para la secuencia de imagenes con factores de calidad de 1 a 99. En cada gra ca N indica el numero de microcalci caciones detectadas.

134

Captulo 4. Aplicaciones

25

16

14 20 12

10

15

8 10

6

4 5 2

0

0 1

10

20

30

40

20

50

(a)

60

70

80

90

99

1

10

20

30

40

1

10

20

30

40

1

10

20

30

40

7

50

60

70

80

90

99

50

60

70

80

90

99

50

60

70

80

90

99

(b)

6

15 5

4 10 3

2 5

1

0

0 1

10

20

30

40

25

50

(c)

60

70

80

90

99

45

(d)

40 20

35

30 15 25

20 10 15

10

5

5

0

0 1

10

20

30

40

50

(e)

60

70

80

90

99

(f)

Figura 4.25: Razon FP/VP para las imagenes de mamografas: (a) 3, (b) 4, (c) 5, (d) 8, (e) 12 y (f) 14, que se muestran en la Figura 4.22.

4.2. Evaluacion de la calidad de imagenes comprimidas

135

corr (Medida ; FP=V P ) Medida Imagen U U UA E E C 1 0.877 0.877 0.867 2 0.892 0.892 0.830 3 0.943 0.966 0.924 4 0.932 0.953 0.925 5 0.858 0.879 0.840 6 0.866 0.899 0.834 7 0.783 0.886 0.787 8 0.767 0.795 0.769 9 0.718 0.759 0.720 10 0.914 0.954 0.926 11 0.856 0.944 0.863 12 0.772 0.787 0.794 13 0.834 0.905 0.857 14 0.833 0.893 0.821 Media 0.846 0.884 0.840

UA C 0.867 0.881 0.954 0.954 0.888 0.910 0.889 0.822 0.778 0.957 0.940 0.816 0.910 0.887

0.891

Tabla 4.55: Valores de la correlacion de las metricas derivadas del modelo unicanal con respecto a la razon F P=V P para las 14 imagenes de mamografas de la Figura 4.22.

Imagen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Media

corr (F; FP=V P )

=1 =2 =3 =4 =5

0.872 0.872 0.970 0.959 0.878 0.913 0.882 0.900 0.806 0.954 0.953 0.822 0.914 0.911

0.867 0.876 0.970 0.959 0.874 0.913 0.885 0.899 0.820 0.956 0.959 0.842 0.926 0.922

0.869 0.877 0.970 0.958 0.871 0.913 0.891 0.900 0.820 0.956 0.960 0.845 0.929 0.921

0.871 0.878 0.971 0.958 0.866 0.912 0.895 0.902 0.820 0.956 0.962 0.848 0.935 0.920

0.872 0.878 0.971 0.958 0.864 0.911 0.898 0.903 0.820 0.957 0.963 0.849 0.937 0.919

0.900 0.905 0.906 0.907 0.907

Tabla 4.56: Valores de correlacion de las medidas F con respecto a la razon F P=V P .

136

Captulo 4. Aplicaciones Imagen 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Media

corr (FA; FP=V P )

=1 =2 =3 0.872 0.883 0.884 0.865 0.863 0.860 0.973 0.972 0.972 0.956 0.952 0.955 0.905 0.900 0.900 0.914 0.905 0.901 0.888 0.893 0.897 0.917 0.915 0.915 0.831 0.850 0.859 0.960 0.959 0.959 0.923 0.923 0.924 0.831 0.869 0.878 0.901 0.915 0.923 0.907 0.920 0.923

=4 =5 0.887 0.858 0.971 0.956 0.899 0.899 0.899 0.914 0.848 0.959 0.925 0.885 0.926 0.925

0.886 0.857 0.971 0.958 0.900 0.897 0.901 0.914 0.845 0.958 0.924 0.886 0.927 0.926

0.903 0.909 0.910 0.911 0.912

Tabla 4.57: Valores de correlacion de la medida FA con respecto a la razon F P=V P

Las Tablas 4.56 y 4.57 muestran los coe cientes de correlacion obtenidos por la metrica derivada del modelo de multiples canales frecuenciales MCF. En ellas se analiza la dependencia de la medida con respecto al parametro de integracion entre canales , en la primera para una metrica global y en la segunda para una metrica atencional. En ambos casos la variacion del valor de la media con respecto a es muy peque~na, llegandose a los valores mas altos para = 4:0 y = 5:0. Si se calculan los puntos de interes de la imagen original y se obtiene la medida de distancia solo para ellos, los valores de la media nal son ligeramente mejores que para una metrica global. Si nos jamos en cada imagen de mamografa concreta, unas veces mejora, otras se mantiene y otras incluso empeora. En general se observa que mejora el resultado el hecho de utilizar multiples ltros frecuenciales (corr = 0:91) con respecto a utilizar un unico ltro (corr = 0:89). Los coe cientes de correlacion para las 14 imagenes de mamografas obtenidos por la metrica derivada del modelo RN se muestran en la Tabla 4.58. En ella solo aparece el resultado si se toma como valor del parametro de integracion entre canales = 5:0. El comportamiento de la media de la correlacion si se vara este parametro puede observarse en la Tabla 4.60. De nuevo la diferencia de resultados variando es muy peque~na si se utiliza una metrica global (0.917 con =1.0 y 0.914 con =5.0). Si se utilizan solo los puntos de interes para calcular la medida de calidad, la media de las 14 imagenes muestra un ligero incremento (0.923 con =1.0 hasta 0.94 con =5.0). Como se puede observar, los resultados mejoran signi cativamente si se calcula la medida utilizando solo los puntos de interes en vez de usar una medida global. Los coe cientes de correlacion para las 14 imagenes de mamografas obtenidos por la metrica derivada del modelo MCBF con = 5:0 se muestran en la Tabla 4.59. Se observan mejores resultados si se calcula la medida de calidad solo sobre los puntos de interes. En este

4.2. Evaluacion de la calidad de imagenes comprimidas

137

corr (Medida ; FP=V P ) Medida Imagen R RA

corr (Medida ; FP=V P ) Medida Imagen L LA

0.914

0.908

1 2 3 4 5 6 7 8 9 10 11 12 13 14 Media

0.879 0.885 0.970 0.958 0.890 0.913 0.931 0.902 0.829 0.953 0.957 0.858 0.939 0.926

0.898 0.902 0.978 0.974 0.971 0.918 0.989 0.924 0.869 0.962 0.971 0.903 0.968 0.937

0.940

Tabla 4.58: Valores de correlacion de las medidas R y RA con = 5:0 con respecto a la razon F P=V P .

corr (Medida ; FP=V P ) Medida Valor de R RA

1 2 3 4 5

0.917 0.916 0.915 0.914 0.914

0.923 0.931 0.936 0.938 0.940

Tabla 4.60: Valores de la media de la correlacion de las medidas R y RA con respecto a la razon F P=V P .

1 2 3 4 5 6 7 8 9 10 11 12 13 14 Media

0.875 0.874 0.971 0.951 0.892 0.898 0.911 0.892 0.839 0.956 0.950 0.856 0.928 0.915

0.896 0.890 0.972 0.971 0.910 0.924 0.920 0.920 0.878 0.972 0.966 0.903 0.945 0.938

0.929

Tabla 4.59: Valores de correlacion de las medidas L y LA con = 5:0 con respecto a la razon F P=V P para las 14 imagenes de mamografas de la Figura 4.22.

corr (Medida ; FP=V P ) Medida Valor de L LA

1 2 3 4 5

0.889 0.897 0.905 0.907 0.908

0.912 0.919 0.925 0.927 0.929

Tabla 4.61: Valores de la media de la correlacion de las medidas L y LA con respecto a la razon F P=V P para las 14 imagenes de mamografas de la Figura 4.22.

138

Captulo 4. Aplicaciones Imagen

1 2 3 4 5 6 7 8 9 10 11 12 13 14 Media

corr (Medida ; FP=V P ) Medida RMSE MAE SNR 0.824 0.829 0.748 0.775 0.792 0.683 0.922 0.929 0.838 0.896 0.908 0.808 0.826 0.850 0.757 0.829 0.837 0.745 0.782 0.794 0.707 0.750 0.774 0.717 0.731 0.740 0.672 0.877 0.882 0.799 0.802 0.821 0.719 0.723 0.737 0.659 0.829 0.843 0.763 0.792 0.808 0.713

log

PSNR 0.767 0.700 0.854 0.821 0.736 0.728 0.677 0.652 0.630 0.782 0.698 0.623 0.727 0.701

0.811 0.824 0.738 0.721

Tabla 4.62: Valores de correlacion de medidas clasicas no perceptuales con respecto a la razon F P=V P para las 14 imagenes de mamografas de la Figura 4.22.

caso la media llega a un valor de 0.93 frente a 0.91 si se utiliza la medida global. La Tabla 4.61 muestra la variacion de la media para distintos valores del parametro . Si la medida es global el valor de la media se incrementa si aumenta el valor de y si se utilizan puntos de interes permanece practicamente constante. Por ultimo, los coe cientes de correlacion obtenidos por las metricas matematicas RMSE, MAE, PSNR y SNR se muestran en la Tabla 4.62. De todas estas medidas clasicas, la que presenta mejores resultados es MAE, para la cual la media de las correlaciones de las 14 imagenes es 0.824. Aun as, las cuatro metricas perceptuales analizadas superan este valor, tanto la metrica derivada del modelo monocanal como las derivadas de los modelos multicanal. De estas ultimas, la que tiene un valor de la media mas alto es la metrica RA . Es interesante destacar que, aunque la metrica UA derivada del modelo monocanal utilizada como medida de calidad de imagenes comprimidas da unos resultados peores que las metricas derivadas de los modelos multicanal analizadas, esta diferencia es relativamente peque~na. Ademas el tiempo de calculo de la medida en este caso es bastante inferior al resto ya que se trata de un modelo mas simple en el que no hay que calcular las respuestas derivadas de cada canal ni las distancias parciales. De este modo la metrica UA podra ser una util alternativa a modelos multicanal mas complejos y costosos computacionalmente. Es interesante comentar tambien que, para las tres metricas perceptuales derivadas de los modelos multicanal de nidos, la media de las correlaciones entre la medida y la razon FP/VP permanece practicamente constante si se vara el paremetro de integracion dentro de cada canal . Las variaciones en este caso son del orden de las milesimas, lo que ha hecho que no consideremos su in uencia en esta aplicacion concreta. log

4.2. Evaluacion de la calidad de imagenes comprimidas

139

Intervalos BCa con un 95 % de confianza

Estadstico corr (MAE ; FP=V P ) corr (RMSE ; FP=V P ) corr (SNR ; FP=V P ) corr (PSNR ; FP=V P ) corr (UA ; FP=V P ) corr (FA; FP=V P ) corr (RA ; FP=V P ) corr (LA ; FP=V P ) log

Intervalo (0.798, 0.856) (0.785, 0.844) (0.714, 0.766) (0.690, 0.758) (0.861, 0.915) (0.893, 0.929) (0.920, 0.958) (0.914, 0.945)

Tabla 4.63: Intervalos de con anza BCa para la media de la correlacion entre las medidas clasicas y perceptuales propuestas y la razon FP/VP.

Al igual que ocurra en la aplicacion de visibilidad de objetos desarrollado en la seccion anterior, ahora nos preguntamos como de precisos son los resultados mostrados en las Tablas anteriores. Para responder a esta cuestion basica hacemos uso de un procedimiento estadstico para medir la precision del valor estimado de la media de los coe cientes de correlacion para cada medida particular. Lo que nos gustara conocer es el valor correcto de corr(y; z ) para cada medida particular, es decir, el valor de la media que tendramos si inspeccionaramos cualquier subconjunto de imagenes mamogra cas a partir de la poblacion, y no solo una muestra de 14 imagenes (Figura 4.22). Usamos, por tanto, muestreo bootstrap para hacer este tipo de inferencias estadsticas [50]. La unica suposicion es que la muestra original X de 14 imagenes mamogra cas dada en la Figura 4.22 es representativa de la poblacion. En ese caso, podemos tratar nuestra muestra X de tama~no 14 como si fuera la poblacion completa. Y as podemos simular el muestreo remuestreando a partir de X , como si muestrearamos a partir de la poblacion total. Dada la muestra original X de tama~no 14, para conseguir una distribucion de muestreo para corr(y; z ) simplemente utilizamos el siguiente procedimiento: Repetir i = 1; 2; : : : ; 1000 veces: Tomar una muestra bootstrap Xi de tama~no 14 a partir de X muestreando con reemplazamiento. Calcular y anotar el valor de corr(y; z ) para Xi . Una vez que se tiene la distribucion de muestreo bootstrap de corr(y; z ), lo importante es generar automaticamente buenos intervalos de con anza para corr(y; z ). La Tabla 4.63 muestra los intervalos de con anza BCa al 95% para el estadstico corr(y; z ). A partir de estos resultados, la teora estadstica nos permite hacer las siguientes inferencias:

 El valor correcto de la media corr(y; z) para la metrica MAE cae en el intervalo (0.798,

0.856) con un 95% de con anza. Esto con rma que esta medida clasica es la que

140

Captulo 4. Aplicaciones Intervalos BCa con un 95% de Confianza

corr(m1; FP=V P ) corr(m2; FP=V P )

UA

FA RA LA m2 m1 UA (0.006, 0.040) (0.034, 0.069) (0.025, 0.057) FA (-0.040, -0.006) (0.015, 0.049) (0.013, 0.024) A R (-0.069, -0.034) (-0.049, -0.015) (-0.024, 0.000) LA (-0.056, -0.025) (-0.024, -0.013) (-0.000, 0.024)

MAE RMSE SNR PSNR

log

(0.052, 0.079) (0.065, 0.093) (0.134, 0.170) (0.146, 0.186)

(0.069, 0.104) (0.081, 0.119) (0.159, 0.188) (0.166, 0.215)

(0.094, 0.136) (0.105, 0.151) (0.182, 0.224) (0.188, 0.244)

(0.084, 0.121) (0.096, 0.136) (0.173, 0.207) (0.180, 0.232)

Tabla 4.64: Intervalos de con anza para la diferencia de las medias de la correlacion entre las distintas medidas.

obtiene mejores resultados con respecto a las otras medidas clasicas comparadas para esta aplicacion concreta.

 El valor correcto de la media de la correlacion corr(y; z) para la metrica UA cae en el

intervalo (0.861, 0.915). Este intervalo es signi vativamente mejor que los obtenidos por las medidas clasicas.

 Los intervalos obtenidos por las metricas derivadas de los modelos multicanal tambien

mejoran los obtenidos por las medidas clasicas. De dichos intervalos podemos concluir a rmaciones como la siguiente: si ejecutaramos un experimento mucho mayor, el valor de corr(y; z ) obtenido por la metrica RA probablemente no sera demasiado diferente del valor 0.94 que fue estimado para el conjunto original de 14 imagenes de mamografas.

 A partir de estos intervalos de con anza, tambien destacamos que la hipotesis corr(y; z) > 0:9 es aceptada al 95% por las metricas RA y LA. Ademas, la hipotesis corr(y; z ) > 0:92 solo es aceptada al 95% por la metrica RA .

La Tabla 4.64 muestra los intervalos de con anza al 95% para la diferencia de las medias. Estos intervalos fueron obtenidos a partir de 1000 replicas bootstrap de las diferencias de las medias para los coe cientes de correlacion. En cada columna se muestran los intervalos de con anza correspondientes a la diferencia entre la media de la metrica que aparece en la parte superior de dicha columna y la media de las demas metricas. Si un intervalo incluye el valor 0, esto quiere decir, en el lenguaje del testeo de hipotesis estadsticas, que se solapan los posibles valores de la media que se podran obtener para ambas metricas, con lo que no se puede establecer claramente cual de las dos es mejor. Si el intervalo es positivo, la media obtenida por la metrica de esa columna siempre es mayor que la metrica de la la, con lo que se puede decir cual de las dos es mejor. Lo mismo ocurre en el caso de que el intervalo sea negativo. En esta Tabla se observa, por tanto, que las cuatro metricas derivadas de los modelos presentados en el Captulo 3 se ha encontrado que son signi cativamente mejores para prededir la calidad de imagenes JPEG comprimidas (en el sentido de utilidad para diagnostico) que las

4.2. Evaluacion de la calidad de imagenes comprimidas Imagen Original

qf=10

141

IMAGENES COMPRIMIDAS

qf=80

qf=20

qf=5

qf=1

Figura 4.26: Secuencia de imagenes comprimidas con niveles de calidad qf =80, 20, 10, 5 y 1 para la imagen original que se muestra en la parte superior izquierda.

medidas MAE, RMSE, SNRlog y PSNR. Por otro lado, la medida RA se ha encontrado que es mejor que el resto de medidas desarrolladas para predecir la calidad de imagenes JPEG comprimidas.

4.2.2 Calidad de imagenes comprimidas utilizando otras imagenes Hemos considerado dos nuevas imagenes de prueba. Estas imagenes se muestran en las Figuras 4.26 y 4.27 bajo el ttulo de \imagen original". Ambas son tpicas en la literatura del procesamiento de imagenes. La principal caracterstica de la primera (Goldhill) es la carencia de grandes areas uniformes lo que la hace ser una imagen bastante realista. La segunda es la imagen de Lena, que tiene numerosos detalles tal y como es de esperar que se encuentren en una imagen fotogra ca. Ambas imagenes han sido comprimidas usando el algoritmo de compresion JPEG con niveles de calidad qf = 1; : : : ; 99. La imagen Goldhill comprimida bajo distintos niveles de compresion se muestra en la Figura 4.26. Las imagenes aparecen de mayor a menor nivel de compresion, con factores de calidad qf =80, 20, 10, 5 y 1 respectivamente. Del mismo modo, la Figura 4.27 muestra la imagen Lena comprimida bajo diferentes niveles de compresion. Consideremos en primer lugar la imagen de prueba Goldhill. Para ella, las Figuras 4.28 y 4.29 muestran las gra cas de los valores de distorsion entre la imagen original y cada una de las imagenes comprimidas de la secuencia, la primera para las medidas clasicas RMSE y

142

Captulo 4. Aplicaciones

Imagen Original

IMAGENES COMPRIMIDAS

qf=10

qf=80

qf=20

qf=5

qf=1

Figura 4.27: Secuencia de imagenes comprimidas con niveles de calidad qf =80, 20, 10, 5 y 1, para la imagen original que se muestra en la parte superior izquierda.

20

0.05

18 0.045 16 0.04

14 12

0.035 10 0.03 8 6

0.025

4 0.02 2 0

0.015 1

10

20

30

40

50

(a)

60

70

80

90

99

1

10

20

30

40

50

(b)

60

70

80

90

99

Figura 4.28: Representacion de los niveles de distorsion entre la imagen original que se muestra en la Figura 4.26 y la imagen comprimida a distintos grados de compresion. En (a) se muestran los resultados de la medida RMSE y en (b) para la medida PSNR.

4.2. Evaluacion de la calidad de imagenes comprimidas

7

143

9

8 6 7 5 6 4

5

4

3

3 2 2 1 1

0

0 1

10

20

30

40

50

60

70

80

90

99

0.8

1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

50

60

70

80

90

99

0.7

0.7

0.6

0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2 0.2

0.1

0.1

0

0 1

10

20

30

40

50

60

70

80

90

99

6

12

5

10

4

8

3

6

2

4

1

2

0

0 1

10

20

30

40

50

60

70

80

90

99

1.6

0.018

1.4

0.016

0.014 1.2 0.012 1 0.01 0.8 0.008 0.6 0.006 0.4 0.004 0.2

0.002

0

0 1

10

20

30

40

50

60

70

80

90

99

Figura 4.29: Representacion de la distancia entre la imagen original de la Figura 4.26 y la imagen comprimida a distintos grados de compresion. En la columna de la izquierda se muestran los resultados obtenidos por las metricas globales U, F, R, L y en la columna de la derecha para las mismas metricas pero utilizando puntos de interes.

144

Captulo 4. Aplicaciones Nivel de Calidad 80 20 10 5 1

UA 0.296 1.524 2.801 4.800 8.017

FA 0.271 1.543 2.865 5.593 8.459

Medida RA LA RMSE 0.226 0.620 5.1927 0.992 3.300 9.9373 1.664 6.004 12.209 2.863 11.195 15.5263 8.517 17.194 19.7281

PSNR 0.0309 0.0374 0.0401 0.0437 0.0481

Tabla 4.65: Valores de distorsion obtenidos por las metricas UA , FA, RA , LA y las medidas clasicas RMSE y PSNR para la imagen Goldhill comprimida bajo distintos niveles de compresion.

PSNR y la segunda para las medidas derivadas de los modelos de representacion propuestos. Se puede observar que para factores de calidad altos (mayores de 70), si se disminuye el nivel de calidad, todas las medidas tienen un comportamiento creciente (hay mas distorsion cuanto mayor es el nivel de calidad), pero este crecimiento es distinto en cada una de ellas. Aqu se puede apreciar una primera diferencia entre las medidas clasicas y las perceptuales propuestas. Mientras que las medidas propuestas presentan un crecimiento muy suave, ambas medidas clasicas muestran un crecimiento mas pronunciado, mayor incluso para PSNR que para RMSE. Esto implicara una diferencia alta entre la imagen comprimida con un factor de calidad de 80 y la imagen original, algo que no es cierto como se puede observar en la Figura 4.26. Para factores de calidad medios, todas las medidas tienen un crecimiento suave, como es de esperar, ya que las diferencias que existen entre esas imagenes y la original no son claramente distinguibles a simple vista. La segunda diferencia importante la podemos ver para factores de calidad bajos. La diferencia visual entre la imagen original y las imagenes comprimidas se va haciendo mas evidente al disminuir el factor. Ademas, basta con un peque~no decremento de dicho factor para percibir diferencias visuales claras. Esto se debe a que el efecto de bloques afecta a zonas diferentes de la imagen cuando variamos el factor de calidad. Este hecho se ve re ejado en las metricas propuestas, que tienen un crecimiento mucho mas acelerado que RMSE y que PSNR. En la Tabla 4.65 aparecen los valores de distorsion concretos que obtienen las metricas UA , FA, RA, LA , RMSE y PSNR para las imagenes comprimidas de la Figura 4.26. Aqu se puede observar la diferencia de la calidad estimada por las medidas y compararlas con como percibimos esa diferencia. En primer lugar, si comparamos visualmente las imagenes con factor de calidad 20 y 80 (Figura 4.26) respecto de la original comprobaremos que la diferencia es mnima. La medida LA tiene un incremento de 3.68 mientras que RMSE tiene un incremento de 4.73, que normalizadas frente al maximo obtenido por cada una de las medidas resultan en 0.16 y 0.25 respectivamente. Si ahora hacemos lo mismo con las imagenes de factores de calidad 5 y 10 tendremos que el incremento para LA es de 5.0 y el incremento para RMSE es de 3.31, que normalizados resultan en 0.3 y 0.17 respectivamente. RMSE mantiene que el incremento en la diferencia de esas imagenes es signi cativamente menor que el que haba entre la pareja anterior mientras que la metrica LA indica justo lo contrario. Si observamos las imagenes concluimos que las medidas desarrolladas (el comportamiento del resto es similar al descrito para LA ) suponen una mejora frente a las medidas clasicas, ya que claramente la diferencia perceptual entre las imagenes con niveles 5 y 10 es mayor que la

4.2. Evaluacion de la calidad de imagenes comprimidas 20

145

0.05

18 0.045 16 0.04

14 12

0.035 10 0.03 8 6

0.025

4 0.02 2 0

0.015 1

10

20

30

40

50

(a)

60

70

80

90

99

1

10

20

30

40

50

(b)

60

70

80

90

99

Figura 4.30: Representacion de los niveles de distorsion entre la imagen original que se muestra en la Figura 4.27 y la imagen comprimida a distintos grados de compresion. En (a) se muestran los resultados de la medida RMSE y en (b) para la medida PSNR.

diferencia entre las imagenes con niveles 20 y 80. Consideremos ahora la imagen de prueba Lena. A pesar de tratarse de una imagen con caractersticas diferentes a la anterior, los resultados obtenidos para ella son muy similares. La Figura 4.30 representa los niveles de distorsion entre la imagen original y la secuencia se 99 imagenes comprimidas en dos gra cas, la primera para la medida RMSE y la segunda para la medida PSNR. De nuevo, si observamos las gra cas de mayor a menor nivel de calidad, existe un brusco crecimiento de la medida de distorsion para niveles de calidad altos, luego un crecimiento mas suave y posteriormente otro crecimento signi cativo. Para las medidas desarrolladas en esta memoria, cuyas gra cas se muestran en la Figura 4.31, el crecimento es suave para niveles de calidad altos y luego hay un crecimiento mas acelerado para niveles de calidad bajos, lo que esta mas en consonancia con la calidad percibida visualmente en las imagenes comprimidas con respecto a la original. La Tabla 4.66 muestra los valores de distorsion que obtienen las metricas clasicas RMSE y PSNR y las metricas desarrolladas en el captulo anterior para las imagenes comprimidas de la Figura 4.27. De nuevo se puede observar que las medidas clasicas estiman una diferencia visual mayor para las imagenes con niveles de compresion 20 y 80 y una menor para las imagenes con niveles 10 y 5, mientras que las medidas que proponemos estiman lo contrario. Por tanto, estas medidas suponen una mejora con respecto a las medidas clasicas normalmente utilizadas en el calculo de la calidad de imagenes comprimidas utilizando el algoritmo JPEG.

4.2.3 Calidad de imagenes usando otros metodos de compresion El objetivo de este apartado es evaluar si las metricas perceptuales desarrolladas son adecuadas tambien para predecir la calidad de imagenes comprimidas utilizando algoritmos de compresion distintos del JPEG. Dada la abundante literatura en metodos de codi cacion de imagenes, con esta comparacion no pretendemos ofrecer una vision de los principales ni mas actuales metodos, sino solo mostrar la utilidad de las metricas para otros metodos. Para ello hemos considerado los siguientes: EPWIC (Embedded predictive wavelet image coding ). La codi cacion predictiva de

146

Captulo 4. Aplicaciones

3.5

4.5

4 3 3.5 2.5 3 2

2.5

2

1.5

1.5 1 1 0.5 0.5

0

0 1

10

20

30

40

50

60

70

80

90

99

1

0.9

0.9

0.8

0.8

1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

50

60

70

80

90

99

1

10

20

30

40

50

60

70

80

90

99

0.7

0.7 0.6 0.6 0.5 0.5 0.4 0.4 0.3 0.3 0.2

0.2

0.1

0.1 0

0 1

10

20

30

40

50

60

70

80

90

99

8

14

7

12

6 10 5 8 4 6 3 4 2

2

1

0

0 1

10

20

30

40

50

60

70

80

90

99

1.4

0.016

0.014

1.2

0.012 1 0.01 0.8 0.008 0.6 0.006 0.4 0.004

0.2

0.002

0

0 1

10

20

30

40

50

60

70

80

90

99

Figura 4.31: Representacion de la distancia entre la imagen original de la Figura 4.27 y la imagen comprimida a distintos grados de compresion. En la columna de la izquierda se muestran los resultados obtenidos por las metricas globales U, F, R, L y en la columna de la derecha para las mismas metricas pero utilizando puntos de interes.

4.2. Evaluacion de la calidad de imagenes comprimidas Nivel de Calidad 80 20 10 5 1

UA 0.234 0.849 1.409 2.716 4.226

147

Medida FA RA LA RMSE PSNR 0.310 0.391 0.424 3.785 0.0279 1.907 2.086 2.100 8.123 0.0342 3.551 3.881 3.926 10.508 0.0370 6.849 6.893 7.780 14.162 0.0410 11.559 11.393 15.060 19.032 0.0458

Tabla 4.66: Valores de distorsion obtenidos por las metricas UA , FA, RA , LA y las medidas clasicas RMSE y PSNR para la imagen Lena comprimida bajo distintos niveles de compresion.

imagenes con wavelets [21] usa un modelo explcito de las relaciones estadsticas condicionales entre los coe cientes en las diferentes subbandas wavelet. Los coe cientes subbanda son codi cados con un plano de bits cada vez, usando un codi cador aritmetico no-adaptativo que utiliza probabilidades condicionales calculadas a partir del modelo. Toma ventaja de las estadisticas conjuntas entre las subbandas wavelet a escalas y orientaciones adyacentes. El codi cador esta basado en una descomposicion wavelet ortonormal separable que usa ltros simetricos dise~nados en [160]. Las descomposiciones wavelet ortonormales han demostrado ser sumamente efectivas para la compresion de imagenes. BTPC (Binary tree predictive coding ). La codi cacion predictiva con arboles binarios [142] usa un indicador no-causal con adaptacion a la forma para descomponer una imagen en un arbol binario de prediccion de errores. La velocidad de compresion es comparable con el JPEG para imagenes fotogra cas, con el GIF para imagenes de gra cos, y superior a muchas de las tecnicas mas modernas para imagenes compuestas. SPIHT (Set partitioning in hierarquical trees ). Se trata de un algoritmo que funciona mediante particionamiento en arboles jerarquicos [155]. Este algoritmo usa los principios de ordenacion parcial por magnitud de los coe cientes, particionamiento por la importancia de dichas magnitudes con respecto a una secuencia de umbrales decrecientes en octavas, transmision ordenada de bits, y similaridad a traves de escalas en una transformacion wavelet de imagenes. Los resultados de este algoritmo de codi cacion y su velocidad de ejecucion lo convierten en un serio candidato para ser estandarizado en sistemas futuros de compresion de imagenes. En este experimento hemos utilizado una mamografa digitalizada seleccionada de la base de datos Nijmegen. Se trata de la imagen numero 9 que se mostraba en la Figura 4.22. Esta imagen de test ha sido codi cada a varios niveles de compresion utilizando los tres metodos de codi cacion. Las comparaciones por perdida en la compresion han sido realizadas estableciendo que todos los codi cadores consigan similar ganancia de informacion entre la imagen original y la imagen reconstruida bajo el mas alto grado de perdida por compresion usando el codi cador. La Figura 4.67(a) ilustra una gra ca de la razon entre falsos positivos y verdaderos positivos (FP/VP) para la deteccion de microcalci caciones en imagenes reconstruidas bajo varios grados de compresion con perdidas usando BTPC. Para determinar la razon de deteccion entre

148

Captulo 4. Aplicaciones BTPC

0.4

FP/VP 0.35

0.3

0.25

0.2

0.15

0.1

0.05

0 q(8)

q(12)

q(16)

q(20)

q(24)

q(28)

q(32)

q(36)

q(40)

q(44)

q(49)

(a)

EPWIC

0.16

FP/VP 0.14

0.12

0.1

0.08

0.06

0.04

0.02

0 q(40)

q(45)

q(50)

q(55)

q(60)

q(65)

q(70)

q(75)

q(80)

q(85)

q(90)

q(95)

q(99)

(b)

SPIHT

0.8

FP/VP 0.7

0.6

0.5

0.4

0.3

0.2

0.1

0 q(40)

q(45)

q(50)

q(55)

q(60)

q(65)

q(70)

q(75)

q(80)

q(85)

q(90)

q(95)

q(99)

(c) Tabla 4.67: Razon entre falsos positivos y verdaderos positivos (FP/VP) para la imagen mamogra ca 9 comprimida bajo distintos niveles utilizando los metodos de compresion (a) BTPC, (b) EPWIC y (c) SPIHT.

4.2. Evaluacion de la calidad de imagenes comprimidas

Medida U F R L UA FA RA LA RMSE MAE SNR PSNR log

149

corr(medida,FP/VP) Metodo de Compresion BTPC EPWIC SPIHT 0.751 0.893 0.772 0.758 0.889 0.811 0.765 0.894 0.803 0.821 0.885 0.848 0.760 0.902 0.797 0.788 0.885 0.846 0.824 0.907 0.869 0.846 0.896 0.873 0.338 0.851 0.494 0.347 0.844 0.467 0.561 0.842 0.419 0.350 0.837 0.392

Tabla 4.68: Valores de correlacion de las medidas perceptuales desarrolladas y medidas clasicas con respecto a la razon FP/VP obtenida para la imagen mamogra ca numero 9 de la Figura 4.22.

falsos positivos y verdaderos positivos, las imagenes reconstruidas despues de la compresion fueron revisadas para detectar las microcalci caciones individuales. Este metodo puede ser utilizado para caracterizar las perdidas por compresion usando imagenes decodi cadas, como ya se indico en el apartado 4.2.1. Ya que se considera la utilidad en el diagnostico en vez de la apariencia general o simplemente los patrones de lneas o bordes, este metodo relaciona la precision en el diagnostico con el nivel de compresion. De hecho, cuando la utilidad en el diagnostico de las imagenes reconstruidas decrece signi cativamente, la razon entre falsos positivos y verdaderos positivos muestra un incremento signi cativo. Las Figuras 4.67(b) y 4.67(c) ilustran el mismo analisis para los metodos EPWIC y SPIHT respectivamente. La Tabla 4.68 muestra los valores de correlacion obtenidos por las medidas desarrolladas y por las medidas clasicas con respecto a la razon FP/VP para la imagen mamogra ca. En la primera columna aparecen los resultados para el metodo de compresion BTPC. En este caso la correlacion de las medidas clasicas con respecto a la razon FP/VP es muy baja. La que obtiene mejor resultado es SNRlog que llega a un valor de 0.56. La correlacion obtenida por las metricas desarrolladas superan este valor. La maxima correlacion (0.846) la produce la metrica LA . La segunda columna de la Tabla 4.68 muestra los valores de correlacion utilizando el metodo de compresion EPWIC. En este caso las medidas clasicas obtienen unos valores de correlacion bastante altos. La mejor en este caso es RMSE (corr(RMSE,FP/VP)=0.85). Los valores de correlacion de las metricas que proponemos superan este valor y el maximo (0.907) se obtiene para la metrica RA . Por ultimo, la tercera columna muestra la correlacion si utilizamos el metodo de compresion SPIHT. De nuevo las medidas clasicas muestran una pobre correlacion con la razon FP/VP. En este caso la mejor vuelve a ser RMSE, que llega a una correlacion de 0.494. Todas las metricas propuestas dan mejores valores, siendo el maximo valor de correlacion 0.873, obtenido por la metrica LA .

150

Captulo 4. Aplicaciones

Los resultados anteriores muestran que las metricas de distorsion propuestas en esta memoria pueden ser utilizadas como medidas de calidad de imagenes comprimidas utilizando distintos algoritmos de compresion. Todas ellas superan los resultados obtenidos por medidas clasicas. Al igual que en todos los experimentos realizados en este captulo, el uso de puntos de interes en el calculo de una medida hace que esta tenga mejor correlacion con respecto a resultados objetivos. En este caso, al igual que en experimentos anteriores, las metricas RA y LA proporcionan los mejores resultados.

Conclusiones y Lneas Futuras Conclusiones Esta memoria ha mostrado distintos modelos de representacion de imagenes. Aunque los modelos propuestos no han sido desarrollados como modelos detallados de la vision humana, distintos aspectos de cada uno de ellos estan en concordancia con evidencias biologicas. En primer lugar se ha desarrollado un modelo monocanal simple que tiene en cuenta aspectos de la sensibilidad a patrones del SVH, en concreto utiliza una funcion de sensibilidad al contraste y enmascaramiento visual debido al contraste. Lo que aporta este modelo sobre otros ya existentes es la seleccion de una funcion de sensibilidad que se calcula de forma adaptativa dependiendo de la imagen de entrada. Y esto se consigue de una forma simple mediante un criterio de maximizacion del contraste de la imagen. La incorporacion de las caractersticas mencionadas anteriormente hacen que este modelo se asemeje en su comportamiento a modelos mas complejos para ciertas aplicaciones. Sin embargo, uno de los aspectos mas importantes de la vision es su estructura multicanal [17, 25, 113], segun lo cual la informacion es analizada por canales de diferentes orientaciones y escalas. Cada unidad responde solo sobre una region peque~na y local del espacio frecuencial 2D [37]. El resto de modelos desarrollados en esta memoria tienen en cuenta esta caracterstica. El segundo modelo propuesto incorpora un metodo para realizar la particion multicanal conducido en su totalidad por los datos de entrada. Esta particion divide el plano frecuencial de una imagen en un conjunto de sensores, pero para su representacion solo utilizamos un subconjunto de ellos, aquellos que tienen una fuerte respuesta a las estructuras signi cativas de la misma. Este modelo utiliza ltros ideales para conseguir la respuesta relativa a cada canal. Ademas, incorpora aspectos del enmascaramiento visual, pero solo el que se produce dentro de cada canal frecuencial. Esta representacion es e ciente ya que usa un mnimo numero de sensores activos para codi car la informacion de la imagen. El tercer modelo re na la modelizacion de la respuesta de cada canal. Esta modelizacion se hace utilizando funciones Gabor, las cuales dan un buen ajuste al comportamiento del campo receptivo de las celulas simples del cortex primario de los mamferos [32, 33]. En este caso, el dise~no multicanal pasa por la seleccion de un conjunto de ltros Gabor. Se escogen aquellos cuya frecuencia espacial y orientacion central corresponden con las de los sensores activos derivados de una particion multicanal. Lo mas interesante de este modelo es que incorpora una nueva medida, denominada redundancia normalizada, que calcula la escala mas apropiada para describir las estructuras que corresponden a cada uno de los ltros Gabor seleccionados en la representacion de la imagen. Al igual que el modelo anterior, este 151

152

Conclusiones y Lneas Futuras

tambien tiene en cuenta el enmascaramiento visual que se produce dentro de cada canal. De este modo se consigue una representacion poco densa, ya que, aunque para todas las imagenes se usan todos los posibles ltros Gabor, cada una en particular es representada unicamente con un peque~no numero de ellos. Por ultimo, un cuarto modelo implementa un dise~no multicanal que se basa en un banco de ltros log Gabor. En este caso el dise~no del banco de ltros se hace de tal modo que cubra el plano frecuencial uniformemente. Se escogen cinco bandas de frecuencia y 12 orientaciones, lo que da lugar a un banco con sesenta ltros log Gabor. Cada imagen estara representada solo por aquellos que sean sensibles a patrones de dicha imagen. Este modelo tiene en cuenta, al igual que los anteriores, el enmascaramiento visual debido al contraste que se produce dentro de cada canal. Pero tambien considera la normalizacion de las respuestas de los ltros y con eso el enmascaramiento que se produce entre canales. Se ha incorporado la atencion visual a todos estos modelos de representacion. Esto mejora cuantitativamente el posterior procesamiento que se hace con una imagen. Esta memoria ha mostrado tambien la de nicion de distintas metricas de distorsion entre dos imagenes derivadas de cada uno de los modelos anteriores. En base al primer modelo se construye una metrica basica que solo incorpora un ltrado simple. Esta metrica utiliza una suma de Minkowski para calcular la diferencia entre ambas imagenes. Las metricas derivadas de los modelos multicanal utilizan suma de errores para resumir la diferencia entre cada pareja de componentes (de ambas imagenes) y posteriormente se recogen todas esas distancias en un unico valor sumando todas ellas. Esta suma se ha realizado usando una metrica de Minkowski o ponderando cada distancia parcial por un peso. Por ultimo, esta memoria ofrece resultados comparativos de los modelos aplicados a diferentes problematicas:

 En primer lugar han sido utilizados para la detectabilidad de objetos en escenas natu-

rales. Los modelos son parametrizados en este marco mediante un exhaustivo testeo y validacion. Todas las metricas han demostrado comportarse de forma consistente con respecto a juicios realizados por observadores humanos.  En segundo lugar se han aplicado a la prediccion de la calidad de imagenes comprimidas. Se han utilizado imagenes de mamografas, sobre las que se ha dise~nado un criterio de calidad relacionado con la utilidad de las imagenes en diagnostico. Se ha demostrado que las metricas se comportan de forma consistente con respecto a ese criterio objetivo de calidad. Los resultados son generalizables a distintos metodos de compresion de imagenes. Como conclusiones de los resultados que esta memoria ha presentado se~nalamos que en un dise~no multicanal es mas importante modelizar bien los canales que el hecho de hacer la particion multicanal en s. De hecho, se ha comprobado que en detectabilidad de objetos, un modelo unicanal como el desarrollado en esta memoria supera un modelo multicanal en el que cada canal se modeliza de forma simple usando ltros paso-banda, con respecto a la correlacion con resultados obtenidos por observadores humanos. En cambio, si se modeliza cada canal con ltros Gabor o log Gabor, un modelo multicanal supera a uno monocanal. Como conclusion, un sistema multicanal con ltros selectivos a frecuencias radiales y orientaciones, como los modelos RN o MCBF desarrollados en esta memoria, es necesario cara a optimizar la

153 correlacion con la percepcion humana de objetos en imagenes digitales. La misma conclusion se obtiene si el objetivo es la valoracion de la calidad de imagenes comprimidas. Con respecto al dise~no de una medida de distorsion, se comentaba en el captulo 1 que no existe un consenso sobre el parametro de integracion espacial y frecuencial a utilizar en la suma de Minkowski. Como conclusion de todos los experimentos realizados, se ha encontrado que un parametro de integracion entre 3 y 4 para la suma espacial y un valor mas alto, entre 4 y 5, para la frecuencial son valores adecuados en la obtencion de una medida que represente la distorsion existente entre dos imagenes. Por otro lado, el uso de pesos para ponderar la distancia parcial entre canales en un modelo multicanal no se ha encontrado que sea positivo para hacer la integracion de la informacion excepto en la metrica derivada del modelo MCBF. Con respecto al enmascaramiento, concluimos que tener en cuenta el efecto de enmascaramiento que se produce tanto dentro de cada canal en un dise~no multicanal como entre los canales es conveniente en la de nicion de un modelo de representacion. Los resultados demuestran que aunque el modelo de un solo canal no predice los detalles del enmascarameinto debido al contraste orientado, segun los resultados de Foley [66], puede ser una util alternativa a modelos mas complicados. Considerar enmascaramiento debido al contraste dentro de cada canal y entre canales en un modelo multicanal, como en el modelo MCBF desarrollado, hace que este sea mas completo y mas consistente en los resultados que se derivan de el en las aplicaciones consideradas. Sobre la utilizacion de una seleccion de puntos de la imagen sobre los que calcular la medida de distorsion, aquellos que denominamos puntos de interes, concluimos que esto siempre supone una mejora de la correlacion de las medidas obtenidas y medidas objetivas con respecto a calcular dichas medidas sobre todos los puntos de la imagen. Resumiendo, en esta tesis se han desarrollado: (i) un conjunto modelos de representacion de imagenes digitales de niveles de gris inspirados en algunas de las propiedades del SVH y (ii) medidas de distorsion perceptual, a partir de los modelos de representacion propuestos, que correlan bien con observaciones hechas por humanos. Se ha demostrado que estas medidas mejoran los resultados que obtienen algunas de las medidas clasicas mas utilizadas hasta el momento.

Lneas futuras de investigacion Como consecuencia de la investigacion realizada quedan abiertas distintas lneas de investigacion. Las mas relevantes se citan a continuacion:

 Algunas extensiones y mejoras en el modelo RN son: (i) Realizar la correlacion para

calcular la medida de redundancia normalizada solo sobre los puntos de interes. (ii) Variar el calculo de la escala para que la funcion Gabor no tenga una forma isotropica.

 Estudiar la posibilidad de representar imagenes en movimiento. En el caso de los mo-

delos que incorporan una funcion de sensibilidad, habra que extender esta al dominio temporal. Los modelos en los se modeliza cada canal con una funcion Gabor o log Gabor, habra que extender estas funciones a tres dimensiones (espacio, tiempo y frecuencia).

 Extension de los modelos para la representacion de imagenes en color.

154

Conclusiones y Lneas Futuras

 Desarrollo de metodos de compresion de imagenes basados en modelos de representacion

de imagenes como los aqu desarrollados.  Extender el uso de los modelos de representacion aqu desarrollados a la resolucion de otras problematicas en el ambito del procesamiento de imagenes digitales, tales como deteccion de aristas, puesta en correspondencia de imagenes estereo, caracterizacion de formas, discriminacion de texturas, realce de imagenes y eliminacion de ruido, etc.  Extender el uso de las medidas de distorsion aqu desarrolladas a otras problematicas: { Explicar y predecir los efectos del ruido en la detectabilidad de objetos. Se tratara de medir la habilidad de nuestros modelos para predecir la visibilidad de objetos sobre una imagen de fondo ja, a la que le a~naden distintas mascaras de ruido. { Utilizar las medidas de distorsion para predecir la legibilidad de textos visualizados en un monitor. Esto es de interes practico por la gran cantidad de textos de este tipo que se pueden encontrar, sobre todo en Internet. { Detectabilidad de objetos en imagenes medicas. Por ejemplo, un diagnostico medico puede depender de la identi cacion de estructuras en imagenes de rayos X. { Aplicar las medidas de distorsion a imagenes en color. { Aplicar las medidas a secuencias de imagenes, por ejemplo para: Detectabilidad de objetos en imagenes infrarrojo o en vigilancia. En vigilancia es importante detectar algo que no debera estar presente o discriminar que algo falta. Testear los sistemas de transmision de video digital. La medida tendra que tener en cuenta la distorsion de la compresion y los errores de transmision. { Restauracion de imagenes o secuencias de imagenes.

Apendice A

Principios Basicos de la Teora de Gabor Durante las ultimas dos decadas, tanto investigadores en percepcion como neuro siologos de vision han debatido si la caracterstica fundamental de la representacion visual involucra la deteccion de rasgos en el dominio espacial o mas bien se realiza una descripcion frecuencial. Gabor [69] noto que la teora de la comunicacion estaba basada sobre dos versiones distintas en el analisis de una se~nal: un metodo describe la se~nal como una funcion del tiempo, el otro en terminos de su frecuencia. Gabor auno estas dos teoras, dando una relacion de la incertidumbre de la informacion. La teora de Gabor considera una nueva representacion para el procesado de la informacion que tiene en cuenta conjuntamente los dominios temporal y frecuencial. La representacion en el dominio temporal de ne la amplitud de una se~nal en cada instante de tiempo, mientras que la representacion en el dominio frecuencial usa sinusoidales de longitud in nita, de nidas solamente por su frecuencia, amplitud y fase. Existen idealizaciones en el sentido de que la representacion frecuencial asume una se~nal in nita en el dominio temporal, teniendo en cuenta que la frecuencia de una se~nal de tiempo nito no puede ser determinada exactamente. De forma similar, en un instante de tiempo, una se~nal tiene un espectro frecuencial conteniendo todas las frecuencias uniformemente distribuidas. Usando el mismo principio matematico que Heisenberg uso para deducir su principio de indeterminacion, Gabor determino la siguiente relacion de incertidumbre: tf  21

(A.1)

donde t es la incertidumbre de la localizacion de la se~nal en el dominio temporal y f es la incertidumbre de la frecuencia de la se~nal. Gabor concreto en primer lugar que no es posible de nir exactamente la duracion de una se~nal en el dominio temporal con la misma precision que en el dominio frecuencial de la se~nal y en segundo lugar que el producto de la indeterminacion en ambos dominios debe ser mayor que una constante. Una de las implicaciones de esto es que si una se~nal esta de nida sobre un unico instante en el tiempo (t = 0) entonces estara completamente inde nida en el 155

156

Captulo A. Principios Basicos de la Teora de Gabor

dominio frecuencial (f = 1). Inversamente si una se~nal esta perfectamente de nida en el dominio frecuencial (f = 0) entonces estara totalmente inde nida en el dominio del tiempo (t = 1). Gabor encontro una familia de funciones que consigue la igualdad en la desigualdad anterior:

g(t) = exp

!

(t t0 )2 + iwt

2

(A.2)

Esta funcion es el producto modulado de una onda seno de una frecuencia arbitraria w y una Gaussiana de duracion arbitraria que surge en el instante t0 .

Apendice B

Consideraciones Adicionales al Modelo Unicanal UC Funcion de sensibilidad ja A continuacion se justi ca el hecho de hacer variable la funcion de sensibilidad al contraste dependiendo de la imagen de entrada en vez de utilizar una concreta para todas las imagenes en el modelo unicanal de nido en la seccion 3.1. Se han realizado pruebas con un modelo unicanal que utiliza una funcion de sensibilidad como la mostrada en la ecuacion 2.4. La medida de distorsion derivada de este modelo ha sido utilizada para calcular la detectabilidad visual de objetos en una escena. Para ello se ha empleado la base de imagenes de nida en las Figuras 4.2 4.5. La experimentacion realizada es igual que la descrita en el apartado 4.1.3. En este caso, si utilizamos un total de 50 conjuntos de 10 imagenes tomados de forma aleatoria a partir de las escenas que forman parte de la base de imagenes, la media de la funcion de evaluacion PCC obtenida con la metrica es de 0:59 y su varianza de 0:0223. Estos resultados son peores que los obtenidos para una metrica que ajusta la funcion de sensibilidad a la imagen. Para realizar una comparacion mejor con los datos que se mostraban en el Captulo 4, las Tablas B.1 y B.2 muestran el comportamiento de la medida en caso de tener un numero distinto de conjuntos de 10 imagenes y distinto numero de imagenes por conjunto respectivamente. En ambos casos se con rma el resultado anterior. En la Tabla B.3 aparecen los valores de PCC obtenidos para conjuntos de distinto tama~no escogidos sobre la base de 36 imagenes. Estos datos se muestran en la segunda columna y en la tercera aparecen los intervalos de con anza BCa al 95%. Estos resultados justi can el uso de una funcion de sensibilidad adaptativa.

In uencia del enmascaramiento El hecho de incorporar enmascaramiento en un modelo de representacion hace que la metrica de distorsion que se de ne a partir de ese modelo se ajuste mejor a resultados experimentales obtenidos con observadores humanos. En este caso se muestra en la Tabla B.4 la media y varianza de la funcion de evaluacion PCC para un total de 50 conjuntos de 10 imagenes calculada por una metrica que no incluye 157

158 Numero de Imagenes 10 15 20 25 30

Captulo B. Consideraciones Adicionales al Modelo Unicanal UC CSF Fija Media fPCC g Var fPCC g 0.64 0.0139 0.60 0.0095 0.62 0.0063 0.63 0.0030 0.67 0.0022

Numero de CSF Fija Conjuntos Media fPCC g Var fPCC g 30 0.67 0.0165 50 0.64 0.0163 100 0.65 0.0164 200 0.63 0.0206 500 0.64 0.0194

Tabla B.1: Media y varianza de la funcion de evaluacion PCC obtenidas por una metrica derivada del modelo UC usando una CSF ja, variando el numero de imagenes por conjunto.

Muestra Original M1 M2 M3 M4 M5 M6

Tabla B.2: Media y varianza de la funcion de evaluacion PCC obtenidas por una metrica derivada del modelo UC usando una CSF ja, variando el numero de imagenes por conjunto.

CSF Fija

Metrica U1;E U1;C U2;E U2;C U3;E U3;C

PCC Intervalo BCa 95% 0.50 0.53 0.50 0.68 0.63 0.64

(0.33 , 0.67) (0.20 , 0.73) (0.25 , 0.65) (0.44 , 0.84) (0.47 , 0.77) (0.44 , 0.78)

Media fPCC g Var fPCC g 0.67 0.0112 0.67 0.0174 0.66 0.0159 0.44 0.0114 0.55 0.0135 0.61 0.0155

Tabla B.4: Media y varianza de la medida PCC para un conjunto de 50 bases de 10 imagenes cada una. Las metricas se derivan del modelo unicanal sin utilizar enmascaramiento.

Tabla B.3: Valores de la funcion PCC e intervalos de con anza BCa obtenidos por la metrica unicanal dejando ja la CSF para las muestras descritas en la Figura 4.15.

enmascaramiento en su de nicion. Los mismos datos calculados por la metrica que s utiliza enmascaramiento se presentaron en la Tabla 4.7. De nuevo se muestran los resultados para las distintas formas de ajustar la funcion de sensibilidad, y en todas ellas se puede observar que mejora el resultado nal el hecho de introducir enmascaramiento. Estos resultados son generalizables a cualquiera de los modelos descritos.

Dependencia de la orientacion Incorporamos un parametro de orientacion a la funcion de sensibilidad al contraste. En [156] se muestra que es posible dividir la funcion de sensibilidad en el producto de una funcion que depende de la frecuencia espacial y otra funcion que depende de la orientacion.

H (; ) = Hr ()Ha ()

(B.1)

donde Hr () es una funcion que depende de la frecuencia espacial y para modelizarla utilizamos la funcion de nida por Mannos y Sakrison (ecuacion 3.2). La funcion Ha () depende de la orientacion y se puede implementar como la suma de dos funciones gaussianas [156]:

Ha () = exp

!

1   2 + exp 2 b

1    2 2 b

!

(B.2)

159 1.2 b=1.0 b=0.8 b=1.2 1

0.8

0.6

0.4

0.2

0 0

0.5

1

1.5

2

2.5

3

Figura B.1: Variacion de la sensibilidad con respecto a la orientacion en una funcion de sensibilidad al contraste.

La sensibilidad al contraste maxima se suele producir para las orientaciones de 0 y 90 grados y la mnima para 45 grados. Variando el parametro b en la ecuacion anterior se consigue que las dos funciones gaussianas sean mas o menos abiertas con lo que vara la cantidad de sensibilidad que se pierde en los 45 grados, como se muestra en la Figura B.1. De este modo es posible ajustar la dependencia con respecto a la orientacion para cada imagen concreta del mismo modo que se haca con la frecuencia espacial. De nuevo se ha utilizado la metrica de nida sobre este modelo en el experimento de detectabilidad visual. Los datos obtenidos incorporando en el modelo unicanal una funcion de sensibilidad que depende de la orientacion son similares a los obtenidos utilizando una funcion de sensibilidad isotropica. Hay que destacar ademas que el ajuste del nuevo parametro introduce un coste computacional adicional. Este coste se podra eliminar dejando el parametro b constante de tal manera que la perdida en 45 grados sea siempre igual independientemente de la imagen. Incluso as los resultados obtenidos no mejoraron los ya obtenidos con la funcion de sensibilidad isotropica.

160

Captulo B. Consideraciones Adicionales al Modelo Unicanal UC

Apendice C

Bootstrap El bootstrap es un metodo de simulacion utilizado para realizar inferencias estadsticas. Se aplica a una amplia variedad de procedimientos estadsticos. En nuestro caso va a ser utilizado para evaluar con mayor precision los resultados de muchos experimentos. Un primer paso para medir la precision de un estimador estadstico es el error estandar. E ste tiene una gran desventaja, y es que para la mayora de los estimadores excepto la media no existe una formula que lo proporcione. El bootstrap puede ser usado para estimar el error estandar. La estimacion bootstrap del error estandar fue de nida por Efron en 1979 [44, 45]. Los errores estandar son las medidas mas simples para medir la precision estadstica. Los metodos bootstrap se usan tambien para evaluar medidas de precision mas complejas, como por ejemplo los intervalos de con anza. Los problemas de inferencia estadstica a menudo implican estimar algunos aspectos de una distribucion de probabilidad F en base a una muestra aleatoria tomada de F . La funcion de distribucion emprica, que llamaremos F^ , es un simple estimador de la distribucion completa F . Un modo obvio de estimar algunos aspectos interesantes de F es usar el correspondiente aspecto de F^ . Supongamos una muestra aleatoria X de tama~no N tomada de una distribucion de probabilidad desconocida F ,

F ! (x1 ; x2 ; : : : ; xN ); (C.1) la funcion de distribucion emprica F^ se de ne como la distribucion discreta que da probabilidad 1=N a cada uno de los valores observados xi ; i = 1; 2; : : : ; N . Ahora se desea estimar un parametro de interes  en base a la muestra X . Para este proposito, se calcula una estimacion ^ = s(X ) a partir de X . Es posible saber como de precisa es esta estimacion ^ usando el bootstrap como un metodo para estimar el error estandar de ^ o bien intervalos de con anza. Una muestra bootstrap se de ne como una muestra aleatoria de tama~no N tomada de F^ , es decir, X  = (x1  ; x2 ; : : : ; xN ), F^ ! (x1 ; x2 ; : : : ; xN ) (C.2) Los puntos bootstrap xi ; i = 1; 2; : : : ; N son muestras aleatorias tomadas con reemplaza161

162

Captulo C. Bootstrap

miento a partir de la poblacion de N objetos. La unica hipotesis que el bootstrap exige a que la muestra bootstrap represente a la poblacion original de la que esa muestra fue tomada. Correspondiente a cada muestra bootstrap X  hay una replica bootstrap de ^, denominada ^ = s(X  ). Cualquier algoritmo bootstrap empieza casi siempre generando un gran numero de muestras bootstrap independientes X 1 ; X 2 ; : : : ; X B , cada una de tama~no N , y calculando para cada una de ellas una replica bootstrap, llamada s(X b ) para b = 1; : : : ; B . Un histograma bootstrap se obtiene poniendo en una gra ca el numero muestras bootstrap que tienen igual replica. En breves palabras, el bootstrap se utiliza para decir con que precision una medida estadstica calculada a partir de x1 ; x2 ; : : : ; xN estima la medida correspondiente para la poblacion entera de la cual fue tomada la muestra X .

C.1 Estimacion bootstrap del error estandar La estimacion bootstrap del error estandar de un estadstico ^ = s(X ) es la desviacion estandar de las replicas bootstrap:

sce =

P

B X b=1

(s(X b )

s(:))2 =(B

1)

! 12

(C.3)

donde s(:) = Bb=1 s(X b )=B . El numero tpico de muestras bootstrap utilizadas para la estimacion de errores estandar es entre 50 y 200.

C.2 Intervalos de con anza bootstrap La estimacion de un intervalo es a menudo mas util que solo una estimacion puntual ^. Tomados juntos, la estimacion puntual y la estimacion del intervalo dicen cual es la mejor aproximacion de  y hasta que punto esta aproximacion es razonable por el error que comete. Uno de los principales objetivos de la teora bootstrap es producir buenos intervalos de con anza automaticamente. Esta bondad se re ere a que los intervalos bootstrap deberan (i) casi igualar los intervalos de con anza exactos en aquellas situaciones donde la teora estadstica permite calcularlos exactamente, y (ii) dar probabilidades de cobertura aproximadas ables en todas las situaciones. Existen diferentes tecnicas para construir intervalos de con anza (a los que denotaremos por [^lo ; ^up ]) usando bootstrap [46, 47, 50], algunas de las cuales se describen brevemente a continuacion.

C.2.1 Intervalos basados en tablas Sea ^ una estimacion de un parametro de interes , y sea sce una estimacion del error estandar (calculado usando bootstrap) para ^. En muchas circunstancias, conforme el tama~no de la muestra N crece, la distribucion de ^ se hace mas normal, con media cercana a  y varianza cercana a sce2 , es decir ^_ N (; se ^ 2 ), o equivalentemente

C.2. Intervalos de con anza bootstrap

163

^  _ N (0; 1) se^

(C.4)

[^lo ; ^up ] = [^ z (1 )  sce; ^ z ( )  sce]

(C.5)

Sea z ( ) el 100  esimo percentil de una distribucion N (0; 1), conforme se da en una tabla normal estandar, z ( =:025) = 1:960, z ( =:05) = 1:645, z ( =:95) = 1:645, z ( =:975) = 1:960, etc. En general el intervalo de con anza estandar con nivel de con anza 100  (1 2 )% o probabilidad de cobertura igual a (1 2 ) se obtiene Esta aproximacion puede ser valida cuando el tama~no de la muestra N es muy grande. Otro tipo de distribucion, la t de Student, se ha utilizado para mejorar los intervalos obtenidos. En cualquier caso, los intervalos estandar cometen importantes errores debido, principalmente, a su forzada simetra. El bootstrap se utiliza para calcular mejores aproximaciones a los intervalos de con anza.

C.2.2 Intervalos basados en percentiles El intervalo percentil de cobertura 1 2 se obtiene directamente de los percentiles y 1 de la funcion de distribucion de ^: [^lo ; ^up] = [^( ) ; ^(1 ) ]

(C.6)

donde ^( ) el 100  esimo percentil de B replicas bootstrap. Los intervalos estandar normal y percentil pueden diferir, ya que para muestras peque~nas el histograma bootstrap puede ser no-normal.

C.2.3 Intervalos usando el metodo BCa Los intervalos BCa , abreviacion de bias-corrected and accelerated, son una mejora sustancial sobre el metodo percentil y corrigen automaticamente sesgos en las estimaciones. Los puntos extremos del intervalo BCa vienen dados por percentiles de la distribucion bootstrap, pero no necesariamente los mismos que los obtenidos por la ecuacion C.6. Los percentiles usados dependen de dos numeros a^ y z^0 , llamados aceleracion y correccion del sesgo, respectivamente. El intervalo BCa de cobertura 1 2 viene dado por: [^lo ; ^up ] = [^( 1 ) ; ^( 2 ) ] donde

(C.7)

!

z( ) 1 =  z^0 + 1 z^a^0(^+ z0 + z( ) ) ! (1 ) z ^ + z 0 2 =  z^0 + 1 a^(^z + z(1 ) ) 0

(C.8)

164

Captulo C. Bootstrap (C.9)

(:) es la funcion de distribucion normal acumulada y z es el punto percentil 100  esimo de una distribucion normal estandar. El valor de la correccion de sesgo z^0 se obtiene directamente a partir de la proporcion de replicas bootstrap menores que la estimacion original ^,

z^0 = 

1

! #f^ (b) < ^g B

(C.10)

donde  1 (:) indica la funcion inversa de la funcion de distribucion estandar normal acumulada. Hay varios modos de calcular la aceleracion a^. Una de ellas viene dada en terminos de los valores jackknife de un estadstico ^ = s(X ). Sea X(i) la muestra original con el iesimo punto xi eliminado, sea ^(i) = s(X(i) ) y de namos ^(:) = PNi=1 ^(i)=N . Una expresion simple para la aceleracion es:

PN (^ ^ )3 a^ = PNi=1 ^ (:) ^ (i) 2 3=2 6f i=1 ((:) (i) ) g

(C.11)

La cantidad a^ se le llama aceleracion porque se re ere a la proporcion de cambio del error estandar de ^ con respecto al valor correcto . El metodo BCa tiene dos importantes ventajas teoricas: (i) respeta las transformaciones y (ii) los intervalos BCa son aproximaciones de segundo orden. Esto lleva a aproximaciones mucho mejores de los puntos nales exactos. Una explicacion mas detallada del calculo de los intervalos BCa se puede encontrar en [50].

Bibliografa [1] A.J. Ahumada y H.A. Peterson. Luminance-model based DCT quantization for color image compression. In Proc. SPIE, volume 1666, pp. 365{374, 1992. [2] A.J. Ahumada y H.A. Peterson. A visual detection model for DCT coecient quantization. In AIAA Computing in Aerospace: A collection of Technical Papers, volume 9, pp. 314{317, San Diego, California, 1993. [3] A.J. Ahumada Jr. Computational image quality metrics: A review. In SID International Digest of Technical Papers, volume 24, pp. 305{308, 1993. [4] A.J. Ahumada Jr. Simpli ed vision models for image quality assessment. In SID International Digest of Technical Papers, volume 27, pp. 397{400, 1996. [5] A.J. Ahumada Jr. y B.L. Beard. Object detection in a noisy scene. In Human Vision, Visual Processing and Digital Display VII, SPIE Proceedings, volume 2657, Bellingham, WA, 1996. [6] A.J. Ahumada Jr. y B.L. Beard. A simple vision model for inhomogeneous image quality assessment. In SID Digest of Technical Papers, volume 29, Anaheim, CA., 1998. [7] A.J. Ahumada Jr., A.M. Rohaly, y A.B. Watson. Image discrimination models predict object detection in natural backgrounds. Investigative Ophthalmology and Visual Science, 36(4 (ARVO Suppl.)):S439, 1995. [8] A.N. Akansu y R.A. Haddad. Multiresolution Signal Descomposition. Academic Press, Boston, 1992. [9] M.C. Aranda, J.A. Garca, y J. Fdez-Valdivia. A \normalized-redundancy" representation for digital images. Pattern Recognition Letters, 19(12):1103{1110, 1998. [10] M.C. Aranda, J.A. Garca, y J. Fdez-Valdivia. Representing 2d digital images through a normalized measure of redundancy. In IEEE 14th International Conference on Pattern Recognition, pp. 42{46, Brisbane (Australia), 1998. [11] N. Avadhanam y V. Algazi. Prediction and measurement of high quality in still-image coding. In SPIE Proceedings, volume 2663, pp. 100{109, 1996. [12] J. Babaud, A.P. Witkin, M. Baudin, y R.O. Duda. Uniqueness of the gaussian kernel for scale-space ltering. IEEE PAMI, 8:26{32, 1996. 165

166

BibliografIa

[13] H.B. Barlow. Summation and inhibition in the frog's retina. Journal of Physiology, 119:69{99, 1953. [14] H.B. Barlow. Single units and sensation: a neuron doctrine for perceptual psychology. Perception, 1:371{394, 1972. [15] P.G.J. Barten. Evaluation of subjetive image quality with the square-root integral method. J. Opt. Soc. Amer., 7(10):2024{2031, 1990. [16] P.G.J. Barten. Spatio-temporal model for the contrast sensitivity of the human eye and its temporal aspects. In B. Rogowitz y J. Allebach, editors, Human Vision, Visual Processing and Digital Display IV, volume 1913, pp. 2{14, Bellingham, WA, 1993. SPIE. [17] C. Blakemore y F.W. Campbell. On the existence of neurones in the human visual system selectively sensitive to the orientation and size of retinal images. Journal of Physiology, 203:237{260, 1969. [18] G.G. Blasdel, J.S. Lund, y D. Fitzpatrick. Intrinsic conections of macaque striate cortex: axonal proyection of cells outside lamina 4C. Neuroscience, 5:3350{3369, 1985. [19] A.B. Bonds. Role of inhibition in the speci cation of orientation selectivity of cells in the cat striate cortex. Visual Neuroscience, 2(1):41{55, 1989. [20] A. Bradley. A wavelet visible di erence predictor. In Proc. Digital Images: Techniques and Applications DICTA'97, pp. 77{82, Auckland, New Zaeland, 1997. [21] R.W. Buccigrossi y E.P. Simoncelli. Progressive wavelet image coding based on a conditional probability model. In ICASSP-97, 1997. [22] Z.L. Budrikis. Visual delity criterion and modelling. IEEE Proc., 60:771{779, 1972. [23] J.M. Van Buren. The retinal ganglion cell layer. Charles C.Thomas. Spring eld Illinois, U.S.A., 1963. [24] P.J. Burt y E.H. Adelson. The laplacian pyramid as a compact image code. IEEE Transactions on Communications, COM-31(4):532{554, 1983. [25] F.W. Campbell y J.G. Robson. Applications of fourier analysis to the visibility of gratings. Journal of Physiology, 197:551{566, 1968. [26] J. Canny. A computational approach to edge detection. IEEE Transactions on PAMI, 8(6):679{698, 1986. [27] J.W. Carl. Quantitative delity criterion for image processing applications. In SPIE Proceedings, volume 858, pp. 2{8, 1987. [28] S. Comes. Les Traitements Perceptifs D'Images Numerisees. PhD thesis, Universite Catholique de Louvain, 1995. [29] S. Daly. The visible di erence predictor: An algorith for the assessment of image delity. In A.B. Watson, editor, Digital Images and Human Vision, pp. 179{206. MIT Press, Cambridge, MA, 1993.

BibliografIa

167

[30] S. Daly. A visual model for optimizing the design of image processing algorithms. In Proc. ICIP-94, IEEE Computer Society Press, pp. 16{20, 1994. [31] J.G. Daugman. Two-dimensional spectral analysis of cortical receptive eld pro les. Vision Research, 20:847{856, 1980. [32] J.G. Daugman. Spatial visual channels in the fourier plane. Vision Research, 24:891{ 910, 1984. [33] J.G. Daugman. Uncertainty relation for resolution in space, spatial, frequency, and orientation optimized by two-dimensional visual cortical lters. J. Opt. Soc. Am. A, 2:1160{1169, 1985. [34] J.G. Daugman. Six formal properties of two-dimensional anisotropic visual lters: structural principles and frequency/orientation selectivity. IEEE Transactions on Systems, Man and Cybernetics, 13(5):882{887, 1986. [35] J.G. Daugman. Complete discrete 2D gabor transforms by neural networks for image analysis and compression. IEEE Trans. Acoust. Speech Signal Proc., 36:1169{1179, 1988. [36] J.J. De Palma y E.M. Lowry. Sine-wave response of the visual system. II sine-wave and square-wave constrast sensitivity. Journal of the Optical Society of America, 52(3):328{ 335, 1962. [37] R.L. De Valois, D.G. Albrecht, y L.G. Thorell. Spatial frequency selectivity of cells in macaque visual cortex. Vision Research, 22:545{559, 1982. [38] R.L. De Valois, E.W. Yund, y N. Hepler. The orientation and direction selectivity of cells in macaque visual cortex. Vision Research, 22:531{544, 1982. [39] E.A. DeYoe y D.C. Van Essen. Concurrent processing streams in monkey visual cortex. Trends in Neuroscience, 11(5):219{226, 1988. [40] M. Dzmura y B. Singer. Spatial pooling of contrast gain control. J. Opt. Soc. Amer. A, 13(11):2135{2140, 1996. [41] T. Ebraini y M. Kunt. Image compresion by gabor expansion. Optical Engeneering, 30:873{888, 1991. [42] M.P. Eckert. Lossy compression using wavelets, block DCT, and lapped orthogonal transforms optimized with a perceptual model. In Proc. SPIE, volume 3031, pp. 339{ 351, 1997. [43] M.P. Eckert y A.P. Bradley. Perceptual quality metrics applied to still image compresion. Signal Processing, 70:177{200, 1998. [44] B Efron. Computers and the theory of statistics: thinking the unthinkable. SIAM Review, 21:460{480, 1979. [45] B Efron. Nonparametric standard errors and con dence intervals. Can. J. Statist., 9:139{172, 1981.

168

BibliografIa

[46] B. Efron. Better bootstrap con dence intervals. J. Amer. Statist. Assoc., 82:171{200, 1987. [47] B Efron. More ecient bootstrap computations. J. Amer. Statist. Assoc., 85:79{89, 1990. [48] B. Efron y R.J. Tibshirani. The bootstap method for assesing statistical accuracy. Behaviormetrika, 17:1{35, 1985. [49] B. Efron y R.J. Tibshirani. Bootstrap measures for standard errors, con dence intervals, and other measures of statistical accuracy. Statistical Science, 1:54{77, 1986. [50] B. Efron y R.J. Tibshirani. An introduction to the bootstrap. Volume 57 in Monographs on Statistics and Applied Probability, Chapman and Hall/CRC, 1993. [51] C. Enroth-Cugell y J.G. Robson. The contrast sensitivity of retinal ganglion cells of the cat. Journal of Physiology, 187:517{552, 1996. [52] A.M. Eskicioglu y P.S. Fisher. A survey of quality measures for grey scale image compresion. In Proc. NASA Space Earth Science Data Compresion Workshop, pp. 49{61, 1993. [53] J. Fdez-Valdivia, J.A. Garca, y M. Garca-Silvente. Simplifying cartographic boundaries by using a normalized measure of ambiguity. Computers & Geosciencies, 22(6):607{ 623, 1995. [54] J. Fdez-Valdivia, J.A. Garca, y M. Garca-Silvente. An evaluation of the novel normalized-redundancy representation for planar curves. International Journal of Pattern Recognition and Arti cial Intelligence, 10(7):769{789, 1996. [55] J. Fdez-Valdivia, J.A. Garca, J. Martnez-Baena, y X.R. Fdez-Vidal. The selection of natural scales in 2D images using adaptative gabor ltering. IEEE Trans. on Pattern Analysis and Machine Intelligence, 20(5):458{469, 1998. [56] X.R. Fdez-Vidal, J.A. Garca, y J. Fdez-Valdivia. A perceptual measure to predict the visual distinction between two color images. Pattern Recognition Letters, 19(12):1137{ 1152, 1998. [57] X.R. Fdez-Vidal, J.A. Garca, y J. Fdez-Valdivia. Using models of feature perception in distortion measure guidance. Pattern Recognition Letters, 19(14):77{88, 1998. [58] X.R. Fdez-Vidal, J.A. Garca, J. Fdez-Valdivia, y R. Rodrguez-Sanchez. The role of integral features for perceiving image discriminability. Pattern Recognition Letters, 18(8):733{740, 1997. [59] X.R. Fdez-Vidal, R. Rodrguez-Sanchez, J.A. Garca, y J. Fdez-Valdivia. How to de ne the notion of microcalci cations in digitized mammograms. Technical Report TR990319, Depto. Ciencias de la Computacion e I.A. Univ. de Granada, 1999. [60] X.R. Fdez-Vidal, R. Rodrguez-Sanchez, J.A. Garca, y J. Fdez-Valdivia. Integral opponent-colors features for computing visual target distinctness. Pattern Recognition, 33(10), 2000.

BibliografIa

169

[61] X.R. Fdez-Vidal, A. Toet, J.A. Garca, y J. Fdez-Valdivia. Computing visual target distinctness through selective ltering, statistical features and visual patterns. Optical Engineering, 39(1):267{281, 2000. [62] D.J. Field. Relations between the statistics of natural images and the response properties of cortical cells. Journal of the Optical Society of America A, 4(12):2379{2394, 1987. [63] D.J. Field. Scale-invariance and self-similar wavelet transforms: An analysis of natural scenes and mammalian visual systems. In M. Farge, editor, Wavelets, Fractals and Fourier Transforms: New developments and new applications, pp. 151{193. Oxford University Press, 1993. [64] D.J. Field. What is the goal of sensory coding. Neural Computation, 6:559{601, 1994. [65] L.M.J. Florack, B.M. ter Haar Romeny, J.J. Koenderink, y M.A. Viergever. Scale and the di erential structure of images. Image Vision Computing, 10:376{388, 1991. [66] J.M. Foley. Human luminance pattern-vision mechanisms: masking experiments require a new model. Journal of the Optical Society of America A, 11:1710{1719, 1994. [67] J.M. Foley y G.M. Boynton. A new model of human luminance pattern vision mechanims: Analysis of the e ects of pattern orientation, spatial phase and temporal frequency. In Computational Vision Based on Neurobiology, Proc. SPIE, volume 2054, pp. 32{42, 1993. [68] D.R. Fuhrmann, J.A. Baro, y J.R. Cox. Experimental evaluation of psychophysical distorsion metrics for JPEG-encoded images. J. Electronic Imaging, 4(4):397{406, 1995. [69] D. Gabor. Theory of communication. J. Inst. Electr. Eng., 93:429{457, 1946. [70] J.A. Garca, J. Fdez-Valdivia, X.R. Fdez-Vidal, y R. Rodrguez-Sanchez. Best achievable compression ratio for lossy images coding. Technical Report TR990324, Depto. Ciencias de la Computacion e I.A. Univ. de Granada, 1999. [71] J.A. Garca, J. Fdez-Valdivia, X.R. Fdez-Vidal, y R. Rodrguez-Sanchez. Visual distinctness through selective ltering. In Workshop on Search and Target Acquisition, NATO SCI-12, Utrecht, The Netherlands, 1999. [72] J.A. Garca, J. Fdez-Valdivia, R. Rodrguez-Sanchez, y X.R. Fdez-Vidal. Comparison of lossy coders for still images. Technical Report TR000224, Depto. Ciencias de la Computacion e I.A. Univ. de Granada, 2000. [73] J.A. Garca, J. Fdez-Valdivia, Fdez-Vidal X.R., y R. Rodrguez-Sanchez. Axiomatic characterization of relative information for predicting visual target distinctness. Technical Report TR990321, Depto. Ciencias de la Computacion e I.A. Univ. de Granada, 1999. [74] B. Girod. Digital Images and Human Vision, chapter What's wrong with mean-square error. MIT Press, Cambridge, MA, 1993.

170

BibliografIa

[75] P. Gouras y J. Kruger. Responses of cells in foveal visual cortex of the monkey to pure color contrast. Journal of Neurophysiology, 42:850{860, 1979. [76] N. Graham. Visual pattern analyzers. In Oxford Psychology Series, No. 16. Oxford University Press, 1989. [77] S. Grossberg y E. Mingolla. Neural dynamics of form perception: boundary completions and ilussory gures, and neon color spreading. Psychological Review, 92:173{211, 1985. [78] ISO/IEC JTC1/SC2/WG10 Joint Picture Experts Group. JPEG technical speci cation, revision 8. Technical report, JPEG-8-R8, 1990. [79] H.K. Hartline. The receptive eld of the optic nerve bers. Amer. J. Physiology, 130:690{699, 1940. [80] M.J. Hawken y A.J. Parker. Spatial properties of neurons in the monkey striate cortex. Proc. R. Soc. Lon. B, 231:251{288, 1987. [81] D.J. Heeger. Computational model of visual processing. MIT Press, Cambridge, MA, 1989. Captulo Nonlinear model of neural responses in cat visual cortex. [82] D.J. Heeger. Normalization of cell responses in cat visual cortex. Visual Neuroscience, 9:181{197, 1992. [83] D.H. Hubel. Eye, Brain and Vision. American Library, New York, 1988. [84] D.H. Hubel y M.S. Livingstone. Color and contrast sensitivity in the lateral geniculate body and primary visual cortex of the macaque monkey. Journal of Neuroscience, 10:2223{2237, 1990. [85] D.H. Hubel y T.N. Wiesel. Receptive elds of cells in striate cortex of very young visually inexperienced kittens. Journal of Neurophysiology, 26:994{1002, 1959. [86] D.H. Hubel y T.N. Wiesel. Integrative action in the cat's lateral geniculate body. Journal of Physiology, 155:385{398, 1961. [87] D.H. Hubel y T.N. Wiesel. Receptive elds, binocular interaction and functional arquitecture in the cat's visual cortex. Journal of Physiology, 160:106{154, 1962. [88] D.H. Hubel y T.N. Wiesel. Ferrier lecture functional architecture of monkey striate cortex. Journal of Physiology, 195:215{243, 1977. [89] B.R. Hunt y G.F. Sera. Power-law stimulus-response models for measures of image quality in nonperformance environments. IEEE Trans. on systems, man and cybernetics, 8(11):781{791, 1978. [90] A.K. Jain. Fundamentals of Digital Image Processing. Prentice-Hall, Englewood Cli s, NJ, 1989. [91] A.K. Jain y R.C. Dubes. Algorithms for clustering data. Prentice-Hall, Englewood Cli s, NJ, 1988.

BibliografIa

171

[92] J.P. Jones y L.A. Palmer. An evaluation of the two-dimensional gabor lter model of simple receptive elds in cat striate cortex. J. Neurophysiol., 58:1233{1258, 1987. [93] E. Kaplan y R.M. Shapley. The primate retina contains two types of ganglion cells, with high and low contrast sensitivity. Proc. Natil. Acad. Sci. U.S.A., 83:2755{2757, 1986. [94] N. Karssemeijer. Adaptative noise equalization and image analysis in mammography. In 13 Int. Conf. Inform. Processing Med. Imag., pp. 472{486, 1992. [95] S.A. Karunasekera y N.G. Kingsbury. A distortion measure for blocking artifacts in images based on human visual sensitivity. IEEE Transactions on Image Processing, 4:713{724, 1995. [96] F. Kingdom y P. Whittle. Contrast discrimination at high contrasts reveals the in uence of local light adaptation on contrast processing. Vision Research, 36(6):817{829, 1996. [97] J.J. Koenderink. The structure of images. Biological Cybernetics, 50:336{370, 1984. [98] J.J. Koenderink. A hitherto unnoticed singularity of scale space. IEEE Trans. Pattern Analysis and Machine Intelligence, 11:1222{1224, 1989. [99] J. Kominek. Still image compression an issue of quality. Available from University of Waterloo, Waterloo, Ontario, Canada, Department of Computer Science. http://links.uwaterloo.ca/pub/Fractals/Papers/Waterloo/kominek94b.ps.gz, electronic edition, 1994. [100] P. Kovesi. Image features from phase congruency. Technical Report 95/4, Dpt. of Computer Science, The University of Western Australia, 1995. [101] E.S. Krendel y J. Wodinsky. Visual search in a unstructured visual eld. J. Opt. Soc. Am., 50:562{568, 1960. [102] S.W. Kuer. Discharge patterns and functional organization of mammalian retina. Journal of Neurophysiology, 16:37{68, 1953. [103] A. Law y W. Kelton. Simulation models and analysis. McGraw-Hill, 1991. [104] Tai Sing Lee. Image representation using 2D gabor wavelets. IEEE Trans. on Pattern Analysis and Machine Intelligence, 18(10):959{971, 1996. [105] A. Leger, T. Omachi, y G.K. Wallace. The JPEG still picture compression algorithm. Optical Engineering, 30(7):947{954, 1991. [106] G.E. Legge y J.M. Foley. Contrast masking in human vision. Journal of the Optical Society of America, 70(12):1458{1471, 1980. [107] J. O. Limb. Distortion criteria of the human viewer. IEEE Trans. on Systems, Man and Cybernetics, 9(12):778{793, 1979. [108] T. Lindeberg. Scale space for discrete signals. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12(3):234{254, 1990.

172

BibliografIa

[109] T. Lindeberg. Detecting salient blob-like image structures and their scales with a scalespace primal sketch: A method for focus-on-attention. International Journal of Computer Vision, 11:283{318, 1993. [110] M.S. Livingstone y D.H. Hubel. Anatomy and physiology of a color system in the primate visual cortex. Journal of Neuroscience, 4:309{356, 1984. [111] M.S. Livingstone y D.H. Hubel. Connections between layer 4B of area 17 and the thick cytochrome oxidase stripes of area 18 in the squirrel monkey. Journal of Neuroscience, 7:3371{3377, 1987. [112] J. Lubin. The use of psychophysical data and models in the analysis of display system performance. In A.B. Watson, editor, Digital Images and Human Vision. MIT Press, Cambridge, MA, 1993. [113] F. Ma ei y A. Fiorentini. The visual cortex as a spatial frequency analyser. Vision Research, 13:1255{1267, 1973. [114] J. Malo, A.M. Pons, A. Felipe, y J.M. Artigas. Characterization of the human visual system performance by a weighting function in the gabor domain. Journal of Modern Optics, 44(1):127{148, 1997. [115] J.L. Mannos y D.J. Sakrison. The e ects of a visual delity criterion on the encoding of images. IEEE Transactions on Information Theory IT, 20(4):525{536, 1974. [116] S. Marcelja. Mathematical description of the responses of the simple cortical cells. J. Opt. Soc. Am., 70:1297{1399, 1980. [117] H. Marmolin. Subjetive mse measures. IEEE Trans. on Systems, Man and Cybernetics, 16(3):486{489, 1986. [118] D. Marr. Vision: A Computational Investigation into the Human Representation and Processing of Visual Information. W.H. Freeman and Co., New York, 1978. [119] J. Martnez-Baena, J. Fdez-Valdivia, y J.A. Garca. Perceptual distortion criteria based on human visual model. In IS&T/OSA Optics & Imaging in the Information Age, pp. 348{353, Rochester, New York (USA), 1997. IS&T/OSA. [120] J. Martnez-Baena, J. Fdez-Valdivia, J.A. Garca, y X.R. Fdez-Vidal. A new image distortion measure based on a data-driven multisensor organization. Pattern Recognition, 31(8):1099{1116, 1998. [121] J. Martnez-Baena, J.A. Garca, J. Fdez-Valdivia, y R. Rodrguez-Sanchez. Scale selection using three di erent representations for images. Pattern Recognition Letters, 18(14):1453{1467, 1997. [122] J. Martnez-Baena, A. Toet, X.R. Fdez-Vidal, A. Garrido, y R. Rodrguez-Sanchez. Computational visual distinctness metric. Optical Engineering, 37(7):1995{2005, 1998. [123] M.C. Morrone y D.C. Burr. Feature detection in human vision: A phase-dependent energy model. Proc. R. Soc. Lond. B, 235:221{245, 1988.

BibliografIa

173

[124] M.C. Morrone y R.A. Owens. Feature detection from local energy. Pattern Recognition Letters, 6:303{313, 1987. [125] H. Mostafavi y D.J. Sakrison. Structure and properties of a single channel in the human visual system. Vision Research, 16:957{968, 1977. [126] W.J.H. Nauta y M. Feirtag. Fundamental Neuroanatomy. W.H. Freeman and Company, New York, 1986. [127] R. Navarro y A. Tabernero. Gaussian wavelet transform; two alternative fast implementations for images. Multidim. Sys. Signal Processing, 2:421{436, 1991. [128] R. Navarro, A. Tabernero, y G. Cristobal. Image representation with gabor wavelets and its applications. In Peter W. Hawkes, editor, Advances in Imaging and Electron Physics. Academic Press Inc. Orlando, FL, 1996. [129] N.B. Nill y B.H. Bouzas. Objetive image quality measure derived from digital image power spectra. Optical Engineering, 31(4):813{825, 1992. [130] G. Oesterberg. Topography of the layer of rods and cones in the human retina. Acta Ophtalmology Suppl., 6:1{103, 1935. [131] L.A. Olzak y J.P. Thomas. Handbook of Perception and Human Performance, chapter Seeing spatial patterns. Wiley, New York, 1986. [132] W.A. Pearlman. A visual system model and a new distortion measure in the context of image processing. J. Opt. Soc. Am., 68(3):374{385, 1978. [133] E. Peli. Contrast in complex images. J. Opt. Soc. Am., A 7(10):2032{2040, 1990. [134] E. Peli, L.E. Arend, G.M. Young, y R.B. Goldstein. Contrast sensitivity to patch stimuli: E ects of spatial bandwidth and temporal representation. Spatial Vision, 7(1):1{14, 1993. [135] H.A. Peterson, A.J. Ahumada, y A.B. Watson. The visibility of DCT quantization noise. Soc. Inf. Display Digest of Technical Papers, 24:942{945, 1993. [136] D. Pollen y S. Ronner. Phase relationships between adjacent simple cells in the visual cortex. Science, 212:1409{1411, 1981. [137] J. Portilla, R. Navarro, O. Nestares, y A. Tabernero. Texture synthesis-by-analisis based on a multi-scale early-vision model. Optical Engineering, 35:2403{2417, 1996. [138] W.H. Press, S.A. Teukolsky, W.T. Vetterling, y B.P. Flannery. Numerical recipes in C. The art of scienti c computing. Cambridge University Press, 1992. [139] R.F. Quick. A vector magnitude model of contrast detection. Kybernetik, 16:65{67, 1974. [140] C.R. Rao. Linear Statistical Inference and Its Applications. Wiley, New York, 1973. [141] O. Rioul y M. Vetterli. Wavelets and signal processing. IEEE Signal Processing Magazine, 8(10):14{37, 1991.

174

BibliografIa

[142] J.A. Robinson. Ecient general purpose image compression with binary tree predictive coding. IEEE Trans. on Image Processing, 6(4):601{608, 1997. [143] J.G. Robson y N. Graham. Probability summation and regional variation in contrast sensitivity across the visual eld. Vision Research, 21:409{418, 1981. [144] R. Rodrguez-Sanchez. Representacion de imagenes digitales basada en patrones visuales: Modelos Computacionales y Aplicaciones. PhD thesis, Universidad de Granada., 1999. [145] R. Rodrguez-Sanchez, J.A. Garca, y J. Fdez-Valdivia. The RGF pandemonium: A low-level representational model for images. Pattern Recognition, 31(11):1797{1810, 1998. [146] R. Rodrguez-Sanchez, J.A. Garca, J. Fdez-Valdivia, y X.R. Fdez-Vidal. The RGFF representational model: a system for the automatically learned partitioning of visual patterns in digital images. IEEE Trans. on Pattern Analysis and Machine Intelligence, 21(10):1044{1073, 1999. [147] R. Rodrguez-Sanchez, J.A. Garca, J. Fdez-Valdivia, y X.R. Fdez-Vidal. Origins of illusory percepts in digital images. Pattern Recognition, 33, 2000. [148] A.M. Rohaly, A.J. Ahumada Jr, y A.B. Watson. Object detection in natural backgrounds predicted by discrimination performance and models. Vision Research, 37(23):3225{3235, 1997. [149] A. Rosenfeld. Computer vision: A source of models for biological visual processing. IEEE Transactions on Biomedical Engineering, 36:93{96, 1989. [150] A. Rosenfeld y M. Thurston. Edge and curve detection for visual scena analysis. IEEE Trans. Comput., 20:559{562, 1971. [151] S.R. Rotman, E.S. Gordon, y M.L. Kowalczyk. Modeling human search and target adquisition performance: I. rst detection probability in a realistic multitarget scenario. Optical Engineering, 28(11):1216{1222, 1989. [152] R.J. Safranek. A comparison of the coding eciency of perceptual models. In Proc. SPIE, volume 2411, pp. 83{91, 1995. [153] R.J. Safranek y J.D. Johnston. A perceptually tuned subband image coder with image dependent quantization and post-quantization data compression. In Proc. ICASSP, volume 3, pp. 1945{1948, 1989. [154] J.A. Saghri, P.S. Cheatham, y A. Habibi. Image quality measure based on a human visual system model. Optical Engineering, 28(7):813{818, 1989. [155] A. Said y W.A. Pearlman. A new fast and ecient image coder based on set partitioning in hierarchical trees. IEEE Trans. on Circuits and Systems for Video Technology, 6:243{ 250, 1996. [156] D.J. Sakrison. On the role of the observer and a distorsion measure in image transmission. IEEE Trans. on communications, 25(11):1251{1267, 1977.

BibliografIa

175

[157] O.H. Schade. Optical and photoelectric analog of the eye. Journal of the Optical Society of America, 46(9):721{739, 1956. [158] R. Shapley y P.V. Hugh. Cat and monkey retinal ganglion cells and their visual functional roles. Trends in Neuroscience (TINS), 9:299{235, 1986. [159] M.V. Shirvaikar y M.M. Trivedi. Developing texture-based image clutter measures for object detection. Optical Engineering, 31(12):2628{2639, 1992. [160] E.P. Simoncelli y E.H. Adelson. Subband image coding. John E. Woods, editor, 1990. [161] E.P. Simoncelli, W.T. Freeman, E.H. Adelson, y D.J. Heeger. Shiftable multiscale transforms. IEEE Transactions on Information Theory, 38(2):587{607, 1992. [162] J.A. Solomon y A.B. Watson. Visibility of DCT basis funcions: E ects of contrast masking. In Proceedings of the Data Compression Conference, IEEE Computer Society Press, pp. 361{371, 1994. [163] M. Sonka, V. Hlavac, y R. Boyle. Image Processing, Analysis and Machine Vision. Thompson Computer Press, London, 1999. [164] J. Suckling. The mammographic image analysis society digital mammogram database. In Experta medica. International Congress Series, volume 1069, pp. 375{378, 1994. [165] P.C. Teo y D.J. Heeger. Perceptual image distorsion. Proceedings of the SPIE, 2179:127{ 139, 1994. [166] P.C. Teo y D.J. Heeger. Perceptual image distorsion. Proceedings of the International Conference on Image Processing, pp. 982{986, 1994. [167] A. Toet. Computing visual target distinctness. Technical Report TM-97-A039, TNO Human Factors Research Institute, 1997. [168] R. Von der Heydt, E. Peterhans, y G. Baumgartner. Illusory contours and cortical neuron response. Science, 224:1260{1262, 1984. [169] G. Waldman, J. Wootton, y G. Hobson. Visual detection with search: an empirical model. IEEE Trans. on Systems, Man and Cybernetics, 21(3):596{606, 1991. [170] G.R. Wallace. The JPEG still picture compression standard. Communications of the ACM, 34:30{44, 1991. [171] B.A. Wandell. Foundations of Vision. Sinauer Assoc. Publish., Massachusetts, 1995. [172] A.B. Watson. Summation of grating patches indicates many types of detectors at one retinal location. Vision Research, 22:17{25, 1982. [173] A.B. Watson. The cortex transform: Rapid computation of simulated neural images. Computer Vision, Graphics and Image Processing, 39:311{327, 1987. [174] A.B. Watson. Eciency of an image code based on human vision. Journal of the Optical Society of America, 4(12):2401{2417, 1987.

176

BibliografIa

[175] A.B. Watson. Estimation of local spatial scale. Journal of the Optical Society of America, 4:1579{1582, 1987. [176] A.B. Watson. DCTune: A technique for visual optimization of DCT quantization matrices for individual images. Digest of Technical Papers XXIV, pp. 946{949, 1993. [177] A.B. Watson y A.J. Ahumada. A hexagonal orthogonal oriented pyramid as a model of image representation in visual cortex. IEEE Transactions on Biomedical Engineering, 36:97{106, 1989. [178] A.B. Watson y J.A. Solomon. A model of visual contrast gain control and pattern masking. Journal of the Optical Society of America A, 14:2379{2391, 1997. [179] S.J.P. Westen, R.L. Lagendijk, y J. Biemond. Perceptual image quality based on a multiple channel HVS model. In Proc. ICASSP, pp. 2351{2354, 1995. [180] G. Westheimer. Spatial sense of the eye. Investigative Ophtalmology and Visual Science, 18:893{912, 1979. [181] A.P. Witkin. Scale-space ltering. In Proc. 8th Int. Joint. Conf. on Arti cial Intelligence, pp. 559{562, Karlsruhe, West Germany, 1983. [182] A.P. Witkin. Scale-space ltering: A new approach to multi-scale description. Image Understanding, 1984. [183] R.H. Wurtz y J.E. Albano. Visual-motor function of the primate colliculus. Review of Neuroscience, 3:180{226, 1980. [184] R.H. Wurtz y M.E. Goldberg. The neurobiology of saccadic eye movements. Elsevier, New York, 1989. [185] S.A. Zeki. A vision of the brain. Blackwell science Ltd., London, 1993. [186] C. Zetzsche y G. Hauske. Multiple channel model prediction of subjetive image quality. In Proc. SPIE, volume 1077, pp. 209{215, 1989.