22/08/2012
TEORIA DE LA INFORMACION
Introducción
Después de que Einstein demostrara la equivalencia entre “masa” y “energia” los dos parametros que la civilizazcion utiliza son INFORMACION y ENERGIA relacionado por la formula de Shanonn
1
22/08/2012
ORIGEN 1948: Wiener: Cibérnetica Teoría de la Información 1953:McMillan‐ Fuenete 1948 Snannon “Una d I f de Información , canal de ió l d teoría Matemática de la transmisión Comunicación” 1956: Khintchine‐ 1929 L. Szilar: Tratamiento completo T.I. Información‐Paradoja para caneles ergódicos. Física Resumen 1928: Hartlye: Método 1953: Winograd: de comparación de los Estableció un lazo entre distintos métodos de T.C. de Shannon y la transmisores de la teoría de autómatas información
Documento de Shannon Escrito por Shannon en 1948. En E él se desarrolla d ll buena b parte t de d la l actual t l
teoría llamada de la información Concepto de información Medida de "cantidad de información". Tratamiento ata e to matemático ate át co de laa información o ac ó
2
22/08/2012
Comunicación Quizás Fourier fue el primero en dar una
teoría matemática para un problema de comunicación. Aunque su descubrimiento fue debido a unos trabajos sobre transmisión de calor, su teoría es tan general que prácticamente se puede aplicar a cualquier área.
INFORMACION Terminología Señal manifestación física ( de
orden electromagnética , onda sonora...) capaz de propagarse en un medio dado. Es la definición más amplia del concepto de señal.
3
22/08/2012
Terminología Fuente:proceso por el cual,
M Mensaje:Señal que j S ñ l corresponde a una realización particular del conjunto de señales dadas
entre todos los mensajes posibles es escogido de una posibles, es escogido de una manera imprevisible un mensaje particular, destinado a ser transmitido a un receptor (observador
Terminología Observador :Destinatario final del mensaje. Canal Totalidad de los medios destinados a la transmisión de la señal. ñ l
4
22/08/2012
Terminología Modulación Transformación de un mensaje
en una señal, al efecto de facilitar y aumentar la eficacia de la transmisión y reducir los errores de la misma. Demulación Operación inversa de la modulación.
Terminología Codificación: Transformación de un mensaje en
una señal discreta, discreta cuya principal objetivo es aumentar la eficacia de la transmisión Decodificación Operación inversa de la codificación Perturbación: Señal que modifica una señal aleatoria útil, disminuyendo la cantidad de información que circula por ella.
5
22/08/2012
INFORMACION‐CONOCIMIENTO
Teoría de la Información • Información: – Conjunto de datos o mensajes inteligibles creados con un lenguaje de representación y que debemos proteger antes las amenazas del entorno, durante su transmisión o almacenamiento, con técnicas criptográficas.
• La Teoría de la Información mide la cantidad de información que contiene un mensaje a través del número medio de bits necesario para codificar todos los posibles mensajes con un codificador óptimo. óptimo.
6
22/08/2012
CLASES DE INFORMACION Voz: Mecanismo primario
para la comunicación p humana. Es de naturaleza acústica.
Imágenes: mecanismo primario eca s o p a o para la comunicación humana. Es de naturaleza óptica.
CLASES DE INFORMACION Datos: Información en forma numérica. f é i Es de naturaleza electromagnética.
7
22/08/2012
DATOS‐INFORMACIÓN Y CONOCIMIENTO DATOS: Secuencias de números, letras, etc. Secuencias de números letras etc presentados sin un contexto INFORMACIÓN. Datos organizados, tablas , estadísticas de ventas, una charla (chat) bien presentada (Conjunto coherente de datos que transmite un mensaje) CONOCIMIENTO. Información organizada junto con la comprensión de lo que significa dentro de un contexto, que se puede utilizar
INFORMACION‐CONOCIMIENTO
Conocimiento: Información integrada en las estructuras cognitivas de un individuo ( es personal e intransferible) No podemos N d ttransmitir iti conocimiento, i i t sólo información que el receptor puede o no convertirla en conocimiento
8
22/08/2012
Representación de la Información Numérica, alfabética, simbólica, lenguaje. lenguaje. 24/01/03
2424-0101-03
24 24--1-03
24/01/2003
01/24/03
0101-2424-03
1 1--2424-03
0101-2424-2003 ...
- Todos son el día 24 de enero del año 2003 Vitaminas: B12, C, ... Grupo sanguíneo: A2 Rh+ Elementos: Fe, Si, Hg Compuestos químicos: H2O, CO2 Más común
Lenguaje con código: “Hoy hace calor”
¿Qué información entrega el mensaje “Hace calor”?
Cantidad de Información (I) En función de la extensión del mensaje – Ante una pregunta cualquiera, una respuesta concreta y extensa nos entregará mayor información sobre el tema en particular, y diremos que estamos ante una mayor “cantidad de información”.
• Pregunta: ¿Hace calor allí?
(una playa en particular)
– Respuesta 1: Sí, hace mucho calor. – Respuesta 2: Cuando no sopla el viento viento, el calor allí es inaguantable pues supera los 42 grados a la sombra. – Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra.
¿Dónde hay una mayor cantidad de información?
9
22/08/2012
¿Qué es la información? Veremos qué información nos entrega un mensaje dependiendo del contexto en que nos encontremos: a) En función de la extensión del mensaje recibido. b) En función de la utilidad del mensaje recibido. c) En función de la sorpresa del mensaje recibido. d) Dependiendo del entorno de esa sorpresa. e) En función de la probabilidad de recibir un mensaje. ) E f ió d l b bilid d d ibi j
Cantidad de información (Caso 1) En función de la extensión del mensaje Ante una pregunta cualquiera, una respuesta concreta y
extensa nos entregará mayor información sobre el tema en particular, y diremos que estamos ante una mayor “cantidad de información”.
Pregunta: ¿Hace calor allí? (una playa en particular) Respuesta 1: Sí, hace mucho calor. Respuesta 2: Cuando no sopla el viento, el calor allí es
inaguantable pues supera los 42 grados a la sombra. – Respuesta 2: Cuando no sopla el viento, el calor allí es inaguantable pues supera los 42 grados a la sombra. ¿Dónde hay una mayor cantidad de información?
10
22/08/2012
Cantidad de información (Caso 2) En función de la utilidad del mensaje Ante una pregunta cualquiera, una respuesta más útil Ante una pregunta cualquiera una respuesta más útil
y clara nos dejará con la sensación de haber recibido una mayor “cantidad de información”.
Pregunta: ¿Hace calor allí? (una playa en particular) Respuesta 1: Sí, bastante calor. Respuesta 2: Si no hay viento de poniente, es normal
que la temperatura suba. – Respuesta 1: Sí, bastante calor. ¿Dónde hay una mayor cantidad de información?
Cantidad de información (Caso 3) En función de la sorpresa del mensaje Ante una pregunta cualquiera, una respuesta más Ante una pregunta cualquiera una respuesta más
inesperada y sorprendente, nos dará la sensación de contener una mayor “cantidad de información”.
Pregunta: ¿Hace calor allí? (Finlandia en primavera) Respuesta 1: Sí, muchísimo. Es insoportable. Respuesta 2: En esta época del año, la temperatura es
más suave y el tiempo muy agradable. más suave y el tiempo muy agradable
– Respuesta 1: Sí, muchísimo. Es insoportable. ¿Dónde hay una mayor cantidad de información?
11
22/08/2012
Cantidad de información (Caso 4) Dependencia del entorno (sorpresa) Ante una pregunta cualquiera, una respuesta más Ante una pregunta cualquiera una respuesta más
inesperada y sorprendente, nos dará la sensación de contener una mayor “cantidad de información”.
Pregunta: ¿Hace calor allí? (ahora las mismas respuestas hablan de la temperatura en un horno) Respuesta 1: Sí, muchísimo. Es insoportable. Respuesta 2: En esta época del año, la temperatura es
más suave y el tiempo muy agradable. – Respuesta 2: En esta época del año, la temperatura es más suave y el tiempo muy agradable. ? ¿Dónde hay una mayor cantidad de información?
Cantidad de información (Caso 5) En función de la probabilidad de recibir un mensaje Este enfoque probabilístico es el que nos interesará en
cuanto a la definición de Cantidad de Información. cuanto a la definición de Cantidad de Información
¿Dónde le da alegría a su cuerpo Macarena? Respuesta 1: En un país de Europa. Respuesta 2: En una capital de provincia de España. Respuesta 3: En el número 7 de la calle de la Sierpes
de Sevilla. – Respuesta 3: En el número 7 de la calle de la Sierpes de Sevilla. ¿Dónde hay una mayor cantidad de información?
12
22/08/2012
Incertidumbre e información Ante varios mensajes posibles, en principio todos equiprobables, equiprobables aquel que tenga una menor probabilidad será el que contenga una mayor cantidad de información.
En un ejemplo anterior: Al ser más extenso el número de calles en una ciudad que el
número de provincias en España y, esto último mayor que el número de países en Europa, el primero de ellos tendrá una mayor incertidumbre. Suponiendo todos los estados equiprobables, la cantidad de información será la mayor.
INFORMACION ¿Cuánta información obtenemos cuando nos dicen
que cierta persona tiene el pelo oscuro, o que es un hombre o una mujer? Lo primero que debe quedarnos claro es que el hecho de obtener información es equivalente al de disminuir la indeterminación con respecto a algo, de tal forma que se obtiene tanta más información cuanto más disminuya el grado de incertidumbre á d l d d d b que tenemos de cierto fenómeno.
13
22/08/2012
INFORMACION(continuación) Si se nos dicen las siguientes frases ‐La persona que describo tiene el pelo oscuro. La persona que describo es mujer.
INFORMACION(continuación) En la primera frase se nos da un dato de
todos los posibles (claro, castaño, pelirrojo, rubio,canoso, ...), al igual que en la segunda, pero en esta última el abanico de posibilidades no es tan grande (solo dos posibilidades), por tanto la primera nos da más información, al disminuir mucho más la incertidumbre que teníamos con respecto a la persona.
14
22/08/2012
INFORMACION(continuación) La cantidad de información que obtenemos
con un mensaje es directamente proporcional al número de estados posibles de la cuestión planteada.
INFORMACION(continuación) Algunas veces es conveniente expresar esta
incertidumbre con relación a la que teníamos antes de conocer la información: la/ld
Siendo la la incertidumbre antes de conocer el
mensaje, e ld la que tenemos después de mensaje dicho conocimiento.
15
22/08/2012
Grado de incertidumbre ci =
G ado de ce t du b e p e o a Grado de incertidumbre previo I Grado de incertidumbre posterior Id Si hay equiprobabilidad entonces p(xi) = 1/8
Ejemplo : En una bolsa hay un círculo, un cuadrado y un triángulo: negros o blancos. Esta será la combinación elegida Combinación nº 1 Combinación n nº 2 Combinación nº 3 Combinación nº 4
Combinación nº 5 Combinación n nº 6 Combinación nº 7 Combinación nº 8
¿Qué cantidad de información tiene cada uno de los estados?
Solución Combinación nº 1 Combinación nº 2 Combinación nº 3 Combinación nº 4
Combinación nº 5 Combinación nº 6 Combinación nº 7 Combinación nº 8
Los 8 estados serán equiprobables: p(xi) = 1/8
Incertidumbre inicial Ia = 8 Daremos algunas pistas :
Veamos esto ahora matemáticamente ...
Las figuras no son del mismo color: Ia baja de 8 a 6 al
descartarse las combinaciones 1 y 8. descartarse las combinaciones 1 y 8 El círculo es blanco: Ia baja de 6 a 3 (descarte 5, 6 y 7). Hay dos figuras blancas: Ia baja de 3 a 2 (descarte 4). El cuadrado es negro: Ia baja de 2 a 1 (descarte 2.) Se acaba la incertidumbre pues la solución es la combinación 3.
16
22/08/2012
Solución matemática Las figuras no son del mismo color. Ia baja de 8 a 6: ci1 = log (8/6) = log 8 ‐ log (8/6) log 8 log 6 El círculo es blanco. Ia baja de 6 a 3: ci2 = log (6/3) = log 6 ‐ log 3 Hay dos figuras blancas. Ia baja de 3 a 2: ci3 = log (3/2) = log 3 ‐ log 2 El cuadrado es negro. Ia baja de 2 a 1: ci4 = log (2/1) = log 2 ‐ log 1
Todas las magnitudes se pueden sumar como escalares:
ci = ci1 + ci2 + ci3 + ci4 = log 8 - log 1 = log 8
Base del logaritmo Sean: Ia la incertidumbre inicial Id la incertidumbre final l i tid b fi l
ci = log (Ia / Id) = log Ia ‐ log Id La cantidad de información tiene como unidad de medida la de un fenómeno de sólo dos estados, un fenómeno binario. Luego:
ci = log gb ((2/1) = log / ) gb 2 ‐ log gb 1 Si logb 2 debe ser igual a 1 entonces la base b = 2. Precisamente a esta unidad se le llama bit (binary digit) Ejemplo anterior: ci = log2 8 = 3 ¡Sólo 3 preguntas!
17
22/08/2012
Con sólo tres preguntas... Con sólo tres preguntas “más más o menos inteligentes inteligentes” podemos pasar de la incertidumbre total a la certeza: Pregunta 1: ¿Está entre la opción 1 y la 4? Sí Pregunta 2: ¿Está entre la opción 1 y la 2? No Pregunta 3: ¿Es la opción 4? No Combinación nº 1 Combinación nº 2 Combinación nº 3 Combinación nº 4
Se acaba la indeterminación
Combinación nº 5 Combinación nº 6 Combinación nº 7 Combinación nº 8
INFORMACION(continuación) Ejemplos: ‐Cuando nos dicen que una
persona es mujer, la incertidumbre antes era de 2 (número posible de estados), siendo la incertidumbre posterior 1 (ya sabemos que es mujer) Si el ordenador que genera letras al azar nos dice que ha salido una vocal la dice que ha salido una vocal, la incertidumbre antes del dato era 27 (número de letras), y ahora es 5 (número de vocales)
18
22/08/2012
INFORMACION(continuación) Definición: Sea un suceso A que puede
presentarse con probabilidad p(A), cuando dicho p p p suceso tiene lugar se ha recibido una información I(A) = log 1/p(A) Unidades Bit (base 2) Dit (base 10) Nit (base n)
Esto es cantidad de información
continuación BIT =0.30 DIT =0.69 NIT DIT 0 3.32 BIT= 2.3 NIT NIT =1.44 BIT =0.43 DIT
19
22/08/2012
INFORMACION(continuación) Laa información o ac ó más ás eelemental e e ta que
puede recibirse es la que indica la verificación entre dos sucesos igualmente probables. En este caso se que se ha recibido un bit de dice q información.
INFORMACION(continuación) Es muy importante distinguir entre
bit como unidad de información y los símbolos 0 y 1 que representa las señales binarias. Estos símbolos se suelen llamar impropiamente bits, pero pueden contener o no 1 bit de información información. Para distinguir a los distinguir, símbolos 0 y 1 se denominan binits.
20
22/08/2012
INFORMACION(continuación) Si la fuente dispone de 10 símbolos
igualmente probables, la emisión de uno de ellos proporciona una cantidad de información de un Hartley o Dit ( decimal digit ). Si se elige g un símbolo entre e ((base de logaritmos neperianos ) equiprobables, la información recibida será de 1 Nit.
ejemplo Consideremos una imagen de televisión. Es
una estructura de niveles de grises de pixels de 500 filas por 600 columnas. Admitiremos que de los 600*500 = 30.0000 puntos podemos escoger 10 niveles de grises, de manera que puede haber 10 30.000 imágenes distintas.
21
22/08/2012
Si todas son igualmente probables, la probabilidad de una de una imagen es de imagen es de
p(s) =
1 10 300.000
y
la cantidad de información es: I(A) = 300.000 log2 10 ~106 Bits Supongamos que un locutor de radio tiene un vocabulario de 10.000 palabras y utiliza con normalidad 1.000 palabras elegidas al azar. La probabilidad de una secuencia de 1.000 palabras es de
y por lo tanto la cantidad de información es
I(A) = - log2
1 = 1.3 10 4 Bits 10.000 1.000
Así pues una imagen de T.V. equivale a 100 palabras de radio.
22
22/08/2012
CODIFICACION DE LA INFORMACION Dígito decimal=> Representación binaria Características: Posibilidad de descodificar . Asignación a las palabras‐código la menor
longitud los mensajes de mayor probabilidad.
DIGITO-DECIMAL REPRESENTACION BINARIA Fuente
Palabras-código
0 1
2
0000 0001 0010
3 4 5 6 7 8
0011 0100 0101 0110 0111 1000
23
22/08/2012
CODIGO A SIMBOLO
PALABRAS CODIGO
S1 S2 S3 S4
0 01 011
Sea la secuencia binaria 1 1 1 0 0 1 puede provenir de la d i d l secuencia S4 S3 o bien de S4 S1 S2 por la tanto es un código que no se puede descifrar, cosa que no ocurriría con el siguiente
111
CODIGO B
SIMBOLO
PALABRAS-CODIGO
0
S1 S2 S3 S4
10 110 1110
24
22/08/2012
Otro problema que se nos plantea es el la
transmisión de la información. Supongamos que tenemos que transmitir la información del tiempo entre Madrid y Las Palmas con un equipo de todo nada. todo-nada. Supongamos que los cuatro estados del tiempo en madrid son equiprobables.
ESTADO DEL TIEMPO EN MADRID
MENSAJES
PROBABILIDADES
Soleado
1/2
Nublado
1/2
Lluvia
1/2
Niebla
1/2
25
22/08/2012
Código para el tiempo en Madrid
SIMBOLO S1 S2 S3 S4
PALABRAS-CODIGO PALABRAS CODIGO 00 01 10 11
CODIGO A
SIMBOLO S1 S2 S3 S4
PALABRAS-CODIGO 00 01 10 11
26
22/08/2012
Por ejemplo :
"soleado, codificaría
niebla,
niebla,
nublado"
se
00111101 Si quisiéramos transmitir la misma información de Las Palmas a Madrid, Madrid es evidente que no utilizaríamos el mismo código. Tendríamos que asignarle probabilidades diferentes.
ESTADO DEL TIEMPO EN LAS PALMAS
MENSAJES
PROBABILIDADES
Soleado
1/2
Nublado
1/4
Lluvia
1/8
Niebla
1/8
Si utilizamos el código A enviamos dos binits por mensaje independiente del estado del tiempo
27
22/08/2012
CODIGO TIEMPO EN LAS PALMAS SIMBOLO S1 S2
PALABRAS PALABRAS-CODIGO CODIGO
S3
110
S4
1110
0 10
Podemos tomar el 0 como final de la palabra‐código. Entonces el mensaje "nublado, soleado, soleado, lluvia" 1 0 0 0 1 1 0
ENTROPIA
Como vemos, la incertidumbre está relacionada con el número de estados posibles de un fenómeno. Por ejemplo el número de estados posibles de disponer 8 bits, es 256=28. El número de palabras ‐ El ú d l b con o sin sentido‐ que se pueden formar con 4 letras es 274.
El hecho de que la fórmula de la
cantidad de información, como veremos, presente el Lg (logaritmo en base 2) es para contrarrestar este carácter exponencial de los estados posibles y hacer las operaciones más fáciles. La base del logaritmo se toma 2, por comodidad, pero es igualmente válido cualquier otra base, ya que solo cambiaría por una constante. Recuérdese la fórmula: •LogaX= LogbX/logba
28
22/08/2012
Entropía (continuación) Las cosas no son tan idealizadas, ya que casi
cualquier fuente de información (una persona hablando, un ordenador "conversando" con otro, o un libro) tiene ponderados sus mensajes, es decir, algunos aparecen con más probabilidad que otros.
Entropía (continuación) Siempre hay mas apariciones de una letra del
alfabeto en un texto suficientemente grande, y es más probable que en nuestro país una persona sea morena. Por tanto esto también hay que tenerlo en cuenta.
29
22/08/2012
Entropía (continuación) Se obtiene más información si en un
texto español la siguiente letra que leemos es una W, que si nos encontramos con una E, ya que la primera es menos frecuente en p nuestro idioma, y su ocurrencia tiene mayor incertidumbre.
Entropía (continuación) Se le asocia a cada estado posible su
probabilidad, es decir, probabilidad decir a una variable aleatoria se le asocia su espacio de probabilidades. Se define entonces la Cantidad de Información de un estado i como: I[ai] = ‐log p(ai) Siendo p(ai) la probabilidad asociada al estado (ai).
30
22/08/2012
Entropía (continuación) Existen aquí dos casos extremos que
concuerdan con la idea intuitiva: Cuando la probabilidad de que algo suceda es 1,el suceso es seguro que ocurre, y la cantidad de información que obtenemos es nula, ya que ‐Lg(1)=0. Por el contrario cuando el suceso tiene i probabilidad b bilid d 0, la l información i f ió obtenida es +infinito , ya que tiene la máxima incertidumbre posible.
ENTROPIA La cantidad de información total del sistema.Promedio de las informaciones de cada elemento ponderado por su probabilidad. H[X] = E[I(X)] = p(ai) I(ai)
31
22/08/2012
Definición de entropía La entropía de un mensaje X, que se representa por H(X),
es el valor medio ponderado de la cantidad de información d l di de los diversos estados del mensaje. t d d l j k
H(X) = - p(ai) log2 p(ai) i=1
Esto lo veremos más adelante en fuentes de información
Es una medida de la incertidumbre media acerca de una
variable aleatoria y el número de bits de información. El concepto de incertidumbre en H puede aceptarse. Es evidente que la función entropía representa una medida de la incertidumbre, no obstante se suele considerar la entropía como la información media suministrada por cada símbolo de la fuente
Entropía (continuación) MENSAJE
M1
M2
M3
PROBABILIDADES
1/2
1/3
1/6
-log2 1/2 = 1
-log2 1/3 = 1.58
-log2 1/6 = 2.5
DEL MENSAJE
CONTENIDO INFORMATIVO DEL MENSAJE
CONTENIDO INFORMATIVO DEL
1/2*1 + 1/3*1.58 +
TOTAL DEL MENSAJE
1/6*2.58 = 1.46 Bits
32
22/08/2012
Entropía (continuación) Cambio de ocurrencia MENSAJE
M1
M2
M3
PROBABILIDADES
2/3
1/4
1/12
-log 2 2/3 = 0.58
-log 2 1/4 = 2
-log 2 1/12 = 3.5
DEL MENSAJE
CONTENIDO INFORMATIVO DEL MENSAJE
CONTENIDO INFORMATIVO DEL
2/3*058 + 1/4*2 +
TOTAL DEL MENSAJE
1/12*3.5 = 1.18 Bits
En base a todo lo anterior p podemos dar una
definición del concepto de entropía. Sea una variable aleatoria (X) que toma valores de un conjunto A = [ a1, a2, .....an ] d t d de dotado d una función f ió de d probabilidades b bilid d p(ai) = Prob [X=ai] para p(ai) = 1
33
22/08/2012
Si I(ai) es el grado de incertidumbre sobre la
realización de un suceso X definimos la entropía de la variable X como la esperanza matemática de I(x) relativa al conjunto A. H[X] = E[I(X)] = p(ai) I(ai) H[X] = E[I(X)] = ‐ p(ai) log p(ai)
Entropía (continuación)
Caso 1 ----------> 1 bola negra (N) y 1 bola banca (B) Caso 2 ----------> 9 bolas negras (N) y 1 bola banca (B) Caso 3 ----------> 99 bolas negras (N) y 1 bola banca (B)
Caso 1 N -----> p(x1) = 1/2 B ----> p(x2) = 1/2 H[x1] = -[1/2 log2 1/2 + 1/2 log2 1/2] = 1 Bits
34
22/08/2012
continuación Caso 1 N ‐‐‐‐‐> p(x1) = 1/2
B ‐‐‐‐> p(x2) = 1/2 H[x1] = ‐[1/2 log2 1/+ 1/2 log2 1/2] = 1 Bits
Caso 2 N ‐‐> p(x1) = 9/10 B ‐‐> p(x2) = 1/10 H[x1] =[1/10 log2 1/10 +
9/10 log2 9/10] = 0.67 0 67 B
Entropía (continuación) Caso 3 N ‐‐> p(x1) = 99/100 B ‐‐> p(x2) = 1/100 H[x1] = [1/100 log2 1/100 + 99/100 log2
99/100] = 0.08 Bits El primer caso es más incierto que el segundo y este más que el tercero, en el cual se tiene la certeza de obtener la bola negra. O sea que la entropía aumenta cuando aumenta la incertidumbre
35