Num´erica R esumi endo

[4] Witten, I. & Frank, E. (2005). Data Mining. USA: Morgan Kaufmann Publishers. Citar como: Quituisaca-Samaniego, L. &´Alvarez, H. (2017). Aprendizaje no supervisado: agrupamiento o clustering. Numérica Resumiendo, No. 10. Disponible en: www.numericaiid.com/#NIIDResumiendo · [email protected] ...
5MB Größe 14 Downloads 62 vistas
Num´erica Resumiendo N´ umero 10 Septiembre, 2017

Aprendizaje no supervisado: agrupamiento o clustering

Introducci´ on

Tipos de algoritmos

El aprendizaje no supervisado (unsupervised learning) no requiere que las instancias (observaciones, objetos o individuos) tengan un etiquetado previo, est´a basado en datos reales para formar un nuevo concepto y determinar relaciones de similitud, diferencia o asociaci´on.

Las t´ecnicas de agrupamiento o clustering son muy utilizadas en problemas de aprendizaje no-supervisado, pues las instancias se agrupan de acuerdo a un esquema de similitud y los datos de entrenamiento no especifican qu´e se est´a intentando aprender mediante los agrupamientos.

Se puede utilizar en tareas de generalizaci´on, descubriendo instancias similares, que comparten propiedades, y pudiendo incorporar futuras instancias en los agrupamientos generados.

Comparativo entre procedimientos Jer´ arquicos

No jer´ arquicos

M´ etodos de agrupamiento Enlace

No exige una definici´on del n´ umero de conglomera- Se debe definir previamente el n´ umero de clusters 1. Simple (single-linkage), similitud de los dos puntos m´as cercanos: Dsin (CA , CB ) = m´ınp∈CA ,p0 ∈CB |p − p0 |

dos Proceso iterativo de abajo hacia arriba con n − 1 Posee algunos ´ındices que indican en n´ umero o´ptimo pasos, partiendo de n grupos para terminar en un de conglomerados aglomerado

2. Completo (complete-linkage), similitud de los dos puntos m´as lejanos: Dcom (CA , CB ) = m´axp∈CA ,p0 ∈CB |p−p0 | 3. Promedio (average-linkage), distancia media entre cualquier punto de un cluster con cualquier punto de P 1 0 otro cluster: Dpro (CA , CB ) = |nA ||n p∈CA ,p0 ∈CB |p − p | B|

Permite obtener distintos tipos de resultados gr´afi- Proporcionan los valores de los centroides de los grucos y num´ericos que facilitan la interpretaci´on de los pos, lo que facilita la interpretaci´on

Centroide, distancia entre dos clusters entre sus centroides: Dcen (CA , CB ) = Dp∈CA ,p0 ∈CB (¯ p − p¯0 )

resultados Limita la posilibilidad de aplicaci´on con muestras Ofrecen resultados adicionales que permiten selecciomuy grandes porque se precisa una gran cantidad nar las variables para la interpretaci´on de los conglode c´alculos

Varianza (Ward), busca minimizar la varianza dentro de cada grupo, uniendo conglomerados cuando la varianza P P P es m´ınima: Dwar (CA , CB ) = p∈CA (p − rA )2 + p∈CB (p − rB )2 − p∈CA ,p∈CB (p − rAB )2

merados

Pueden aplicarse sobre los casos y sobre las variables S´olo pueden aplicarse sobre casos

Ejemplos gr´ aficos

Distancia o similitud La distancia o similitud es una medida de semejanza entre las instancias que ser´an agrupadas. Para datos cuantitativos los m´etodos usados son: correlaci´on y distancia; mientras que para datos cualitativos el m´etodo usado es la medida de asociaci´on. ~ 1, X ~ 2) = Euclidea: D(X

pPn

i=1 (X1i

a) Distancia Euclidea

− X2i )2

b) Distancia Manhattan

c) Distancia Chebyshev

~ 1, X ~ 2 ) = ||X1 − X2 || = n Pn |X1i − X2i | Manhattan: D(X i=1 ~ 1, X ~ 2 ) = m´axi=1,...,n (|X1i − X2i |) Chebyshev: D(X 1

~ 1, X ~ 2 ) = [Pn |x1i − x2i |p ] p Minkowski: D(X i=1 ~ 1, X ~ 2) = Mahalanobis: D(X

r

(x11 −x12 ) σ1

2

+



(x21 −x22 ) σ2

2 d) Manhattan-Single

e) Manhattan-Average

f) Manhattan-Ward

Referencias [1] Quituisaca-Samaniego, L. (2017). Desde los datos al conocimiento: conceptos relacionados. Num´erica Resumiendo, No. 9. Disponible en: https://goo.gl/ZMzcjY.

[2] Han, J., Kamber, M. & Pei, J. (2012). Data mining: concept and technique. San Francisco: Morgan Kaufmann.

[3] Xu, R. & Wunsch, D. (2009). Clustering. USA:Wiley.

[4] Witten, I. & Frank, E. (2005). Data Mining. USA: Morgan Kaufmann Publishers.

Citar como: ´ Quituisaca-Samaniego, L. & Alvarez, H. (2017). Aprendizaje no supervisado: agrupamiento o clustering. Num´erica Resumiendo, No. 10. Disponible en: www.numericaiid.com/#NIIDResumiendo

[email protected][email protected] www.numericaiid.com