Num´erica Resumiendo N´ umero 10 Septiembre, 2017
Aprendizaje no supervisado: agrupamiento o clustering
Introducci´ on
Tipos de algoritmos
El aprendizaje no supervisado (unsupervised learning) no requiere que las instancias (observaciones, objetos o individuos) tengan un etiquetado previo, est´a basado en datos reales para formar un nuevo concepto y determinar relaciones de similitud, diferencia o asociaci´on.
Las t´ecnicas de agrupamiento o clustering son muy utilizadas en problemas de aprendizaje no-supervisado, pues las instancias se agrupan de acuerdo a un esquema de similitud y los datos de entrenamiento no especifican qu´e se est´a intentando aprender mediante los agrupamientos.
Se puede utilizar en tareas de generalizaci´on, descubriendo instancias similares, que comparten propiedades, y pudiendo incorporar futuras instancias en los agrupamientos generados.
Comparativo entre procedimientos Jer´ arquicos
No jer´ arquicos
M´ etodos de agrupamiento Enlace
No exige una definici´on del n´ umero de conglomera- Se debe definir previamente el n´ umero de clusters 1. Simple (single-linkage), similitud de los dos puntos m´as cercanos: Dsin (CA , CB ) = m´ınp∈CA ,p0 ∈CB |p − p0 |
dos Proceso iterativo de abajo hacia arriba con n − 1 Posee algunos ´ındices que indican en n´ umero o´ptimo pasos, partiendo de n grupos para terminar en un de conglomerados aglomerado
2. Completo (complete-linkage), similitud de los dos puntos m´as lejanos: Dcom (CA , CB ) = m´axp∈CA ,p0 ∈CB |p−p0 | 3. Promedio (average-linkage), distancia media entre cualquier punto de un cluster con cualquier punto de P 1 0 otro cluster: Dpro (CA , CB ) = |nA ||n p∈CA ,p0 ∈CB |p − p | B|
Permite obtener distintos tipos de resultados gr´afi- Proporcionan los valores de los centroides de los grucos y num´ericos que facilitan la interpretaci´on de los pos, lo que facilita la interpretaci´on
Centroide, distancia entre dos clusters entre sus centroides: Dcen (CA , CB ) = Dp∈CA ,p0 ∈CB (¯ p − p¯0 )
resultados Limita la posilibilidad de aplicaci´on con muestras Ofrecen resultados adicionales que permiten selecciomuy grandes porque se precisa una gran cantidad nar las variables para la interpretaci´on de los conglode c´alculos
Varianza (Ward), busca minimizar la varianza dentro de cada grupo, uniendo conglomerados cuando la varianza P P P es m´ınima: Dwar (CA , CB ) = p∈CA (p − rA )2 + p∈CB (p − rB )2 − p∈CA ,p∈CB (p − rAB )2
merados
Pueden aplicarse sobre los casos y sobre las variables S´olo pueden aplicarse sobre casos
Ejemplos gr´ aficos
Distancia o similitud La distancia o similitud es una medida de semejanza entre las instancias que ser´an agrupadas. Para datos cuantitativos los m´etodos usados son: correlaci´on y distancia; mientras que para datos cualitativos el m´etodo usado es la medida de asociaci´on. ~ 1, X ~ 2) = Euclidea: D(X
pPn
i=1 (X1i
a) Distancia Euclidea
− X2i )2
b) Distancia Manhattan
c) Distancia Chebyshev
~ 1, X ~ 2 ) = ||X1 − X2 || = n Pn |X1i − X2i | Manhattan: D(X i=1 ~ 1, X ~ 2 ) = m´axi=1,...,n (|X1i − X2i |) Chebyshev: D(X 1
~ 1, X ~ 2 ) = [Pn |x1i − x2i |p ] p Minkowski: D(X i=1 ~ 1, X ~ 2) = Mahalanobis: D(X
r
(x11 −x12 ) σ1
2
+
(x21 −x22 ) σ2
2 d) Manhattan-Single
e) Manhattan-Average
f) Manhattan-Ward
Referencias [1] Quituisaca-Samaniego, L. (2017). Desde los datos al conocimiento: conceptos relacionados. Num´erica Resumiendo, No. 9. Disponible en: https://goo.gl/ZMzcjY.
[2] Han, J., Kamber, M. & Pei, J. (2012). Data mining: concept and technique. San Francisco: Morgan Kaufmann.
[3] Xu, R. & Wunsch, D. (2009). Clustering. USA:Wiley.
[4] Witten, I. & Frank, E. (2005). Data Mining. USA: Morgan Kaufmann Publishers.
Citar como: ´ Quituisaca-Samaniego, L. & Alvarez, H. (2017). Aprendizaje no supervisado: agrupamiento o clustering. Num´erica Resumiendo, No. 10. Disponible en: www.numericaiid.com/#NIIDResumiendo
[email protected] —
[email protected] www.numericaiid.com