Algoritmos de clustering y búsqueda de asociaciones AWS

En el apartado de normalización de atributos, se seleccionan las variables cuantitativas para realizar la segmentación pero para la compañía aseguradora es fundamental incluir en la misma si tiene contratada la garantía de daños propios o no (variable gdi). ¿Es posible incluirlo en la segmentación como una variable ...
2MB Größe 78 Downloads 122 vistas
Algoritmos de clustering y búsqueda de asociaciones UOC - Master BI - Business Analytics (Nombre Estudiante) Noviembre del 2017

Contents Introducción

2

Objetivos e información disponible

2

Apartados de la práctica

3

Directorio de trabajo

3

Importación del fichero de datos .csv. Manipulación y representación de las variables.

4

Normalización de atributos

7

Agrupación jerárquica: Algoritmo aglomerativo Uso de la función hclust() para la aglomeración de elementos Representación gráfica, Dendograma . . . . . . . . . . . . . . Asignación de los clusters . . . . . . . . . . . . . . . . . . . . Representación de los cluster . . . . . . . . . . . . . . . . . . Representación gráfica de variables por cluster . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

Agrupación no jerárquica: Algoritmo kmeans Uso de la función kmeans() para la formación de cluster (grupos o perfiles Elección del número de clústers . . . . . . . . . . . . . . . . . . . . . . . . Asignación de los clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . Representación de los cluster . . . . . . . . . . . . . . . . . . . . . . . . . Representación gráfica de los clústers . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

9 9 10 11 12 12

de individuos) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

13 13 14 16 17 17

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

. . . . .

Ejercicios PEC2 18 Ejercicio 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 En el apartado de normalización de atributos, se seleccionan las variables cuantitativas para realizar la segmentación pero para la compañía aseguradora es fundamental incluir en la misma si tiene contratada la garantía de daños propios o no (variable gdi). ¿Es posible incluirlo en la segmentación como una variable más?. En caso afirmativo, realizar dicha inclusión y construir una segmentación kmeans con k=4. En caso contrario, indicar el motivo por el que no se puede incluir. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Ejercicio 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 En el apartado de asignación de clusters del algorimto kmeans se ha asignado a cada asegurado un segmento mediante el algoritmo no jerárquico kmeans considerando 5 centroides. ¿Podemos comparar estas asignaciones con las que se obtendrían separando en 5 grupos la segmentación realizada en 7.3 utilizando el algoritmo jerárquico hclust? ¿Son los mismos segmentos? ¿Hay diferencias? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Ejercicio 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 ¿Por qué se ha utilizado el comando set.seed() en el entranamiento del algoritmo kmeans pero no en el entrenamiento del algoritmo jerárquico? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Ejercicio 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1

La compañía aseguradora quiere conocer la relación entre los 4 segmentos construidos con el algoritmo jerárquico y la contratación o no de garantía de daños. Analice, para cada segmento, el número y porcentaje de asegurados que tienen contratada dicha garantía. . . . . . . . . . . . . . . . . Ejercicio 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . En el apartado sobre la elección del número de clústers del algoritmo kmeans se muestra un gráfico que toma como variable referencia la suma de cuadrados entre ‘$betweenss’. . . . . . . . . . . Dibuja un gráfico equivalente, tomando como referencia la suma de cuadrados en ‘$tot.withinss’ e interpreta el resultado proponiendo un número de clústers adecuado para el juego de datos. . Ejercicio 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . En el apartado de Manipulación y representación de variables se ha realizado un análisis gráfico de la relación entre el número de sinistros y el sexo del asegurado. Ahora nos gustaría realizar un análisis de la relación entre el número de sinistros y la contratación o no de garantía de daños propios. ¿Existe alguna relación?. Muestre la representación gráfica y razone la respuesta. . .

21 23 24 24 25

25

Introducción Esta práctica está basada en los puntos 3.3.1, 3.3.2 y 3.3.3 del material didáctico (Business Analytics) de la asignatura. En el punto 3.3.1 se explica el procedimiento de segmentación jerárquica, mientras en los puntos 3.3.2 y 3.3.3 se explican procedimientos de segmentación no jerárquica para la formación de grupos que, respecto a la información utilizada, sean homogéneos dentro de si mismos y heterogéneos entre unos y otros. A lo largo de la práctica se proponen una serie de representaciones gráficas que ayudan a la interpretación de los resultados, sin embargo, podéis insertar más visualizaciones de las propuestas o incluso más código del estrictamente exigido en los ejercicios, eso sí, siempre con el objetivo de completar y mejorar el estudio propuesto. En esta práctica importaremos los datos desde un fichero de texto .csv con los campos delimitados por “;”. Dichos datos corresponden a la información sobre algunas características de una muestra de asegurados procedentes de una cartera de seguros de automóvil. Los datos han sido extraídos de una cartera de asegurados real, aunque para garantizar la confidencialidad de la información se ha seleccionado una muestra no representativa o sesgada de la realidad.

Objetivos e información disponible El objetivo de esta segunda PEC se centra en la determinación de distintos perfiles de asegurados del automóvil. Las variables que se definen en la base de datos y sus contenidos son: –poliza: Identificador de póliza –Sexo: Sexo del cliente –sri: Situación de riesgo o zona de circulación urbana o no urbana –gdi: Contratada garantía de daños propios o no –sin: Número de siniestros en el año analizado

2

–ant_comp: Antigüedad del cliente en la compañía (en años) –ant_perm: Antigüedad del permiso de conducir del asegurado (en años) –edad: Edad del asegurado (en años) –ant_veh: Antigüedad del vehículo asegurado (en años).

Apartados de la práctica El código R que utilizaremos en la práctica se divide en apartados según las tareas que iremos realizando: • Directorio de trabajo • Importación del fichero de datos .csv. Manipulación y representación de las variables • Normalización de atributos • Agrupación jerárquica: Algoritmo aglomerativo • Uso de la función hclust() para la aglomeración de elementos • Representación gráfica, Dendograma • Asignación de los clusters • Representación de los cluster • Representación gráfica de variables por cluster • Agrupación no jerárquica: Algoritmo kmeans • Uso de la función kmeans() para la formación de cluster (grupos o perfiles de individuos) • Elección del número de clústers • Asignación de los clusters • Representación de los cluster • Representación gráfica de los clústers • Ejercicios PEC3: Análisis cluster

Directorio de trabajo Antes de pasar a la importación y análisis de los datos definimos un directorio de trabajo o carpeta donde tenéis guardado el fichero de datos. Recordad que si abrís el RStudio desde vuestro directorio de trabajo, pulsando sobre el fichero .RMD que se os proporciona como parte del enunciado, este paso no haría falta. #setwd("Pon aquí el directorio utilizado") #Cambiar el argumento de setwd() con vuestro directorio, recordad utilizad las barras /.

3

Importación del fichero de datos .csv. sentación de las variables.

Manipulación y repre-

En primer lugar leemos el fichero de datos con extensión .csv que contiene la información de las 8.088 pólizas analizadas y mostramos su cabecera. # Lectura de datos Cartera