R Fundamentals Rafael Ventura 2017-02-25 Objetivos 1 Toma de contacto con la preparación de datos usando R, en particular la transformación, cálculo de métricas derivadas y enriquecimiento de datos. 2 Aprender los fundamentos de la exploración de datos previa a la preparación de modelos
Actividades 1) Leer datos Importar la tabla transactions de la base de datos focus40_mdaworkshopr en el data frame transactions. Es necesario utilizar la librería RODBC 1 y la funciones odbcConnect y SQLFetch()1 . Ver post de Joseph Rickert[1]
2) Modificar formato de datos Cambiar el tipo de dato del campo Date de tipo factor a tipo date con el formato “YYYY-mm-dd”, usando la función as.Date()2 .
2
Ver Jeff Leeks [2]
3
Jeff Leek [2]
4
Jeff Leek [2]
5
Ibid Ver función seq()[3]
3) Tratamiento de cabeceras Eliminar el caracter “_" de las cabeceras de la tabla, usando la función sub()3 . Cambiar todas la cabeceras a minúsculas usando la función tolower()4 .
4) Métricas derivadas Asignar los meses desde la última compra (campo recenciacompra) a un rango desde 0 a 60 meses en intervalos de 6 meses cada uno y añadir al data frame transactions obtenido en la actividad 1 con el nombre timeranges. Se utilizará la función cut()5 y seq()6 .
6
6) Enriquecimiento de datos Importar los datos de provincia de cada cliente desde el fichero mda_client_prov.csv y añadir el código de la provincia al data frame transactions mediante la función merge()7 . Identificar el campo por que se han de cruzar ambos conjuntos de datos.
7
Jeff Leek [2]
r fundamentals
2
Importar los datos de las campañas de marketing desde el fichero campaign-data.csv y enriquecer los datos de ventas con los datos de
las campañas de marketing online usando la función merge()8 . Es importante tener en cuenta que deben mantenerse todas las transacciones después del cruce.
8
Jeff Leek[2]
9
Ver función plot()[4]
7) Exploración de datos Crear un histograma de frecuencia del número de clientes por código de provincia, usando la funcion plot()9 . Crear un gráfico de dispersión ltv vs compra24m para cada provincia en el mismo gráfico y cuadrículas diferentes usando la función xyplot() de la librería lattice10 . Comparar con los gráficos creados con ggplot.
10
Ver función xyplot de Lattice[5]
11
Ver referencia [6]
12
ver [7]
8) Aplicación de filtros y selección de datos Crear un sub-conjunto del data frame transactions con las compras realizadas solo durante los últimos 24 meses usando la función subset()11 y guardarlo en otro data frame.
9) Muestreo Obtener una muestra con el 5% del total de registros del sub-conjunto creado en el paso 8 usando la función sample()12 .
Datos Detalles de la conexión: Servidor: yoohoo.lunarbreeze.com Puerto: 3306 Base de datos: focus40_mdaworkshopr Usuario: focus40_mda Password: tB2!K*gH1.Hh
Referencias [1] Joseph Rickert, Using Azure as an R datasource: Part 2- Pulling Data from MySQL/MariaDB: Connecting to the database from R on Windows. (http://www.r-bloggers.com/using-azure-as-an-r-datasource-part-2-pulling-data-from-mysqlmariadb/) [2] Jeff Leeks, Data Munging Basic(https://www.dropbox.com/s/ m5qpzo2qs5hs55k/dataMungingBasics.pdf?dl=0). Especialmente las funciones cut(), merge(),
r fundamentals
[3] R Development Core team, R Documentation. Función seq()(http: //stat.ethz.ch/R-manual/R-devel/library/base/html/seq.html).
[4] R Development Core team, R Documentation.Función plot()(https: //stat.ethz.ch/R-manual/R-devel/library/graphics/html/plot. html).
[5] Roger Peng, Lattice Functions (https://www.dropbox.com/s/ kr4fmzx91ebv094/slides_PlottingLattice.pdf?dl=0). [6] R Development Core team, R Documentation.Función subset()(https: //stat.ethz.ch/R-manual/R-devel/library/base/html/subset. html).
Entre los minerales destacan Zinc, hierro y cobre: son minerales que mejoran el funcionamiento del ... El cobre en los cereales integrales, .... Sulfato de zinc.
19 ene. 2018 - Equipo policial del vecindario del Departamento de Policía de Oxnard. Guardia Nacional de California - Brigada Antidrogas. (S)ospechosos, (V)íctimas, (P)artes(s), (A)rrestados. Ciudad de residencia. Edad. (S) Juan Nava. (A) Daniel Nava
20 mar. 2018 - Esta semana, el sur de California espera un sistema fuerte de tormentas que, según las previsiones, traerá consigo lluvias al condado de Ventura. A medida ... Camino de Casitas Pass / Este: Camino de Santa Ana / Oeste: Rincon Road. Oja
Entre los minerales destacan Zinc, hierro y cobre: son minerales que mejoran el funcionamiento del sistema inmune. El zinc se encuentra en los cereales.
estrategia interna o de un "santuario virtual". Insistimos por tanto en la paradoja tec- nológica. Por otro lado, la adaptación del uso de los nuevos medios al plano local nos lleva a percibir otro reciente fenómeno, que se originó en el mundo indust
1995; Mainwaring y Shugart, 1997; Nohlen y Fernández, 1998). Básicamente, un régimen presidencial puede ... En el proceso de democratización de las elecciones políticas en México, las negociaciones entre los ..... una asamblea numerosa, por lo que su
aquellas sociedades, regulares o irregulares, fundaciones, asociaciones, ... c) Efectuar de forma directa e indirecta una solicitud de dinero con fines políticos ...
Ésta requiere, en general, dos componentes: A) Primero. La adecuada representación del pluralismo polí- tico a través de elecciones competitivas y honestas.
provincia de Jaén en 1822 y 1823. A partir de .... miendas que posee el Sr. Infante Don Carlos en el arzobispado de Toledo corresponde a sus administradores.
esquemática, y a continuación de cada uno se formula una pro- puesta de reforma, también en ..... LUJAMBIO, Alonso, “Del autoritarismo mayoritario a la demo-.
9 may. 2015 - 14 a 21hs - Centro Cultural Universitario (Yrigoyen 662) ... Coordina Equipo de Formación Mesa de la Economía Social y Solidaria de Tandil.