Ejercicio de Análisis de Regresión Lineal Múltiple Objetivo: Desarrollar una ecuación de regresión lineal múltiple utilizando el precio semanal de alquiler como variable dependiente y el número de habitaciones, la cantidad de baños y cuántas personas alojará la cabaña, como variables independientes. Analizar la ecuación de regresión. ¿cuál es coeficiente de determinación? Si se suprime alguna de las variables, volver a calcular la ecuación de regresión y analízala.
Fuente de datos: http://www.dunes.com/ Parametros de la busqueda: Minimum Bedrooms: 5
| Minimum Occupancy: 14
| Location: Oceanfront
| Amenity: Internet
| Maximum Price: $5,000
Datos: Rate wk Bedrooms Bathrooms Occupancy $2,485 6 6.5 16 $2,540 6 6.0 18 $3,865 7 7.5 16 $2,285 7 4.0 14 $2,330 7 4.0 16 $2,880 6 4.0 16 $1,810 6 5.5 16 $2,090 5 4.0 14 $2,550 8 4.0 16 $1,530 6 5.0 14 $1,575 5 2.5 16 $1,490 5 3.0 15 $2,050 5 5.0 14 $3,205 5 4.5 15 $2,695 7 4.0 16 Se realiza el análisis de regresión de los datos en Excel. SUMMARY OUTPUT Regression Statistics Multiple R
0.620053057
R Square
0.384465794
Adjusted R Square
0.216592828
Standard Error
578.7509289
| Arrival: 08/27/2016
Observations
15
ANOVA df
SS
Regression
3
MS
F
2301344.318 767114.7727 2.290218634
Residual
11
3684479.015 334952.6378
Total
14
5985823.333
0.13497555
X Variable 1
179.3140548
X Variable 2
221.0128927
Upper Lower 95.0% 95.0% 2162.031013 -0.41073663 0.689153124 5646.623505 3870.572842 5646.623505 3870.57284 170.5984708 1.051088289 0.315761231 196.1706475 554.7987572 196.1706475 554.798757 123.4496983 1.790307272 0.100934042 50.69806123 492.7238466 50.69806123 492.723847
X Variable 3
73.37243508
147.5953596 0.497118848 0.628891495 -251.482761 398.2276311 -251.482761 398.227631
Coefficients Intercept
-888.0253314
Standard Error
Significance F
t Stat
P-value
Lower 95%
Upper 95%
Formula de regresión: y = -888.02 + 179.31(x1) + 221.01(x2) + 73.37(x3)
Rate wk = -888.02 + 179.31(Bedrooms) + 221.01(Bathrooms) + 73.37(Occupancy) Coeficiente de determinación ajustado = 0.21659 Análisis: Primero observamos el coeficiente de determinación, este es positivo, por otro lado nos muestra un muy bajo coeficiente de determinación, lo que nos indica una baja correlación entre las variables independientes con la dependiente. Por tal motivo sin embargo, se buscara analizar otros elementos más adelante que podamos tener una mayor accesibilidad de datos que permita ampliar esta investigación y determinar las variables que impacten en la renta. De la formula de regresión el valor de intersección no tiene interpretación alguna ya que ninguna de las variables tomara valor igual a "0" en este ejercicio, por otro lado todos los coeficientes (pendientes) de las variables son positivos, lo que muestra que hay una relación directa, si aumenta una variable independiente, aumentara la variable dependiente, la renta.
y = 0.000x + 14.31 R² = 0.092
20 15
y = 0.001x + 3.913 R² = 0.354
10
Bedrooms Bathrooms Occupancy Linear (Bedrooms)
5
y = 0.001x + 1.079 R² = 0.428
0 $0
$1,000 $2,000 $3,000 $4,000 $5,000
Linear (Bathrooms) Linear (Occupancy)
Con el fin de entender la baja correlación de las variables obtenemos una grafica de dispersión. De acuerdo a la grafica de dispersión, si bien hay mucha dispersión, se observa por la distribución y el valor de correlación la variable que tiene menor correlación con la variable independiente es la de Occupancy (ocupación), y las que tiene mayor determinación del precio de renta por su correlación son el número de habitaciones y baños. De los datos eliminamos el registro 10 y el 14 con el fin de mejorar el coeficiente de correlación y obtenemos un coeficiente de correlación ajustado de 0.519496 qui si bien es aun bajo es muy superior al que obtuvimos antes de eliminar los dos registros. Regression Statistics Multiple R
0.799764
R Square
0.639622
Adjusted R Square
0.519496
Standard Error
428.3755
Observations
13
Eliminamos ahora la variable ocupación y obtenemos: Regression Statistics Multiple R
0.799746
R Square
0.639594
Adjusted R Square
0.567513
Standard Error
406.4086
Observations
13
Coefficients Intercept
Standard Error
t Stat
P-value
Lower 95%
Upper 95%
Lower 95.0%
Upper 95.0%
-564.64
773.1068
-0.73035
0.481935
-2287.23
1157.949
-2287.23
1157.949
X Variable 1
295.3691
121.9713
2.421627
0.035961
23.60006
567.1381
23.60006
567.1381
X Variable 2
239.2633
84.99773
2.814938
0.018319
49.87658
428.65
49.87658
428.65
Rate wk = -564.64 + 295.3691(Bedrooms) + 239.2633(Bathrooms) Coeficiente de correlación: 0.567513 Conclusión: Como se puede apreciar hay una mejora en la correlación y por lo que podemos concluir que el número de habitaciones y baños son de mayor determinación en el precio de renta. Segunda Reflexión: La dispersión de las variables y la relativamente baja correlación con la variable dependiente, pudiera deberse en una apreciación de acuerdo a la información que se dispone seria la siguiente: Primero.- La ubicación o zona donde se encuentra el edificio. Segundo.- Calidad del mobiliario y servicios. Tercero.- De acuerdo a las imágenes en la pagina, las construcciones muestras en algunos casos mucha diferencia en la calidad entre unas y otras.
Conclusión final: Se observo que el número de habitaciones y baños tienen el mayor impacto de correlación en el precio de renta. Sería conveniente para hacer un análisis más preciso y consistente, contar con una variable adicional como se hace en el sector hotelero y marcar con un valor de numero de estrellas para diferenciar las instalaciones y servicios.