muestral (s xy. ). Para Galápagos S xy. =0.41. ∑. = −. = n i i. Y. YY. SS. 1. 2. ) (. Si SS y se divide por (n-1) se obtiene la varianza muestral de la variable y. SS x.
Al graficarse los datos de riqueza específica vs área se observan valores extremos (outliers). Se aconseja la transformación de las variables (log).
Modelo de regresión y residuos
Yi = β o + β 1 X i +ε i
d i = yi − yˆ i
n
RSS = ∑ (Yi − Yˆi ) 2 i =1
Pares de observaciones con extracción de medición en X (valor Xi) e Y (valor Yi). Modelo fijado con i=1,2,…n réplicas. Buscando el mejor modelo que fije los datos observados implica menor residuo (di). El residuo es la diferencia entre valor observado (yi) y el predicho por la ecuación de regresión ( yˆ )
La línea de regresión debe fijar a todos los datos en cjto y por eso surge la suma residual de cuadrados (RSS). Minimizar RSS para encontrar la línea que resulte en el promedio más pequeño de diferencias entre cada y e yˆ
1 n s xy = ( X i − X )(Yi − Y ) ∑ n − 1 i =1
n
SSY = ∑ (Yi − Y )
n
2
i =1
βˆ1 =
Recordando lo que significa covarianza muestral (sxy). Para Galápagos Sxy=0.41.
S XY SS XY = 2 S x SS X
SS x = ∑ ( X i − X ) i =1
2
Si SSy se divide por (n-1) se obtiene la varianza muestral de la variable y. SSx es var de la variable X.
Estimación de parámetros por mínimos cuadrados. Designa nuestra estimación de la pendiente.βˆ1En Islas Galápagos βˆ1 =0.41/1.24=0.331. Pendiente en unidades de ΔY / ΔX . El cambio en log(cantidad de especies) /el cambio en log (área de isla).
βˆ0 = Y − βˆ1 X
Estimación de la ordenada al origen o intercepto (cuanto vale Y(log abundancia sps) cuando X vale cero (log (area)=0 implica que X=1 km2.
Hasta el momento no se determinó ningún supuesto de distribución en cjto de valores de Y. Pero los errores deben presentar una distribución normal con media cero y varianza (σ2). Si σ2 es grande, los datos observados estarán ampliamente distribuidos alrededor de la línea de regresión. Entonces pretendemos un σ2 pequeño. n
RSS = σˆ = n−2 2
∑ [Y n
σˆ 2 =
i =1
i
∑ (Y i =1
i
− Yˆi ) 2
n−2
2 − ( βˆ0 − βˆi X i )]
n−2
gl (grados de libertad)=n-2 porque son dos parámetros a estimar: intercepto βˆ0 y pendiente (βˆ1 ). En islas Galápagos σ2=0.32.
SCT= suma cuadrados totales, variabilidad total de Y (SSy) SCE= suma cuadrados debida a regresión, componente sistemático (SSreg) SCR= suma cuadrados residual que es lo aleatorio que no responde el modelo lineal simple (RSS)
Componentes de la Varianza y su partición SSy representa el total de variación de Y que tratamos de particionar en componente aleatorio (muestreo aleatorio de distribución normal, RSS) y componente sistemático que se debe a la relación de regresión (SSreg). Lo que se espera con el modelo es que SSreg>>RSS. Así la mayor variación o cambios en la variable respuesta se debe a la regresión. SSy=SSreg+RSS SSreg=SSy-RSS
r2 =
SS reg SS y
=
SS reg SS reg + RSS
Coeficiente de determinación (r2): la proporción de variación de en Y que puede ser atribuida a X a través de una regresión lineal simple. r2 varía entre 0 y 1porque es proporción. Si RSS es pequeño implica que σ2 es pequeño y r2 será grande por lo que más estrechamente los datos se acercan a la línea de regresión fijada.
r=
SS xy ( SS x )( SS y )
=
S xy Sx Sy
Coeficiente de correlación producto-momento (Pearson),r: positivo si β1>0 y negativo si βo