Concesión de préstamos hipotecarios Irene Sansano Santonja 8 de junio de 2016 Grado en Estadística Empresarial Universidad Miguel Hernández de Elche
1. Palabras Clave Hipoteca, préstamo, regresión logística, concesión, requisitos del cliente.
2. Resumen Deseamos conocer las pautas que se han seguido el año anterior para conceder a los clientes préstamos hipotecarios, tanto como económicas, familiares y demográficas. Con este proyecto, queremos determinar un tipo de predicción que introduciendo unos pocos datos el cliente, pueda saber si se le concedería o no una hipoteca a priori de hacer la visita a la entidad bancaria correpondiente, donde ya se le comunicará la decisión definitiva.
3. Objetivos 3.1 Antecedentes Se podrá ver de forma justificada y con cifras los requisitos mínimos de los clientes para que se le conceda un préstamo hipotecario.
3.2 Objetivos Generales Se desea determinar un número pequeño de variables lo suficientemente significativas para que el cliente pueda saber antes de realizar la consulta oficial, si se le concedería un préstamo hipotecario, tal y como si se tratase de una aproximación.
3.3 Objetivos Específicos 1. Determinar los requisitos que se han estado manteniendo hasta ahora para la concesión de una hipoteca. 2. Estudiar las distintas posibilidades o caminos para que la hipoteca se determine como concedida o no. 3. Considerar la posibilidad de que se realice una aplicación móvil para consultas de préstamos hipotecarios.
1
4. Información Disponible *Datos extraídos de http://umh1480.edu.umh.es/material/practicas/ se trata de un banco de datos en el que se recoge según unas variables si se concedió el préstamo hipotecario o no. *Son datos primarios. *La consultora CaPeMeJe S.A. se ha encargado de la recogida de los datos. *Se han recogido datos mediante la información que ha sido obtenido por los clientes del banco. *Variables disponibles: Concesión de la hipoteca (sí o no), Sueldo mayor del hogar, segundo sueldo en el hogar, Gastos financieros mensuales, Tasación de la vivienda, Capacidad de endeudamiento de la unidad familiar, Edad de la persona del sueldo 1, Edad de la perona del sueldo 2, Cantidad de dinero ahorrado, Precio del seguro de la vivienda, Precio de venta ante notario, Personas que vivirán en ese hogar, Tipo de ciudad (de más grande a más pequeña), Tipo de riesfo de menor a mayor en la operación. *Son datos que han tenido que demostrar los clientes, por lo que la fiabilidad de los datos es buena.
5. Análisis de los Datos 5.1 Procesado de los datos Métodos utilizados *Se ha realizado previamente al estudio una transformación de variables factor que realmente son numéricas cono Sueldo1 y Sueldo2 entre otras. *Se ha transformado la variable dependiente en factor para poder etiquetar los casos. *Se han trazado pautas para decidir si se concede o no la hipoteca mediante las variables más importantes.
5.2 Análisis estadístico Se ha realizado regresión lineal múltiple y árboles de decisión.
5.3 Software y hardware Para este estudio se ha utilizado: Windows 10, R, R-Studio, R-Markdown y las librerías knitr,Hmisc, pastecs, ggplot2, MASS, GGally, rpart, rpart.plot, randomForest, ModelGood, foreign, nnet, reshape2
6.Resultados 6.1 Estadísticas descriptivas Disponemos de 14 variables, la primera “Concedida” marca 0 si no ha sido concedido el préstamo y 1 sí si. La variable dependiente nos dice sí está concedido o no, crearemos una variable nueva con el texto “Concedida” y “No Concedida” según el caso. Vamos a ver de nuestras 1000 propuestas de hipotecarias, cuántas han sido concedidas
2
table(datos$concedida1) ## ## ##
Concedida No concedida 765 235
0 100
300
500
700
barplot(table(datos$concedida1))
Concedida
No concedida
Se han concedido un total de 765 hipotecas, un 76,5% de todas las propuestas. Podemos observar que la mayoría de nuestras variables son cuantitativas, excepto “Concedida” que le hemos puesto sus etiquetas correspondientes ya, y “Tipo de ciudad” y “Riesgo” Vamos a transformar estas dos últimas. Tipo de ciudad tiene como valor mínimo 1 y valor máximo 4. Lo agrupamos en dos grupos, pequeñas ciudades y grandes ciudades. El riesgo también lo agruparemos en dos grupos: Riesgo Medio-bajo y Riesgo Medio-alto. Nos aseguramos de que todas nuestras variables sean cuantitativas para poder hacer el estudio correctamente
6.2 Resultados del análisis estadístico En primer lugar, vamos a realizar la correlación existente entre las variables. Seguidamente ponderamos las variables y vemos el porcentaje acumulado que se consigue con las variables:
3
Con 7 variables adquirimos aproximadamente un 70% del modelo explicado. No son pocas variables, que es lo que nos gustaría. Vamos a ver las correlaciones mediante un gráfico biplot( pcx )
0
10
20
30
−0.10
−0.05
0.00
0.05
20 10 0
0.00 −0.10
−0.05
PC2
0.05
983 482 720 900 803 641 396 676 103 225 23 201 860 741 260 660 540 781 622 340 861 216 421 116 20 376 449 843 920 960 823 223 916 196 643 141 403 516 96 816 202 996 663 182 845 716 76 446 296 220 685 881 461 477 136 382 343 756 940 357 600 423 536 445 383 765 840 956 868 963 820 162 336 985 882 743 CantidadAhorada 143 980 583 545 901 863 576 345 322 363 163 903 320 801 522 703 602 746 565 696 222 876 362 656 941 502 496 601 400 723 148 825 161 541 736 40 811 751 986 783 262 480 425 180 240 562 681 69 211 1 581 836 664 330 122 465 930 483 120 2 231 981 961 3 60 884 337 564 543 556 316 PrecioVivienda 164 390 157 776 41 Sueldo1 256 717 82 420 443 241 537 252 56 701 761 700 684 140 885 246 156 484 642 926 812 646 85 488 662 11 582 402 962 301 203 637 721 370 821 883 542 503 6 Concedida 762 431 325 317 417 308 437 529 829 809 561 442 505 189 911 391 936 665 802 302 500 80 321 584 106 896 22 132 100 889 276 796 740 97 207 849 281 862 580 623 520 957 745 123 922 766 300 824976 857 460 907 409 282 596 683 457 841 200 107 462 569 760 191 304 780 36 563 610 977 341 706 245 284 705 205 640 356 777 711 185 368 86 344 171 48 763 444 625 289 306 691 864 944 782 848 631 70 722 360 310 66 436 77 440 62 704 44 906 37 752 43 552 166 831 150 348 397 657 732 108 361 768 982 380 24 4 517 236 971 764 268 902 856 238 886 481 682 160 548 137 221 636 604 91 206 142 208 909 549 101 169 31 264 749 447 186 52 526 422 247 728 67 128 102 605 83 350 68 441 286 842 81 65 606 26 744 257 708 181 Edad2 209 518 126 928 331 616 PersonasHogar 263 285 678 226 456 168 669 418 464 406 923 702 71 688 311 523 261 680 511 381 945 970 326 17 125 472 501 785 952 649 269 866 Edad1 630 248 476 366 608 395 718 1000 45 242 822805 661 742 570 585 147 144 149 784 309 469 405 668 471 229 467 349 218 267 183 710 332 401 506 408 16 621 105 568 770 51 525 587 725 891 176 204 925 872 958 63 463 572 603 672 617 846 372 2 98 626 571 789 452 369 42 879 424 946 560 487 9 898 905 61 492 528 590 737 297 689 851 342 724 88 384 948 929 224 323 786 104 997 243 991 588 PrecioSeguro 426 131 146 904 190 72 677 121 611 943 632 629 551 521 57 124 416 566 791 769 550 771 507 652 806 666 994 964 283 942 277 947 877 364 303 111 365 184 837 151 145 589 577 388 64 21 595 386 25 346 84 46 645 670 747 951 597 887 486 448 165 290 878 992 807 404 228 515 352 880 750 869 949 931 993 714 250 790 455 479 112 50 110 358 347 387 371 832 188 818 713 788 49 627 850 265 89 847 965 227 730 235 280 531 810 47 778 935 489 620 292 324 249 978 546 586 567 450 259 972 79 167 819 667 892 773 305 697 867 607 712 830 389 8 28 244 287 775 897 491 644 692 508 530 278 690 454 950 18 726 855 932 470 217 687 758 428 899 870 989 466 485 266 638 327 329 924 130 792 254 804 514 58 468 738 109 532 334 458 628 524 210 87 173 800 115 757 686 438 172 817 865 984 377 719 727 407 230 828 598 838 527 613 729 618 473 927 772 351 411 177 554 624 731 557 427 315 858 410 893 328 385 338 170 270 787 908 378 129 215 937 888 797 213 7873 654 158 988871 271 10 709 GastosBancarios 59 237 379 919 544 232 826 98 291 798 5 733 968 647 198 499 117 966 432 707 307 815 834 650 178 490 913 634 33 435 794 30 509 648 55 954 990 Tasacion 355 255 593 29 910 74 439 CapacidadEndeudamiento 339 279 859 917 39 659 498 399 451 367 Sueldo2 197 94 599 813 414 179 934 799 573 854 535 429 90 912 519 459 434 808 92 135 698 239 739 833 375 594 113 32 475 547 15 609 73 767 592 844 874 921 915 153 969 398 497 139 495 558 504 774 875 974 793 575 918 795 938 53 478 99 699 748 119 539 510 272 612 939 392 258 212 779 591 187 679 579 175 619 614 827 694 253 194 394 335 374 127655 693 574 415 715 890 412 288 214 38 114 12 359 895 513 195 734 534 118 138 192 914 318 294 512 999 953 852 312 615 538 995 293 75 474 933 319 493 251 35 671 494 353 152 967 34 674 673 959 274 413 453 835 430 894 955 134 314 987 695 93 133 433 755 998 658 553 27 13354 219 154 233 759 555 533 578 653 159 275 234 979 313 14 651 419 559 393 199 839 735 299 633 635 19 973 814 639 373 Riesgo 754 675975 193 295 78 853 54 273 TipoCiudad 95 174 753 333 155
−30 −20 −10
0.10
30
−30 −20 −10
0.10
PC1 Se observa que Concedida apunta a la misma dirección que Sueldo, Cantidad Ahorrada y en dirección contraria de Riesgo, tipo de ciudad, Tasación y Gastos Bancarios Vamos a realizar dos gráficos que clasifiquen en si se concederá o no el préstamo hipotecario
ggplot(data= datos, aes(x = datos$GastosBancarios, y = datos$CapacidadEndeudamiento, color = concedida1) geom_point()
4
datos$CapacidadEndeudamiento
2500
2000
concedida1 Concedida 1500
No concedida
1000
500
1000
1500
2000
datos$GastosBancarios Se puede observar que cuanto mayor es la capacidad de endeudamiento, mayor es la probabilidad de que te concedan la hipoteca, y cuanto menores los Gastos Bancarios, mayor la posibilidad de que te la concedan pues la nube de puntos roja (Concedida) tiende a situarse en la parte superior e izquierda del gráfico. ggplot(data= datos, aes(x = datos$CantidadAhorada, y = datos$Sueldo1, color = concedida1)) + geom_point()
5
datos$Sueldo1
3000
concedida1
2000
Concedida No concedida
1000
20000
30000
40000
50000
datos$CantidadAhorada En este caso hemos utilizado las variables Cantidad Ahorrada y Sueldo 1, como podemos ver a mayor sueldo mayor probabilidad de que te concedan el préstamo hipotecario, en cuanto a la cantidad ahorrada, no se aprecia una clara tendencia pues se conceden en mayor número aquellas que se encuentran entre 30.000 y 40.000 euros que el cliente tiene ahorrado para la compra del inmueble, y fuera de ese rango tanto a la izquierda como a la derecha es bastante igualitario.
Regresión Logística Se realizará un estudio de Regresión Logística Multinomial para predecir las probabilidades de los diferentes resultados posibles de una distribución categórica como variable dependiente, dado un conjunto de variables independientes. Haremos clasificación de las variables más importantes ajuste$importance ## ## ## ## ## ## ## ## ## ##
Sueldo1 Sueldo2 GastosBancarios Tasacion CapacidadEndeudamiento Edad1 Edad2 CantidadAhorada PrecioSeguro
MeanDecreaseGini 75.735401 50.723716 23.910151 62.380727 53.276882 12.063150 11.489477 18.474133 15.544666 6
## ## ## ## ## ##
PrecioVivienda PersonasHogar TipoCiudad Riesgo ciudad riesgo1
18.714515 5.527205 4.969405 3.985400 1.512760 0.000000
Las variables más importantes por orden decreciente son: Sueldo1, Tasación, Sueldo2, Capacidad de Endeudamiento y Gastos Bancarios model_mglm1 = 1142
Sueldo1 >= 1656 Capacida >= 1361
Tasacion < 140e+3 Concedid
GastosBa < 1301 No conce
Sueldo2 >= 635 Concedid
No conce
Concedid
No conce
Concedid
No conce
Concedid
No conce Concedid
pred_CART = predict(model_CART, type="class") table(datos$concedida1, pred_CART)
## ## ## ##
pred_CART Concedida No concedida Concedida 743 22 No concedida 47 188
Sumamos la diagonal de la matriz de confusión (743+188)=931 y dividimos entre el total (100) = 0.931. Nuestra precisión ha aumentado un poco y sigue siendo muy buena.
6.3 Interpretación de los resultados CONCLUSIONES Podemos determinar las pautas para los clientes que son y no son aptos para concederles un préstamos hipotecario, veamos posibles casos: *El primer factor que influye es el segundo Sueldo de la unidad familiar, esto es si aparte del solicitante podría haber algún apoyo económico en casa para hacer frente al préstamo, algo bastante considerable a la hora de solicitar un crédito.
11
Hipotecas concedidas *Caso 1 Sueldo 2 mayor o igual de 485 euros, el primer sueldo menor de 1195 euros y la tasación de la vivienda menor de 165.000 euros. *Caso 2 Sueldo 2 mayor o igual de 485 euros, el primer sueldo mayor o igual de 1195 euros y la tasación de la vivienda menor de 211.000 euros. *Caso 3 Sueldo 2 mayor o igual de 485 euros, el primer sueldo entre 1195 euros y 1908 euros. *Caso 4 Sueldo 2 menor de 485 euros, primer sueldo mayor o igual de 1994 euros, con una tasación de menos de 234.000 euros la vivienda, con una capacidad de endeudamiento de la unidad familiar de mas o igual de 1142 euros. *Caso 5 Sueldo 2 menor de 485 euros, primer sueldo mayor o igual de 1994 euros, con una tasación entre 140.000 y 234.000 euros la vivienda, con una capacidad de endeudamiento de la unidad familiar de menor de 1142 euros. *Caso 6 Sueldo 2 menor de 485 euros, primer sueldo entre 1656 y 1994 euros, con una tasación menor de 163.000 euros la vivienda, y que tenga unos gastos financieros mensuales menores de 1301 euros. Habría que estudiar cada caso del cliente como se ha hecho hasta ahora, pero estas son las pautas que seguiríamos para conceder hipotecas a los clientes. PROPUESTA APLICACIÓN MÓVIL Se propone una aplicación móvil en la que tengamos que introducir los siguientes datos.
Figure 1: He obviado que la mayoría de los clientes no saben calcular su capacidad de endeudamiento y no lo he incluído. COMENTARIO DEL INFORME El código utilizado se puede encontrar en el ejecutable adjunto, ha sido realizado mediante Markdown y se han ocultado código para que la reproducibilidad del informe sea lo más clara y sencilla posible.
12