top of page

Criterios de selección de modelos de Regresión

En esta ocasión escribo para resolver una duda en relación al R-cuadrado como criterio de bondad del ajuste, es cierto que presenta una cantidad de limitaciones importantes, entre otras:

- Únicamente es adecuado cuando se dispone de término constante (intercepto) en la regresión. En caso contrario no estaría acotado entre 0 y 1 (Careciendo de sentido esta interpretación)

- Únicamente es válido para comparar variables dependientes "iguales". No es válido por ejemplo para comparar entre "y" y log"y"

- Tiende a la sobreparametrización, es decir, mismo modelo pero con más variables explicativas. Tenderá a elegir aquel modelo con mayor número de variables explicativas. Esto se debe a que la Suma de Cuadrados de los Residuos siempre es menor con más variables explicativas (Aunque en esta inclusión de variables algunas no sean relevantes)

Además es cierto que el R-cuadrado tiene "más sentido en el modelo de regresión lineal", lo cierto es que en la práctica pocas veces se tienen en cuenta.

Entre los criterios de selección de modelos destacan:

- R-cuadrado y R-cuadrado corregido ("mejor" cuanto mayor sea el resultado, pero con muchas limitaciones en sus propiedades)

- AIC de Akaike

- SC de Schwarz

- H-Q Hannan-Quinn

Estos tres últimos se elegiría el que menor valor obtengamos comparando entre varios modelos. Normalmente se mueven en el mismo sentido, suele recomendarse el criterio de Schwarz porque el Akaike tiende al sobreajuste, es decir, elegir aquel modelo con mayor número de variables explicativas, sobre el criterio de H-Q se dice que no es eficiente asintóticamente (Cuando la muestra tiende a infinito)

Lo anterior, lo relacionaríamos con la "capacidad descriptiva del modelo", en cuanto a la capacidad predictiva (predicción "ex-post", es decir, con datos para poder comparar dentro del rango muestral) Disponemos de varios criterios como son:

- Raíz del Error Cudrático Medio (RECM)

- Error Absoluto Medio (EAM)

- Error Absoluto Medio Porcentual (EAMP)

- Índice de desigualdad de Theil (Theil)

En cuanto a RECM y EAM presentan el "inconveniente" de que está medido en valores aboslutos (unidades de medida de la variable), lo cuál hace que la interpretación se vea afectada por estas medidas.

Los más idóneos serían EAMP y Theil que carecen de medidas y están medidas en términos relativos, de este modo evitamos el efecto de las unidades de medida.

En todos los casos el "mejor modelo" es el que presente los valores más próximos a cero, puesto que miden el error de predicción.

Sin duda, el mejor criterio (para predicción "ex-post") es el índice de Theil, toma valores entre 0 y 1, siendo 0 una predicción perfecta y siendo 1 "lo peor". Además este índice se descompone en proporción de sesgo, proporción de varianza y proporción de covarianza. A igualdad/ proximidad de valores del Theil el mejor modelo será aquel que presente menor proporción de sesgo.

Esto en cuanto a los criterios de selección de modelos, en relación a su capacidad descriptiva y predictiva.

Después hay otro tipo de predicción que es la predicción "ex-ante" de la cuál no disponemos datos y no podríamos medir su capacidad de ajuste.

+INFO en el libro:

Si te suscribes...

  •  Te avisaremos de los nuevos Cursos, Talleres y Master Class que hagamos ONLINE.

  •  Tendrás acceso a ofertas y promociones puntuales.

  •  Si has estudiado Economía, ADE, Turismo. Recibirás ofertas de trabajo.

  •  Te mantendremos informado sobre novedades del sector de la Econometría.

  •  Te mandaremos tutoriales sobre herramientas de Econometría.

  • Facebook Classic
  • Twitter Classic
  • Google Classic
bottom of page