CORRELACIÓN vs CAUSALIDAD EN BIG DATA- Análisis Cuantitativo en Empresas (IV)
Estimados amigos,
Como continuación de los post denominados "Análisis cuantitativo en Empresas", ya comentábamos que la "guerra" está en saber quién interpreta mejor esos datos, una buena interpretación puede hacer crecer a tu empresa. Esa interpretación es la que crea valor.
La realidad es que el Big Data es una herramienta muy útil y podríamos decir casi "soñada" por cualquier analista Estadístico o Econométrico. "Soñada" en el sentido de la gran cantidad de datos y los grados de libertad elevados que se generan en esas distribuciones.
En Big Data también se hablan de los riesgos: la obsesión con los datos y buscar causalidad donde no la hay, o de confiar en los determinismos de la predicción en casos en los que se aplican castigos o penas, sin dar lugar a la posibilidad de cambio de las personas. De algunas de estas cosas habla uno de sus autores, Viktor Mayer-Schönberger.
Como ya todos sabemos la Econometría es una ciencia que surge a partir de tres ciencias como son las Matemáticas, Estadística y Economía. Es una ciencia que está basada en las relaciones de causalidad entre variables. En la que siempre existe una variable dependiente que viene explicada por un conjunto de variables explicativas.
Clive W. J. Granger en su artículo Investigating Causal Relations by Econometric Models and Cross-Spectral Methods. Econometrica, 37, 424-438, ya trató las relaciones de causalidad entre variables.
Lo cierto es que los modelos Econométricos funcionan por relaciones de causalidad, mientras que el Big Data no funciona por causalidad debido a que la información es instantánea. No habría tiempo para verificarlo y testarlo, por lo tanto funciona por correlaciones matemáticas. El hecho de que la información sea instantánea, en la cuál prácticamente no hay tiempo para la reflexión de los mismos, ya que básicamente este análisis es generado por correlaciones entre variables. Esta correlación de variables puede generar correlaciones espúrias.
Definiremos correlaciones espúrias como relaciones que matemáticamente pueden tener sentido, pero que objetivamente (Según teoría económica, médica, etc) no tienen ningún sentido o que exista una tercera variable no haya sido considerada en el análisis.
Por ejemplo, podría ocurrir que la venta de helados esté correlacionada con los ahogamientos de personas en unas determinadas zonas de playa. Por ejemplo, que un incremento de ventas de helados implica un crecimiento de ahogamientos en el mar. A priori podría existir una correlación positiva, con el análisis inmediato de datos podríamos detectar este hecho en la vida real. Pero lo que si es cierto es que habría terceras variables que no habrían sido tenidas en cuenta en este análisis tan simple.
La Econometría se preocuparía por las relaciones de causalidad entre ambas variables. Como podría ser la estacionalidad, la temperatura, el número de habitantes de esas zonas, etc. Es decir, preocupándose por las posibles causas y relaciones teóricas entre las "ventas de helados" y los "ahogamientos".
La pregunta es ¿cómo evolucionará el análisis? Continuaremos estableciendo Teorías a priori y posteriormente verificaremos con datos. O por otro lado, ¿los datos generarán teorías nuevas?
La respuesta la encontraremos "en un futuro más cercano que lejano", pero lo que es cierto, es que un dato es información y su interpretación, genera valor.
A continuación os dejo con una excelente Conferencia "Big Data: Modelos de uso e implantación" por Wolfram Rozas