Datos.

Cuando intentamos comprender que son los datos surgen muchas aplicaciones para los datos que nos hacen divagar, pensando que los datos pueden ser todo lo que necesitamos para dar respuesta a cualquier pregunta. 

Entonces retomando si queremos conocer una situacion necesitamos datos, pero mas importante aun, necesitamos hacerlos hablar. 

Imaginemos que los datos que tenemos es todo, no hay chance de experimentar para obtener otros datos o resultados de observaciones. Entonces que podemos hacer?

La respuesta puede venir de los modelos causales. Lo que Judea Pearl describio como escalera de causalidad. La cual consta de 3 escalones: Asociaciones, Intervenciones y Contrafactuales.

Usamos esta descripcion realizada por Pearl, a los fines de describir distintos niveles de relaciones entre las variables (datos). Entonces comencemos con el primer peldaño.

La Asociacion, es la relacion que hacemos de dos variables que en principio pueden provenir del mismo origen y eso nos prepara para tomar decisiones sobre el posible comportamiento de una de estas variables, en base al comportamiento de la otra variable. Gracias a la observacion es que podemos realizar esta actividad, es decir asociar variables entre si, teniendo en cuenta su comportamiento.

Entonces como ejemplo practico podriamos decir que si al lanzarse un nuevo dispositivo movil esta presentacion y posterior pre venta arrojan datos positivos se podria asociar a la suba de ventas que tendra a futuro el nuevo dispositivo.


En el segundo escalon tenemos la Intervencion, en este caso nuestra intencion es introducir nuevos datos al sistema para analizar su comportamiento y entender como funciona esta relacion.

Por ejemplo: si introducimos una capa profunda mas en una red neuronal convolucional para analizar imagenes, obtendremos resultados mejores en las salidas o no lograremos mejoras.


Finalmente en el tercer escalon tenemos los contrafactuales, en este caso  lo que estamos buscando es obtener informacion sobre una realidad alternativa es decir que ocurriria si los datos fueran opuestos totalmente a los obtenidos o con los cuales contamos.

Ejemplo, el analisi sobre una accion del mercado de valores, arroja un 20% de probabilidad de que la misma suba de precio en el dia. Decidimos comprar un total de 20k (mil) acciones. Entonces imaginemos que ocurriria si la accion baja un 40% ese dia en vez de subir el 20% que estimamos.

Como estudiamos los datos.

Tenemos que tomar los datos con los que contamos y con ellos realizar Ensayos Controlados Aleatorizados ECA.

Y para esto lo que hacemos es tomar los datos, asignarlos aleatoriamente, tanto  a los grupos de ensayo como los de control o de testeo y prueba.

Los datos nos ayudan a tomar decisiones?

Asociacion -  vamos a introducir la matematica en el estudio de los datos para cuantificar las relaciones de asociacion entre ellos, usando la probabilidad condicional 

Matematicamente seria: P (X=x | Y=y) - la probabilidad de que X tome el valor de x si Y toma el valor y. 

ejemplo: 

Una persona vende comida frente a tu trabajo. Todos los dias a la hora de ingreso compras una porcion de comida para desayunar. Cual es la probabilidad de que sigas comprando es aporcion a ese persona si muda su puesto a una cuadra de tu trabajo?

Para dar alguna respuesta causal a esto vamos a tener que tomar en consideracion las "modelos causales estructurales", de otra forma se nos va a hacer dificil dar una respuesta. Y que son estos MCE, podriamos decir que son herramientas que me permiten codificar las relaciones causales entre variables y los necesitamos para generar datos.

Lo siguiente seria saber como generar estos datos y para ello seguiremos una serie de pasos:

  1. determinemos las variables asociadas al relato. Pueden ser observables o latentes
  2. una vez que tenemos las variables vamos a determinar si son exogenas es decir que no estan determinadas como variables por otras. Y por otra lado si son endogenas es decir que otras variables del modelo las construyen.
  3. luego vamos a construir el diagrama causal, el que consta de las variables, sus relaciones y los parametros. Las variables se conectan mediante flechas que indican dependencia o covariacion (una flecha con una punta dependencia y si tiene puntas en ambos extremos covariacion)
  4. ahora necesitamos definir las ecuaciones estructurales que relacionan las variables endogenas. Estas ecuaciones deben expresar como las variables endogenas dependen de las exogenas y de otras endogenas.
  5. tambien necesitamos estimar parametros, utilizando tecnicas como el metodo de maxima verosimilitud para estimar los coeficientes de las ecuaciones. Observamos los resultados y ajustamos.
  6. Finalmente lo llevamos a la programacion en python.

Vamos a hacer una interpretacion sencilla del problema. Supongamos que las variables que tenemos en el problema son ubicacion del negocio y el tiempo que abosrve esta actividad. Por otro lado las constantes son los dias de la semana, el precio y la porcion de comida. otras variables posibles asociadas son que hay dias que no vamos a trabajar, hay dias que no llegamos a tiempo y las posibles tardanzas en el trabajo.

variables endogenas: ubicacion del negocio uN, tiempo que me lleva comprar tC

variables exogenas: no se concurre al trabajo nT, falta de tiempo aT, tardanzas aceptables tA

constantes: dias de la semana laborales dL, precio de la comida pC.

nT:= tA - 1

aT:= (uN + tC) - nT

tA:= nT = 0

uN:=