sexta-feira, 7 de março de 2014

Correlação vs Causalidade

Conforme vimos anteriormente, para fazer previsões sobre um determinado evento é necessário usar um conjunto de variáveis (informações).
Hoje vamos entender como essas variáveis se relacionam e como é possível que elas de fato ajudem nessas previsões.
Pra isso precisamos entender o conceito de correlação. Podemos dizer que duas variáveis estão correlacionadas quando é possível observar que as ocorrências de algum valor de uma delas acontecem com uma frequência parecida com o valor da outra. What ??!!!

Exemplo: em relação a uma determinada pessoa, a variável "gastos mensais" pode aumentar conforme a variável "salário" aumenta. Isso porque normalmente quando se ganha mais gasta-se mais. Então estes eventos estão correlacionados. Neste caso, além de correlação existe ainda a presença da causalidade. Isso porque o motivo de estar se gastando mais é justamente por se ganhar mais.

Neste caso temos correlação e ainda causalidade. Mas existem casos onde temos apenas correlação, sem causalidade.

Um exemplo disso seria:

Imagine uma praia onde conforme aumenta o "número de picolés vendidos" aumenta também o "número de afogamentos". Vamos proibir a venda de picolés, porque pessoas estão morrendo afogadas ?!...claro que não.
Neste caso, existe correlação, porque essas duas variáveis ("número de afogamentos" e "número de picolés") tem frequências de ocorrências similares. Entretanto, não é uma que está causando a outra.
Então porque suas frequências são similares? Bom, normalmente isso ocorre porque existe uma terceira variável por de trás disso causando as duas coisas.
Neste caso, a variável é a "temperatura". Em dias quentes, mais pessoas tomam sorvete, e também mais pessoas entram na água para nadar, aumentando assim a chance de se afogarem.

E como essa informação pode ser útil? Bem, o interessante disso, é que mesmo quando não existe causalidade  (o que ocorre na maioria das vezes) , a variável ainda sera útil para explicar e prever o evento da variável que queremos.
No exemplo acima, mesmo que os afogamentos não causem a venda de picolés ou vice versa, bastaria colocar uma barraquinha de sorvete em praias com um grande número de afogamentos, que as vendas de picolés aumentariam. =)

No processo de modelagem é isso o que ocorre. Olhamos os dados e variáveis disponíveis, e tentamos descobrir quais delas estão correlacionas com o evento que queremos prever (evento final).
No final, não importará se elas são ou não as causadoras do evento final. O que importa é que através delas é possível prever este evento, e isso é tudo que nos interessa.

Por exemplo na área da medicina:

Se um modelo foi criado dizendo que pessoas "com mais de 70 anos, que moram no interior, de sexo feminino, da classe C e sem filhos" tem 95% de chance de ter uma determinada doença, não importa se essa tendência de ter a doença é devida às características citadas, o que importa mesmo é que temos um diagnóstico, e pessoas com esse perfil devem se tratar, pois existe algum fator implícito expresso por de trás dessas características que causa a doença.



Abraços miningnoobs!