segunda-feira, 20 de janeiro de 2014

Tipos de aprendizado e variáveis

No contexto de Data Mining, os campos de uma base de dados são chamados de variáveis. Ex.: idade, sexo, estado civil etc. Cada variável representa um tipo de informação que descreve alguma característica de algo ou alguém.
É através destas variáveis que os modelos buscam fazer suas previsões e descobertas. Mais que isso, algumas dessas variáveis são justamente o alvo da previsão.

Conforme já comentamos em outro post, DM nada mais é do que o processo de aprendizagem pelo qual um algoritmo passa, e é importante sabermos que existem dois tipos de aprendizado artificial:


Tipos de aprendizado


  • Aprendizado supervisionado


No aprendizado supervisionado existem dois tipos de papéis que uma variável pode representar.
Temos a variável resposta, ou seja, um alvo que desejamos prever, classificar ou estimar. E temos as variáveis explicativas, que são as variáveis que possibilitam prever/classificar/estimar a variável resposta.

Exemplos: prever se vai ou não chover dadas as variáveis climáticas; classificar a classe social de uma pessoa dadas suas características; estimar o valor de um imóvel dadas suas características etc.

Neste tipo de aprendizado, temos um conjunto de variáveis (características) diversas que explicam o por quê de uma determinada resposta (categoria ou valor).

Exemplo
Um imóvel pode ter:
- seu valor estimado em R$100.000 (variável resposta)
- porque fica na zona leste; tem 3 quartos; fica a 800 metros do metrô; é pintado de azul (variáveis explicativas)

Variável resposta - variável alvo da previsão/classificação/estimação
Variáveis explicativas - variáveis que explicam (preveem/classificam/estimam) e definem o valor da variável resposta



  • Aprendizado não supervisionado


No aprendizado não supervisionado, não temos uma variável resposta. O papel de todas as variáveis é igual. Elas representam fatores ou eventos.
Desta forma, tentamos encontrar similaridades ou padrões entre os dados.

Exemplo: agrupar pessoas dadas suas características; encontrar padrões em carrinhos de compras de super mercados.






Tipos de variáveis

Tanto para variável resposta, variável explicativa ou fator, temos dois tipos de medição de variável:

Variáveis Quantitativas – valores numéricos que representam contagens. Ex.: salário, idade, peso etc.
Variáveis Qualitativas – valores que representam categorias. Ex.: estado civil, sexo, classe social etc.


Para cada tipo de variável podemos aplicar diferentes tipos de modelos (algoritmos), supervisionado ou não, dependendo da pergunta que queremos responder.



Abraços miningnoobs!

Nenhum comentário:

Postar um comentário