segunda-feira, 21 de julho de 2014

Ferramentas de Data Mining


Há muitas ferramentas que permitem fazer Data Mining por aí, incluindo ferramentas livres e proprietárias.

Eventualmente pode surgir a pergunta: qual delas é a melhor? E ainda: o que vale mais a pena...ferramenta livre ou proprietária?

Certamente as respostas para essas perguntas são bem relativas. Vai depender muito da natureza do projeto para o qual você utilizará a ferramenta, assim como o seu perfil como usuário.
Se você é do tipo que gosta mais de programar as coisas "manualmente" algumas ferramentas podem ser mais adequadas que outras, que fornecem apenas programacão visual.
Algumas são mais encapsuladas, não permitindo que você veja ou configure certos detalhes e parâmetros, mas outras são mais completas e totalmente abertas, pois são para usuários mais avançados.

Em relação a software livre, não se preocupe, pois há ferramentas de data mining livre que são tão boas quanto ou ainda melhores que algumas proprietárias.

Para usuários pessoa física, em geral vale mais a pena ficar com o software livre mesmo. As comunidades das ferramentas costumam ser bem fortes, há documentação oficial, e ainda sempre tem fóruns diversos de perguntas e respostas. É muito fácil achar a resposta pra sua pergunta, a ainda ver exemplos prontos daquilo que você quer fazer.

Já para empresas, às vezes é mais seguro comprar um software proprietário. Isso por causa do suporte oferecido pela desenvolvedora após a compra. Uma empresa não pode contar com a dúvida do: "talvez eu ache a solução disso na internet (mesmo sendo bem provável que ache mesmo)", pois há dinheiro e clientes envolvidos. Então, é necessário ter uma outra empresa de quem você possa cobrar uma solucão.
Por outro lado, a quantidade de materiais e informação disponível na internet para essas ferramentas já não é tão grande, afinal, pelo software ser proprietário, o público fica mais restrito.


Algumas ferramentas livres:


Python: linguagem de programação usada para diversas finalidades. Dentre suas inúmeras bibliotecas estão: Scikit Learn - com vários algoritmos de aprendizado de máquina e estatística, assim como outras funcionalidades para modelagem; Scipy - com várias funcionalidades matemáticas e estatísticas. Além dessas bibliotecas específicas, o Python tem várias funcionalidades que podem ser usadas para tratar os dados no processo de modelagem.

R: linguagem de programação para matemática e estatística. Possivelmente uma das mais completas, contando com muitíssimas bibliotecas. Permite também tratamento de dados.


Algumas ferramentas proprietárias:


SPSS Statistics: ferramenta com diversos algoritmos, testes estatísticos, gráficos de análise, tratamento de dados etc. Possui uma linguagem de programação própria, mas todas as funcionalidades podem ser aplicadas através de menus.

SPSS Modeler: ferramenta com diversos algoritmos, gráficos de análise, tratamento de dados etc. Funciona com programação visual, onde você clica e arrasta em nós que representam funcionalidades, conectando-os entre si, de modo a formar um fluxo de funcionalidades. Possui ainda uma série de automatizações, tanto na parte de tratamento de dados como na parte de aplicacão de algoritmos.

SAS: ferramenta com diversos algoritmos, testes estatístios, gráficos de análise, tratamento de dados etc. Possui uma linguagem de programacão própria, mas todas as funcionalidades podem ser aplicadas através de menus.


Há ainda outras ferramentas como MatLab, Estatística, K-nime, Weka etc.


Abraços miningnoobs!

Nenhum comentário:

Postar um comentário