Tipos de aprendizado em Data Science
Sabemos que a Ciência de Dados —conhecida em inglês como Data Science— foi criada com a ideia de entender, interpretar e extrair valor de bilhões de dados. Uma vez coletados, os modelos de ciência de dados podem nos ajudar a encontrar e/ou reconhecer padrões para tomada de decisão ou automatizar um processo.
Para começar a usar Data Science, é importante conhecer os tipos de aprendizado para poder identificar como resolver o problema que consideramos. Neste artigo, explicarei três formas de aprendizado dentro do ramo Machine Learning e como identificá-las em nossos dados.
1- Aprendizado supervisionado
O aprendizado supervisionado, conhecido em inglês como Supervised Learning, vem da ideia de que nossos dados já estão rotulados. Muitas vezes esses dados são rotulados por humanos, pois por experiência na indústria eles sabem identificar o alvo. Esse aprendizado é usado para treinar modelos de classificação ou regressão.
Um exemplo da aparência dos dados para o treinamento supervisionado pode ser encontrado na Figura 1.1. Lá temos os recursos rotulados X, que são o que podemos usar para descrever nosso rótulo Y. Ambos os recursos X e o rótulo Y são necessários para treinar nosso modelo de aprendizado de máquina.
Agora que identificamos nossas variáveis X e Y, vamos ver um exemplo da vida real. Este exemplo são os modelos que são usados para automação de processos. Agora vemos que as máquinas de embalagem de artigos fazem a tomada de decisão automatizada por meio de modelos de classificação. Na Figura 1.1 podemos ver que cada coluna de nossas variáveis independentes X é um recurso que nos ajuda a descrever algo sobre nosso rótulo Y. Neste exemplo, gostaríamos de automatizar se o objeto pronto para embalar é uma maçã ou um morango. Se pegarmos apenas a primeira característica (a cor), seria impossível treinar nosso modelo de classificação. Por isso é necessário que as características sejam descritivas e contenham estatísticas para identificar padrões que melhorarão nosso modelo.
3- Aprendizado não supervisionado
O aprendizado não supervisionado, conhecido em inglês como Unsupervised Learning, tem a ideia de que temos apenas nossas variáveis independentes. Nesse tipo de aprendizado, o rótulo não é necessário para treinar um modelo. Muitas vezes não há conhecimento prévio desses dados e eles são treinados para encontrar padrões e agrupá-los. Esse aprendizado é usado para treinar modelos de clustering.
Um exemplo da indústria está na segmentação de clientes para campanhas de marketing. Neste exemplo, temos um banco de dados de todos os nossos clientes e os produtos que eles compraram em nossa loja de serviços telefônicos. A Figura 2.1 nos mostra como seria esse banco de dados.
Este banco de dados contém mais de um milhão de clientes e gostaríamos de agrupá-los com base em suas características. O modelo treinado apenas com dados X poderá encontrar padrões para que possamos obter nosso rótulo. Esses rótulos que o modelo de clustering nos deu servirão para conhecer os diferentes grupos de clientes que temos. Assim como a imagem 2.2 nos mostra o resultado do modelo de clustering onde os três primeiros clientes são agrupados em dois grupos diferentes. Isso facilitará a tomada de decisão sobre como enviar nossas campanhas de marketing ou oferecer ofertas de serviços diferentes, dependendo de qual é nosso objetivo.
3- Aprendizado Reforçado
Aprendizado por reforço ou Aprendizado Reforçado rapidamente ganhou popularidade postulando que os algoritmos aprendem a interagir em um ambiente por si mesmos, por meio de um agente. Esses algoritmos são amplamente utilizados na indústria de robótica e videogames.
No aprendizado reforçado, como mostra a Imagem 3.1, é necessário definir um agente, as ações do agente, um ambiente, o estado e seu reconhecimento. O aprendizado por reforço é fácil de entender quando consideramos o cenário de treinamento de um cão para dar a pata. Nesse caso, o agente é o cachorro e sua ação terá consequências no ambiente onde ele se encontra (a menina, neste caso).
Se o cão der a pata é uma ação e será recompensado com um biscoito. Caso contrário, o cão não recebe nenhum reconhecimento e volta ao estado em que começou desde o início. Lembre-se que para um agente aprender, você precisa definir o estado inicial e final. Esses dados mencionados terão que ser definidos para treinar modelos com aprendizado por reforço.
Por fim, observe a imagem 4. Será muito útil lembrar o tipo de aprendizado que você precisará para resolver o problema proposto.
A definição desses três tipos de aprendizado neste artigo é de grande ajuda se você está apenas começando sua carreira em ciência de dados. Lembre-se também: entender esses conceitos o ajudará porque, com certeza, será uma pergunta de entrevista. A partir dessas bases será mais fácil entender qualquer modelo de Machine Learning.