Tipos de aprendizado em Data Science

Tipos de aprendizado em Data Science

Sabemos que a Ciência de Dados —conhecida em inglês como Data Science— foi criada com a ideia de entender, interpretar e extrair valor de bilhões de dados. Uma vez coletados, os modelos de ciência de dados podem nos ajudar a encontrar e/ou reconhecer padrões para tomada de decisão ou automatizar um processo.

Para começar a usar Data Science, é importante conhecer os tipos de aprendizado para poder identificar como resolver o problema que consideramos. Neste artigo, explicarei três formas de aprendizado dentro do ramo Machine Learning e como identificá-las em nossos dados.

1- Aprendizado supervisionado

O aprendizado supervisionado, conhecido em inglês como Supervised Learning, vem da ideia de que nossos dados já estão rotulados. Muitas vezes esses dados são rotulados por humanos, pois por experiência na indústria eles sabem identificar o alvo. Esse aprendizado é usado para treinar modelos de classificação ou regressão.

Figura 1.1 Dados para Aprendizado Supervisionado (Cor, tamanho, textura e Objetivo)

Um exemplo da aparência dos dados para o treinamento supervisionado pode ser encontrado na Figura 1.1. Lá temos os recursos rotulados X, que são o que podemos usar para descrever nosso rótulo Y. Ambos os recursos X e o rótulo Y são necessários para treinar nosso modelo de aprendizado de máquina.

Agora que identificamos nossas variáveis ​​X e Y, vamos ver um exemplo da vida real. Este exemplo são os modelos que são usados ​​para automação de processos. Agora vemos que as máquinas de embalagem de artigos fazem a tomada de decisão automatizada por meio de modelos de classificação. Na Figura 1.1 podemos ver que cada coluna de nossas variáveis ​​independentes X é um recurso que nos ajuda a descrever algo sobre nosso rótulo Y. Neste exemplo, gostaríamos de automatizar se o objeto pronto para embalar é uma maçã ou um morango. Se pegarmos apenas a primeira característica (a cor), seria impossível treinar nosso modelo de classificação. Por isso é necessário que as características sejam descritivas e contenham estatísticas para identificar padrões que melhorarão nosso modelo.

Imagem 1.2 Exemplo de classificação (Cor: vermelho; Tamanho; Textura: Lisa ou enrugada; Objetivo: maçã ou morango)

3- Aprendizado não supervisionado

Variáveis independentes

O aprendizado não supervisionado, conhecido em inglês como Unsupervised Learning, tem a ideia de que temos apenas nossas variáveis ​​independentes. Nesse tipo de aprendizado, o rótulo não é necessário para treinar um modelo. Muitas vezes não há conhecimento prévio desses dados e eles são treinados para encontrar padrões e agrupá-los. Esse aprendizado é usado para treinar modelos de clustering.

Um exemplo da indústria está na segmentação de clientes para campanhas de marketing. Neste exemplo, temos um banco de dados de todos os nossos clientes e os produtos que eles compraram em nossa loja de serviços telefônicos. A Figura 2.1 nos mostra como seria esse banco de dados.

Imagem 2.1 Banco de dados do cliente (Cliente, Wi-fi, Televisão, Idade, Direção)

Este banco de dados contém mais de um milhão de clientes e gostaríamos de agrupá-los com base em suas características. O modelo treinado apenas com dados X poderá encontrar padrões para que possamos obter nosso rótulo. Esses rótulos que o modelo de clustering nos deu servirão para conhecer os diferentes grupos de clientes que temos. Assim como a imagem 2.2 nos mostra o resultado do modelo de clustering onde os três primeiros clientes são agrupados em dois grupos diferentes. Isso facilitará a tomada de decisão sobre como enviar nossas campanhas de marketing ou oferecer ofertas de serviços diferentes, dependendo de qual é nosso objetivo.

Imagem 2.2 Resultado do modelo de clustering 

3- Aprendizado Reforçado

Aprendizado por reforço ou Aprendizado Reforçado rapidamente ganhou popularidade postulando que os algoritmos aprendem a interagir em um ambiente por si mesmos, por meio de um agente. Esses algoritmos são amplamente utilizados na indústria de robótica e videogames.

Imagem 3.1 Componentes da Aprendizagem Reforçada (Agente, Ambiente, Reconhecimento, Estado, Ação)

No aprendizado reforçado, como mostra a Imagem 3.1, é necessário definir um agente, as ações do agente, um ambiente, o estado e seu reconhecimento. O aprendizado por reforço é fácil de entender quando consideramos o cenário de treinamento de um cão para dar a pata. Nesse caso, o agente é o cachorro e sua ação terá consequências no ambiente onde ele se encontra (a menina, neste caso).

Se o cão der a pata é uma ação e será recompensado com um biscoito. Caso contrário, o cão não recebe nenhum reconhecimento e volta ao estado em que começou desde o início. Lembre-se que para um agente aprender, você precisa definir o estado inicial e final. Esses dados mencionados terão que ser definidos para treinar modelos com aprendizado por reforço.

Por fim, observe a imagem 4. Será muito útil lembrar o tipo de aprendizado que você precisará para resolver o problema proposto.

Imagem 4. Resumo dos Tipos de Aprendizagem em Ciência de Dados (INPUT: dados com e sem etiquetas; estados e ações; Aprendizado Supervisionado, Não supervisionado, Reforçado; OUTPUT: Mapeamento, Classes e Ações)

A definição desses três tipos de aprendizado neste artigo é de grande ajuda se você está apenas começando sua carreira em ciência de dados. Lembre-se também: entender esses conceitos o ajudará porque, com certeza, será uma pergunta de entrevista. A partir dessas bases será mais fácil entender qualquer modelo de Machine Learning.

🛑
As opiniões e comentários expressos neste artigo são de propriedade exclusiva de seu autor e não representam necessariamente o ponto de vista da Revelo. A Revelo Content Network acolhe todas as raças, etnias, nacionalidades, credos, gêneros, orientações, pontos de vista e ideologias, desde que promovam diversidade, equidade, inclusão e crescimento na carreira dos profissionais de tecnologia.