O problema do excesso de informação: uma abordagem de Machine Learning

O problema do excesso de informação: uma abordagem de Machine Learning

Atualmente, estima-se que mais de 2,5 quintilhões de dados sejam gerados diariamente. Embora muitos de nós estejam satisfeitos por ter acesso a essa quantidade de informação, na realidade precisamos de plataformas para consultá-la de forma fácil, precisa e rápida.

Estas plataformas que, de certa forma resumem a informação disponível para nós, procuram resolver o problema de forma simples para que a consulta não exija mais do que alguns segundos e fiquemos satisfeitos com as respostas.

Machine Learning

Graças ao avanço dos modelos de Machine Learning, existem muitas plataformas que resolvem esse problema dependendo do tipo de informação que estamos procurando.

Neste artigo, procurarei explicar a lógica geral dos chamados modelos de extração de informação e mostrarei uma forma de resolver o problema da sobrecarga de informação através de dois modelos de Machine Learning, um para classificação e outro para classificação (ou scoring) .

Um modelo de pontuação pode ser dividido em duas etapas. A primeira consiste em classificar o conteúdo como relevante ou não relevante, enquanto a segunda busca atribuir uma classificação ao conteúdo com base na relevância da informação disponível.

É importante mencionar que esta é uma maneira simples de abordar o problema. No entanto, não é o único e dependerá de cada plataforma como abordá-lo. Outros modelos se concentram em encontrar a distância entre a consulta (um texto de pesquisa) e o conteúdo em cada informação, o que os torna problemas de processamento de linguagem natural. Outras abordagens terão como objetivo gerar diretamente uma pontuação para cada informação, pulando a etapa de classificação do conteúdo.

Tomemos como exemplo uma biblioteca onde há um bibliotecário (não, essa biblioteca não é Amazon). A biblioteca recebe doações constantes de livros e quer decidir quais livros manter e, posteriormente, como recomendá-los aos usuários. Esta é uma questão de espaço real!

A primeira coisa que a bibliotecária deve decidir é quais livros aceitar no futuro, claro que ela quer ter disponíveis os livros que atrairão mais leitores.

Quais livros aceitar? Modelo de classificação: eliminando o excesso de informações

O problema do excesso de informação pode ser analisado a partir de uma função matemática objetiva que, verbalmente, é descrita como calcular a probabilidade de que x conteúdo seja de interesse ou não dos usuários. Os modelos que buscam resolver esses problemas binários são conhecidos como modelos de classificação.

Os modelos de classificação que são utilizados como etapa anterior ao modelo de scoring convertem as ações das plataformas em sinais para “entender” qual conteúdo elas gostam ou não gostam.

A natureza e complexidade do modelo final dependerá dos tipos de ações que os usuários terão para compartilhar o gosto ou desgosto do conteúdo.

Em nosso exemplo de bibliotecário, o problema estaria em decidir se aceita ou não um livro. No entanto, o que realmente interessa à biblioteca é recomendar livros que os leitores gostem, aumentando assim sua base.

Para a bibliotecária, o maior desafio é saber se os leitores gostaram ou não do livro, pois por problemas de espaço, ela só quer guardar os livros que quem vai à biblioteca gosta.

Em um mundo simples, o bibliotecário poderia facilmente perguntar quando as pessoas devolveram o livro se gostaram ou não e, assim, criar um problema de classificação de aprendizado de máquina supervisionado. Ao mesmo tempo, o bibliotecário precisará observar as pessoas para ver como elas expressam esse gosto, para que cada vez menos tenha que perguntar diretamente e possa estimar se alguém vai gostar ou não de um livro, com base em as ações que ele tomou com outros livros.

No problema da biblioteca podemos selecionar como variáveis ​​independentes: o tempo que levou para devolver o livro, o número de vezes que foi solicitado, quantos livros da mesma categoria foram solicitados ao mesmo tempo e se foi finalizado ou não.

Uma vez obtidas essas variáveis, o modelo pode ser treinado para calcular a probabilidade de um livro ser apreciado ou não e usado como previsão para estimar se um novo será apreciado ou não.

Entre 2 ou 100 livros que gosto, qual gosto mais? Modelos de pontuação

Um modelo de pontuação atribui um número a cada parte do conteúdo para que eles possam ser classificados.

O bibliotecário já tem uma forma de saber se um livro gostou ou não, além de filtrar os que não gostaram. A partir daí o bibliotecário começará a fazer mais perguntas tentando quebrar o universo dos livros em pedaços menores: “você gosta deles muito longos ou curtos?”, “romance ou popular?”, etc. Essas perguntas agora serão apenas relacionadas às características do livro e serão feitas apenas sobre livros com alta probabilidade de serem apreciados.

A variável dependente desse modelo de Machine Learning é conhecida como pontuação de relevância.

Para responder à pergunta do que é mais apreciado, devemos selecionar as características do conteúdo que podem influenciar a relevância atribuída pelos usuários. Essas características são as variáveis ​​independentes do modelo.

Voltando ao nosso exemplo bibliotecário, as características dos livros formarão o conjunto de variáveis ​​independentes; tomemos por exemplo, gênero, duração, sentimento que causa sua leitura, tempo, etc.

A pontuação, por ser uma variável contínua, pode ser considerada uma função linear, onde a variável dependente é a pontuação e as variáveis ​​independentes são as características do conteúdo.

A pontuação pode então ser estimada por meio de um modelo de regressão, que atribuirá pesos às características do livro.

Este modelo é um modelo supervisionado onde tenho as pontuações no banco de dados. Ou seja, no início, quando a bibliotecária receber o livro e confirmar que você gostou, ela pedirá que você atribua um valor ao quanto você gostou. Os maiores valores estarão associados aos livros que você mais gostou.

Uma vez obtida a pontuação de relevância, o conteúdo será classificado de acordo com ela e as opções com maior pontuação serão mostradas primeiro. O modelo calculará os valores de importância das variáveis ​​de tal forma que um valor mais alto implicará que essa característica seja mais relevante na determinação da pontuação.

Considerações finais

A parte realmente complexa desses modelos é selecionar qual conjunto de ações dirá se o usuário gosta ou não do conteúdo e criar um modelo que combine esse conhecimento para calcular a probabilidade de o conteúdo ser mais atrativo. Normalmente, esses problemas não são supervisionados e são resolvidos com redes neurais que aprendem a cada nova interação do usuário.

Em outro artigo, usaremos esses modelos para explicar como funcionam os algoritmos de classificação de feeds das redes sociais e, em particular, do Facebook.

🛑
As opiniões e comentários expressos neste artigo são de propriedade exclusiva de seu autor e não representam necessariamente o ponto de vista da Revelo. A Revelo Content Network acolhe todas as raças, etnias, nacionalidades, credos, gêneros, orientações, pontos de vista e ideologias, desde que promovam diversidade, equidade, inclusão e crescimento na carreira dos profissionais de tecnologia.