Como analisar dados: uma abordagem em 5 passos
Por Laura Santos
Data science, Data Visualization, Data Analysis e Big Data são termos muito comuns nos dias atuais e empresas buscam cada vez mais profissionais das áreas de dados. Mas, afinal, o que seria um dado?
Dados nada mais são do que os valores atribuídos a algo e um conjunto deles combinados e interpretados pode gerar informações, as quais são usadas para tomar decisões de negócios. É justamente isso que a análise de dados faz: interpreta os dados, gerando informação.
Um recurso bastante importante e comumente atrelado à análise de dados é a utilização de dashboards. Um dashboard, portanto, é somente um facilitador utilizado para visualizar dados, enquanto que a análise de dados é um processo exploratório que normalmente parte de alguma hipótese/pergunta.
Uma análise, por sua vez, pode ter um objetivo claro e definido. Podemos saber exatamente o que estamos procurando, como por exemplo, os valores médios para determinada medida ou realizar uma análise exploratória, onde realizamos investigações iniciais sobre os dados para descobrir padrões, detectar anomalias, testar hipóteses e suposições com a ajuda da estatística e visualizações gráficas.
Mas, como isso funciona na prática? Existem alguns passos e boas-práticas que seguimos aqui na Revelo que podem te ajudar a ter uma análise consistente e confiável:
#1. Definição da pergunta e hipóteses
O primeiro passo de qualquer análise é pensar no problema que você quer avaliar, ou seja, quais perguntas você gostaria de responder. Pode ser a variação de uma métrica ou entender algum comportamento ou cenário como, por exemplo, participação feminina na carreira de desenvolvedores. Apesar de parecer simples e óbvio, muitas vezes, a falta de atenção nesse passo pode deixar a análise muito ampla e sem foco.
Após essa definição, levantamos hipóteses para tentar responder àquela pergunta. Normalmente, quem faz a pergunta e levanta hipóteses é o solicitante da análise que, geralmente, é do time de negócios.
#2. Definição de métricas
Talvez como passo mais importante desta lista esteja a definição do set de métricas (ou variáveis) que serão usadas na análise a fim de se provar a hipótese. Uma seleção de variáveis incorretas pode gerar uma conclusão equivocada ou não ser capaz de responder à questão inicial. Priorize a análise de variáveis que você ou o time de negócios acredita ser a mais relevante e inicie sua análise por ela.
A partir do momento que temos as hipóteses bem estruturadas, precisamos traduzi-las para dados, ou seja, quais métricas precisamos olhar para responder aquela hipótese. No caso do exemplo da participação feminina na carreira de desenvolvedores, poderíamos ter uma hipótese que elas representam menos da metade das contratações. Para checar isso, precisamos olhar para as métricas de contratações.
#3. Construção das queries
Esse passo é bastante autoexplicativo. Nessa fase, nós montamos as queries, que nada mais são do que consultas ao banco de dados que alimentarão as visualizações de dados que potencialmente construiremos em seguida. Com as métricas já definidas, essa tarefa se torna bem mais fácil.
É importante ressaltar que quando chegamos nesse passo, os dados já devem estar limpos. Aqui, estamos considerando um dataset já tratado e limpo — já que a maioria das análises da Revelo é performada pelo time de BI em um DataWarehouse no BigQuery. Caso esse não seja o seu caso, é importante avaliar e criar um processo de data cleaning antes de avançar para os próximos passos.
Aqui, sempre que construímos um dashboard novo ou uma análise que pode ser reutilizável, salvamos as views e tabelas criadas dentro de datasets. Desta forma, os dados ficam centralizados e podem ser facilmente resgatados para outras análises.
#4. Visualizações de dados
É aqui que entra a parte divertida e a mais complicada. A visualização gráfica escolhida pode ajudar ou atrapalhar a interpretação dos dados.
Existem diversos materiais na internet com dicas de quais gráficos utilizar para cada tipo de dado. Um guia bem completo e simples de entender é o Data Visualization 101. Nele, é possível encontrar diversas dicas de quando usar cada tipo de gráfico e melhores práticas para cada um deles. Outro artigo com dicas legais sobre design de dashboards é o que pode ser encontrado no blog do Supermetrics.
Além dos gráficos, um ponto importante a se considerar é a paleta de cores. Lembre-se que cores possuem contexto associado na mente do usuário. Por exemplo, normalmente a cor vermelha indica um sentido negativo, então, colocar uma métrica de aprovação em vermelho pode dificultar a interpretação dela — lembre-se sempre que a questão fundamental da visualização de dados é facilitar a compreensão dos mesmos. Assim, a percepção do usuário deve sempre ser levada em conta.
As cores também podem ter um sentido simbólico. Por exemplo, ao criar um gráfico sobre pessoas que preferem Coca-Cola em comparação com pessoas que preferem Pepsi, é ideal usar o vermelho para representar quem prefere Coca e o azul para quem prefere Pepsi, tornando a interpretação mais simples, já que essas são as cores que intuitivamente são associadas com cada produto, seguindo as respectivas identidades visuais das marcas em questão.
Outra dica é tentar deixar as cores o mais harmônicas possível. Caso você não tenha uma paleta definida, use geradores disponíveis na internet. Um exemplo legal é do Adobe Color.
Na Revelo, as ferramentas que utilizamos para criar visualizações de dados são o Data Studio, o próprio Google Sheets e bibliotecas específicas de dataviz em Python para questões mais complexas ou derivadas de análises de dados que são executadas nesse ambiente.
#5. Documentar
Muitas vezes subestimado, esse passo pode ser considerado desnecessário por muitos analistas mas, quando há divulgação e compartilhamento de materiais de análise com outros times, especialmente para pessoas fora do contexto de dados ou fora da sua empresa, é muito importante deixar documentado os critérios utilizados, quais métricas foram selecionadas e a interpretação dos resultados.
Isso evita compreensões e divulgações equivocadas e possibilita a replicação da análise no futuro, com a garantia de uso dos mesmos parâmetros. A documentação também é um excelente material de apoio para se compreender como foi conduzida a análise ou o porquê determinado aspecto não foi incluído no estudo, por exemplo.
E pronto! Na Revelo, aplicamos este passo a passo no dia a dia e estamos sempre buscando formas de melhorar esse processo e aprender mais.
Agradecimentos à Camila Yamashiro e Natalia Martins que também contribuíram para a elaboração do texto
Referências:
What Is The Difference Between Data Analysis And Data Visualization?
What is Exploratory Data Analysis?
Choosing the right colors for your dashboard
Post originalmente publicado no Medium