Avançar para o conteúdo
Início » Artigo » 10 Passos de um projeto de Data Science

10 Passos de um projeto de Data Science

Projeto Data Science

Um projeto de Data Science é composto de várias etapas.

Cada uma destas etapas compõe os 10 passos para a construção e publicação de um projeto de Data Science.

Neste artigos vamos explicar estas etapas e entender como estas se relacionam.

1 – Definição do problema!

problema

A primeira etapa de um projeto de Data Science é a definição do problema.

Este problema pode ser uma “dor” já existente da empresa ou uma hipótese que estamos querendo validar.

Esta hipótese pode gerar novos negócios e/ou evidenciar novas oportunidades.

Na primeira etapa do projeto é necessário uma conversa inicial com alguém da área de negócio ou da equipe que pode se beneficiar da solução deste problema.

Este bate papo inicial é para definir qual o problema que vamos resolver.

2 – Análise do problema

Definido qual é o problema que vamos estudar é preciso estudar o mesmo, aprofundando o nosso conhecimento sobre este, identificando os pontos fortes e fracos, quais oportunidades podemos ter, quais os desafios, quais os mitos e histórias que este, intrinsecamente, já possui.

A análise do problema pode ser feito inicialmente pelo analista que irá estudar e desenvolver tecnicamente, desde que conheça a área em que está trabalhando.

O melhor resultado que podemos ter da análise deste problema é uma conversa com a área de negocio que está diretamente ligada aos benefícios da solução.

Nesta etapa analisamos o problema proposto e levantamos algumas hipóteses, afim de identificar e comprovar, quais as suspeitas do que pode estar causando este.

As vezes, entrevistas com áreas satélites podem ajudar a entender o cenário e o ambiente de nossa atuação na solução e estudo do caso.

Novas ideias e novos pontos de vistas podem ser úteis para gerar insights não vistos ainda pelos clientes.

Uma das técnicas utilizadas neste etapa é um brainstorm de ideias com a área de negócio.

Neste brainstorm podemos ter alguns resultados interessantes, em que podemos citar, por exemplo, quais as crenças que podemos validar.

Alguns dos resultados que podemos ter do brainstorm:

  • Qual a pergunta a ser respondida?
  • Qual a necessidade da empresa/setor/cliente?
  • Qual o ramo de atuação?
  • Quem é o principal interessado na solução?
  • Quem pode ser beneficiado diretamente com a solução?
  • Como este projeto pode impactar positivamente ou negativamente o negocio?
  • Quem são os contatos para duvidas;
  • Qual é o objetivo do projeto;
  • Qual é o orçamento;
  • Qual é a expectativa do contratante/cliente;
  • Qual tipo de dado é necessário?
  • Qual é o período a ser analisado?
  • Como coletar com o mínimo de esforço e sem erros?
  • Onde os dados estão?

Alguns pontos podem ser óbvios, mas é bom ter eles em mente no início do projeto para não haver distorções.

É importante fazer o levantamento de algumas hipóteses, mesmo que já sejam de senso comum, para que estas possam ser validadas com os dados.

3 – Coleta de Dados

A coleta de dados é muito importante para o projeto de Data Science.

A área contratante deve prover minimamente os dados para análise e entendimento do problema.

Mas não devemos ficar limitados aos dados fornecidos pelo cliente. É preciso avaliar se os dados fornecidos são suficientes para a resolução do nosso problema e se é necessário a coleta a partir de novas fontes de dados.

Durante o trabalho de estudo e validação das hipóteses propostas na fase 2(Análise do problema), provavelmente teremos de voltar nesta etapa de coleta de dados, afim de enriquecer a nossa fonte de informações com novos dados.

Esta fase de coleta de dados pode ser feita com o auxilio de duas grandes profissões que se destacam no mundo de Big Data: o engenheiro de dados e o analista de dados.

Caso tenha uma área de BI ou de gestão de fontes que possa fornecer um catálogo de dados, estas ajudas são muito bem vindas!

4 – Tratamento dos dados

Com os dados em mãos é hora de arregaçar as mangas e iniciar a codificação e os estudos dos dados.

Nesta fase é feito alguns tratamentos nos dados, como limpeza dos dados que possam estar distorcidos(outliers), tratamentos de dados faltantes(dados nulos) e outros…

Podemos fazer nesta fase também alguns tratamentos com geração de novas features baseadas nos dados já fornecidos e/ou padronização de informações, por exemplo: padronizar o formato de apresentação do Estado (UF), formatação do DDD e até mesmo a representação de indicadores como faixas etárias e outros em uma única escala.

Importante lembrar que nesta fase são feitos alguns tratamentos afim de entender melhor os dados e trazer para um formato em que o cientista de dados possa aplicar os modelos estatísticos (Modelos de Machine Learning).

Em alguns casos, a fonte de dados já entrega estes dados no formato necessário, sem a necessidade de tratamento. Este cenário é raro, mas pode ser visto em empresas que tenham o perfil Data Driven.

5 – Análise Exploratória dos Dados

A analise exploratória dos dados é uma das fases mais importantes para um projeto de Data Science.

É nesta etapa que o cientista de dados passa a maio parte do tempo, estudando, validando as hipóteses geradas nas etapas anteriores, fazendo analises descritivas dos dados, procurando insights, aplicando estudos estatísticos afim de entender os dados que foram fornecidos e se estão aptos a resolver o problema proposto.

Nesta fase buscamos significados nos dados para solucionar o problema, validar as hipóteses podendo até mesmo gerar novas hipóteses.

O produto desta fase é a geração de gráficos e dashboards com os resultados das analises.

Estes devem ser levados à área de negócio para discutir os resultados e definir se devemos ou não gerar um modelo de Machine Learning ou Deep Learning.

Às vezes o problema é solucionado simplesmente com uma boa análise dos dados, sem a necessidade da geração dos modelos estatísticos para apoiar as tomadas de decisões.

Aqui fica uma dica pessoal: Estude muito bem a área que está trabalhando e alguma técnica de apresentação de dados, pois uma boa Análise Exploratória gera grandes oportunidades para a empresa, com a geração de novos mercados que não estavam visíveis antes.

O segredo de quem sabe trabalhar com dados é enxergar o que os outros (os especialistas da área) não conseguem ver por estarem “cegos”. Pensar “fora da caixa” pode ajudar!

Isto só é possível com muito estudo, prática e experiência, não apenas da área em que está atuando, mas também de métodos estatísticos.

Para um bom resultado de Analise Exploratória, recomendo o estudo e prática da técnica de Storytelling.

Para este, o livro Storytelling com dados é excelente!

6 – Modelagem de dados

Com as análises dos dados finalizada, as hipóteses validadas e o objetivo do projeto muito bem definido, vamos agora modelar os dados para que possamos criar os modelos de Data Science.

Nesta etapa, é gerado uma única tabela com a compilação de todos os dados que vamos utilizar para a criação do nosso modelo de Machine Learning.

Estes dados precisam ser todos do tipo numérico, para que possamos executar cálculos.

Algumas variáveis podem ser transformadas em novas features com uso de técnicas como LabelEncoder e/ou a geração de dummies (get_dummies).

As features podem ter suas escalas alteradas, de acordo com a necessidade e característica do projeto ou da fonte dos dados. Para isto, utilizamos técnicas como por exemplo:

  • Standardization
  • Média
  • Standard deviation (desvio padrão)
  • min-max scalling
  • remoção de colunas de identificação do objeto da analise (cpf, id, cod, etc…)

Podemos nesta fase fazer (ou não) a filtragem/seleção das variáveis que vamos utilizar na criação do nosso modelo de Machine Learning.

7 – Criação do modelo de Machine Learning

Agora é a hora de colocar em prática os conhecimentos de estatísticas aliados ao poder computacional e gerar o modelo de Machine Learning.

Existem diversos algoritmos em Data Science para gerar os modelos.

A escolha do melhor modelo depende de qual é o objetivo do problema que estamos tratando.

O fluxo abaixo auxilia na escolha do modelo:

mapa sklearn

Dica: Algumas soluções em Data Science pode ser feita com a combinação de mais de um modelo. Estude o comportamento e a aplicação de cada um para entender o melhor momento de combiná-los!

8 – Avaliação do modelo de Machine Learning

Criado o modelo é necessário avaliar os resultados gerados por ele.

Durante a fase de geração do modelo, uma parte dos dados é reservada para esta etapa. E mais uma vez utilizaremos da estatística para avaliar os resultados e verificar a performance do nosso modelo.

Em estudos com dados já preparados para aprendizado é comum as avaliações iniciais serem muito boas, mas na prática, com dados reais, as primeiras avaliações podem não ser muito boas.

É difícil concluir que um resultado de modelagem de 89% de acerto está bom (e muito provável que esteja), mas quando estamos procurando uma assertividade em um projeto de Data Science na medicina, este valor pode ser baixo, aonde temos um ideal de 99% de precisão.

Melhorar o resultado de um modelo de Machine Learning envolve voltar algumas etapas e utilizar de outras técnicas.

Pode parecer que estaremos em um loop de “modela, testa e avalia”, mas na prática é exatamente isto.

Conhecendo os detalhes dos cálculos que envolvem os modelos e a qualidade dos dados que estamos trabalhando, podemos reduzir o número de “testes”.

Uma sugestão muito bem aceita na geração de um modelo de Machine Learning é: modelagem inicial do dados + geração do modelo + avaliação.

Depois, utilizando técnicas de estatística e de modelagem de dados: Selecionar e/ou reduzir as variaveis + a geração de um novo modelo.

O resultado é então avaliado, podendo estas etapas serem repetidas diversas vezes, combinando diversas técnicas, até se obter um resultado satisfatório.

Um cuidado muito especial que deve ser observado nas tentativas de melhorar o modelo é avaliar a necessidade de coletar mais dados (e voltar para a etapa 3), pois será necessário mais tempo de processamento de máquina, podendo impactar no prazo de entrega do projeto.

Melhorar muito um modelo pode ter um custo muito alto, tendo em vista o beneficio que o resultado pode trazer.

Veja bem, não é aceitar qualquer resultado, mas sim avaliar o custo-benefício de ficar tentando melhorar algo que já pode gerar bons resultados($…).

9 – Publicação do modelo de Machine Learning

Agora que o modelo está pronto, é hora de publicar em um ambiente produtivo, com dados reais.

Ver o seu modelo trabalhando no dia a dia e sair do laboratório de estudo.

Esta publicação deve ser feita com muito cuidado e muita atenção, sempre acompanhando de perto os resultados dos cálculos que o modelo está gerando, pois é nesta hora que diversos cenários não previstos podem aparecer.

Um cenário não previsto e um modelo com resultados contrários ao esperado pode gerar prejuízo ao invés de lucro.

Nesta etapa o nosso modelo é estruturado e publicado de forma que possa gerar valor a quem está utilizando.

A publicação de um modelo é uma fase muito importante, pois é a concretização de todo o esforço e estudo feito até o momento.
O analista que estrutura o ambiente/plataforma de publicação do modelo pode utilizar de diversas ferramentas para que este modelo gere uma excelente experiência ao usuário.

Uma característica muito interessante dos modelos que estão em produção é a geração de novos dados, que podem (e devem) ser armazenados, afim de avaliarmos como está a performance do modelo ao longo do tempo.

Estes dados podem ser utilizados até mesmo para melhoria e evolução do modelo matemático do nosso projeto.

10 – Revisão do modelo

Uma vez publicado o modelo de Machine Learning, o projeto pode ser encerrado, mas o modelo deve ser avaliado constantemente, tendo assim uma revisão periódica, afim de melhorarmos a performance e até mesmo gerar novos insights.

Contudo, o resultado da revisão pode gerar novos problemas e podemos buscar novas soluções, tornando este um ciclo de evolução da área de negócio.

Revisar um modelo que já esteja em produção é uma atividade nobre e de muito valor que representa o quanto estamos comprometidos com o resultado deste.

Podemos concluir que estas sejam as 10 principais etapas de um projeto de Data Science, porém dentro de cada etapa temos diversas atividades e muito estudo.

Projetos de Data Science envolvem muitas pessoas, com diversos conhecimentos, resolvendo problemas, propondo soluções que podem gerar muitos lucros.

Por isto é uma área extremamente valorizada e com profissionais bem remunerados.

Ao longo de todo este artigo, pode-se observar que é necessário muito estudo para o trabalho com Data Science, portanto é comum que as empresas reservem um tempo do dia para que o profissional possa ler e estudar, garantindo assim o crescimento do mesmo e a melhoria de sua equipe.

Obrigado pela leitura!

Esta é uma pequena contribuição dos meus conhecimentos. Espero ter ajudado, afinal, é sempre bom dar uma ajudinha

 
Compartilhe: