Olá, seja muito bem-vindo(a) ao meu portfólio de projetos de Ciência e Análise de Dados.

Nessa página, eu demonstro minhas habilidades de resolver problemas de negócio utilizando conceitos e ferramentas da Ciência de Dados, através de projetos com dados públicos. Você vai encontrar também, minhas experiências profissionais, habilidades, ferramentas e conceitos envolvendo Ciência e Análise de Dados.

Sinta-se à vontade para entrar em contato através dos links no final da página.

Sobre Mim.

Meu nome é Breno Teixeira, sou formado em engenharia civil e, atualmente estou me capacitando para me tornar um Cientista de Dados. Busco uma oportunidade de trabalhar profissionalmente como Cientista de Dados para melhorar a tomada de decisão da empresa, através da construção de soluções usando dados.

Habilidades

Linguagens de Programação e Banco de Dados

  • Python com foco em análise de dados.
  • Web scraping com Python.
  • SQL para extração de dados.
  • Banco de Dados Postgres.

Estatística e Machine Learning

  • Estatística Descritiva e Inferêncial(localização, dispersão, assimetria, kurtosis, densidade, testes de hipótese, Teste A/B).
  • Algoritmos de Regressão, classificação e clusterização.
  • Técnicas de seleção de atributos.
  • Métricas de performance dos algoritmons (RMSE, MAE, MAPE, Confusion Matrix, Precisão, Recall, Curva ROC, Curva Lift, AUC).
  • Pacotes de Machine Learning: Sklearn.

Visualização de Dados

  • Matplotlib, Seaborn, Plotly.
  • Power BI.

Engenharia de Software

  • Git, Github, Virtual Enviroment, Gitlab.
  • Streamlit, Flask.
  • Cloud Heroku.
  • Airflow.

Experiências

4 Projetos completos de Ciência de Dados

Desenvolvimento de soluções de dados para problemas de negócio, próximos dos desafios reais das empresas. Nesses projetos, foram utilizados dados públicos de competições de Ciência de Dados, em que os problemas foram abordados desde a concepção do problema de negócio até a publicação do algoritmo treinado em produção — deploy do modelo em uma ferramenta de Cloud Computing.

2 anos como Estagiário de Engenharia Civil

  • Setor de Fiscalização e Controle de Obras.
  • Elaboração de medições de obras – pavimentação e edificações.
  • Confecção de relatórios fotográficos.
  • Levantamento de quantitativos de obras.
  • 1 ano e meio como Gerente de Projeto de empresa júnior

  • Gerenciamento de equipe de projetos de engenharia civil.
  • Projetos em Ciência de Dados

    Segmentação de Clientes com Técnicas de Clusterização

    O time de marketing da OnlineMart, um e-commerce que comercializa diversos tipos de produtos, gostaria de implementar um programa de fidelização de clientes; mas não tinha os segmentos de clientes bem definidos para realizar ações personalizadas.

    Coletei os dados de transações do e-commerce e construí um modelo de clusterização (k-means) com Python (Pandas, scikit-learn).

    Dez segmentos de clientes foram identificados, permitindo ao time de marketing tomar ações específicas para cada grupo e criar um programa de fidelidade para o melhor grupo de clientes.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy, Seaborn, Scikit-Learn, Matplotlib.
    • Anaconda, VSCode, Jupyter Notebook.
    • AWS Service, Power BI.

    Previsão das vendas das próximas seis semanas de uma rede de farmácias

    Neste projeto eu utilizei Python, Estatística, e técnicas supervisionadas de machine learning (Algoritmos de Regressão) para prever as vendas das lojas da Rossmann — uma rede de farmácias da Europa — das próximas seis semanas. Visando facilitar a vida dos tomadores de decisão, eu criei um bot no telegram que permite acesso às previsões de vendas das lojas de qualquer lugar.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy, Seaborn, Scikit-Learn, Scipy .
    • Anaconda, Pycharm, Jupyter Notebook.
    • Render, Telegram Bot.
    • Flask.
    • Git, Github.

    Priorização de clientes para venda cruzada - Insurance company

    Neste projeto, foi desenvolvido um modelo de classificação para determinar a propensão dos clientes de comprar um novo produto (seguro de veículo). Os clientes foram ordendos, em ordem decrescente, de acordo com a propensão de compra prevista pelo modelo. Isso permitiu que o time de vendas priorizasse os clientes com maior chance de adquirir o novo produto.

    Como o time time de vendas tem capacidade de realizar apenas 20.000 ligações, espera-se atingir 42% dos clientes interessados, isso significa 2.66 vezes mais receita (Rs 29,412,000) do que se as ligações fossem feitas de forma aleatória. Para facilitar o acesso às previsões do modelo, foi criado um script no GoogleSheets que permite ao usuário obter as previsões do modelo e ordenar a lista de clientes automaticamente com apenas um click.

    As ferramentas utilizadas foram:

    • SQL, Python, Pandas, Numpy, Seaborn, Scikit-Learn, Scipy,Statsmodel, Matplotlib.
    • Anaconda, VSCode, Jupyter Notebook.
    • GoogleSheets, PostgreSQL.
    • Render.
    • Flask.

    Previsão de doenças cardíacas em estágios iniciais

    Neste projeto eu utilizei Python, Estatística e Algoritmos de Classificação para prever doenças cardíacas em estágios iniciais. O valor do diagnóstico dado pela empresa é baseado em sua precisão. Visando aumentar os ganhos da empresa, este projeto foi desenvolvido para auxiliar o time que realiza os diagnósticos e, dessa forma, aumentar a precisão dos diagnósticos. Comparando com a situação atual, ao implementarmos o modelo, é esperado 83,33% de aumento no lucro de cada diagnóstico. As previsões do modelo podem ser obtidas via googlesheets.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy, Seaborn, Scikit-Learn, Scipy, Optuna, Matplotlib.
    • Anaconda, VSCode, Jupyter Notebook.
    • GoogleSheets (Script).
    • Render Cloud.
    • Flask.

    Projetos em Análise de Dados

    Identificação de imóveis para compra e venda a fim de maximizar o lucro

    Este projeto foi desenvolvido levando em consideração uma estratégia conhecida como flipping — a empresa compra imóveis que necessitam de reparos, realiza os reparos e os revende. Utilizando Python, através de um análise exploratória, foi possível identificar os imóveis abaixo do preço médio de venda e definir o preço ideal para vendê-los após as reformas.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy, Seaborn.
    • Anaconda, Pycharm, Jupyter Notebook.
    • Mapas interativos com Plotly e Folium.
    • Heroku Cloud.
    • Streamlit Python framework web.

    Análise de Quartos para alugar AIRBNB

    O CEO e o Corpo Diretivo de um Tudo Aqui, um e-commerce, estão com planos de expandir a empresa de modo a abranger o ramo de locação de quartos. Para entender melhor o cenário de locação de quartos, desenvolvi uma análise criteriosa em um relatório do PowerBI com dados de Nova Iorque dos anos de 2011 a 2017. O relatório é composto por um dashboard com análises gráficas, um com uma tabela com detalhes e, por fim, um dashboard com sugestões de gráficos.

    As ferramentas utilizadas foram:

    • PowerBI.

    Processo de ETL e monitoramento de preços de competidores para um E-commerce

    Projeto de ETL e visualização de dados com o objetivo de ajudar uma um e-commerce do ramo da moda a definir seus produtos e preços de acordo com o mercado.

    Neste projeto, foram utilizadas técnicas de Webscraping (Beautiful Soup) para coletar os dados dos sites de dois concorrentes. Os dados foram tratados com Regex (regular expressions) e outras técnicas de limpeza de dados, e, então, foram salvos em banco de dados Postgres.

    Para automatizar todo esse processo, foi utilizado o Airflow para agendamento das tarefas. E foi criado um dashboard no PowerBI para monitorar os preços dos concorrentes diariamente.

    As ferramentas utilizadas foram:

    • Python, Pandas, Numpy, BeautifulSoup, SQLAlchemy, Regular Expressions.
    • Anaconda, VSCode.
    • PowerBI, PostgreSQL.
    • Airflow, Git, Github.

    Contato

    Sinta-se à vontade para entrar em contato: