top of page

Spaceship Titanic Random Forest

Eu precisava relembrar alguns conceitos de Random Forest e então encontrei essa base de dados! Basicamente temos uma releitura do famoso caso do Titanic, o ponto de partida da maior parte dos cientistas de dados recebeu uma atualização e agora a ideia é prever se um passageiro foi transportado para uma dimensão alternativa durante a colisão da nave espacial Titanic com a anomalia do espaço-tempo. Cool? Sim!


No ano de 2.912 tivemos esse pequeno incidente, mas felizmente o registro de mais de 13.000 passageiros que (ao invés de morrerem, partiram para uma melhor). Um tanto poético, eu diria. Temos varias informações interessantes como o planeta de onde o passageiro partiu, se ele viajou em estado de animação suspensa, o número e a classe da cabine, o destino, o total gasto com algumas amenidades, a idade e o nome.

Principais insights

79.6%

precision

81.1%

recall

80.3%

f-1

Conclusões

Ao longo do notebook desenvolvi uma serie de tratativas na base de dados, construindo por vezes novas informações baseadas nos dados originais e ajustando-as. Segui o processo exploratório padrão de construção de uma EDA e obtive resultados interessantes a respeito da distribuição da idade dos passageiros e alocação das cabines.


Procurei dessa vez explorar o uso de gráficos interativos com o uso do ipywidgets, uma excelente indicação se você está buscando formas de economizar tempo durante suas EDAs. Após análises univariadas, parti para as correlações entre multiplas variáveis com o uso de um lindo heatmap. Por fim, iniciei a etapa de preparação para o modelo de Random Forest.


Criei uma metodologia para o preenchimento de valores faltantes um tanto quanto robuscada, queria evitar a simplificação de excluir esses valores que por vezes podem ser interessantes! Depois, trabalhei na criação de variáveis categóricas a partir de variáveis inteiras que tinham certa concentração em alguns intervalos. Tudo foi feito através de funções, numa tentativa de modularizar as etapas de forma a facilitar uma futura produtização.


Finalmente depois chegamos na etapa de modelagem. Implementei um modelo de Random Forest padrão e depois apliquei o "tuning" de seus hiperparâmetros. Não que isso tenha mudado drásticamente os resultados finais, rsrsrs. Independente, foi importante para treinar o uso do Bayes Search, uma abordagem de tunagem que promete ser bem eficiente. O resultado final foi satisfatória, uma precisão de 80% e um recall de 81%.

Apresentação

Captura de Tela 2024-06-18 às 01.51.23.png

Galeria de imagens

Continue explorando outros temas...

Duolingo Exploratory Analysis

Uma análise exploratória de dados públicos do aplicativo de aprendizagem de idiomas mais popular do mundo.

Music System Recommendation

Explorando um sistema de recomendação de músicas por conteúdo utilizando abordagens como NLP e KNN.

Movie System Recommendation

Desenvolvendo um sistema de recomendação de filmes utilizando Redes Complexas, SVD e Link Prediction.

Text classification for brazilian news

Aplicando técnicas de NLP para a limpeza, preparo e aplicação de modelos de classificação de temas em notícias em português

Data Analytics Manager

Se conecte comigo!

Inscreva-se neste site para ficar por dentro de todas as novidades!

Me siga pelas redes!

  • Captura de Tela 2024-06-02 às 17.03.21
  • GitHub
  • LinkedIn

/aravinii

© 2024 Vinicius Araujo. Todos os direitos reservados.

bottom of page