Spaceship Titanic Random Forest

Eu precisava relembrar alguns conceitos de Random Forest e então encontrei essa base de dados! Basicamente temos uma releitura do famoso caso do Titanic, o ponto de partida da maior parte dos cientistas de dados recebeu uma atualização e agora a ideia é prever se um passageiro foi transportado para uma dimensão alternativa durante a colisão da nave espacial Titanic com a anomalia do espaço-tempo. Cool? Sim!

No ano de 2.912 tivemos esse pequeno incidente, mas felizmente o registro de mais de 13.000 passageiros que (ao invés de morrerem, partiram para uma melhor). Um tanto poético, eu diria. Temos varias informações interessantes como o planeta de onde o passageiro partiu, se ele viajou em estado de animação suspensa, o número e a classe da cabine, o destino, o total gasto com algumas amenidades, a idade e o nome.

Saiba mais sobre esse projeto

Principais insights

79.6%

precision

81.1%

recall

80.3%

f-1

Conclusões

Ao longo do notebook desenvolvi uma serie de tratativas na base de dados, construindo por vezes novas informações baseadas nos dados originais e ajustando-as. Segui o processo exploratório padrão de construção de uma EDA e obtive resultados interessantes a respeito da distribuição da idade dos passageiros e alocação das cabines.

Procurei dessa vez explorar o uso de gráficos interativos com o uso do ipywidgets, uma excelente indicação se você está buscando formas de economizar tempo durante suas EDAs. Após análises univariadas, parti para as correlações entre multiplas variáveis com o uso de um lindo heatmap. Por fim, iniciei a etapa de preparação para o modelo de Random Forest.

Criei uma metodologia para o preenchimento de valores faltantes um tanto quanto robuscada, queria evitar a simplificação de excluir esses valores que por vezes podem ser interessantes! Depois, trabalhei na criação de variáveis categóricas a partir de variáveis inteiras que tinham certa concentração em alguns intervalos. Tudo foi feito através de funções, numa tentativa de modularizar as etapas de forma a facilitar uma futura produtização.

Finalmente depois chegamos na etapa de modelagem. Implementei um modelo de Random Forest padrão e depois apliquei o "tuning" de seus hiperparâmetros. Não que isso tenha mudado drásticamente os resultados finais, rsrsrs. Independente, foi importante para treinar o uso do Bayes Search, uma abordagem de tunagem que promete ser bem eficiente. O resultado final foi satisfatória, uma precisão de 80% e um recall de 81%.