Certifique-se de que a separação de seu conjunto de dados é realizada de acordo com a quantidade de amostras disponíveis

Thiago Candido

Ao identificar uma situação em que uma aplicação de aprendizado de máquina é apropriada, tendo como finalidades otimizar algum processo técnico, operacional ou de negócio, e não ter sua organização ultrapassada pela competição, devemos dar os primeiros passos para construir o projeto de maneira adequada.

Isso se dá, primeiramente, com foco no conjunto de dados disponível. Nossos dados, na maior parte, nos guiarão no decorrer do desenvolvimento de uma aplicação de aprendizado automático. Por meio de um processo empírico, munidos de métricas como precisão, recall, entre outras, avaliaremos a performance da aplicação de Machine Learning.

Métricas de Avaliação

Precisão, Recall (sensibilidade), F1 Score e Acurácia são métricas utilizadas para avaliar a performance de um modelo de Machine Learning. Sem o uso dessas métricas para otimização do modelo, a aplicação pode ser apresentar vieses, ou erros, que são reconhecidos apenas após a aplicação estar em ambiente de produção.

Após avaliar os resultados obtidos, começamos uma nova iteração no ciclo de desenvolvimento, trabalhando em ajustes de nossa arquitetura, conjunto de dados e outros componentes relevantes da aplicação.

A avaliação da performance da aplicação é um processo que possui como etapa fundamental a divisão do conjunto de dados.  Essa divisão pode ser realizada de algumas formas diferentes. Para ilustração, utilizaremos como exemplo a divisão mais comum da literatura, a “80/10/10”. Nela separamos 80% dos nossos dados para realizar o treinamento do modelo, 10% para avaliação durante o desenvolvimento do projeto – também chamado de dev set – e os 10% restantes para o conjunto de testes, que utilizamos para colocar nosso modelo “à prova”.

Você já se perguntou quanto à aplicabilidade dessa divisão “tradicional”? Por muito tempo, a divisão de dados “80/10/10” – ou de proporção semelhante – foi levada como um padrão para o desenvolvimento de modelos de aprendizado de máquina. Essa divisão ainda é aplicável atualmente, quando trabalhamos com imensos conjuntos de dados?

Realizar uma divisão equivocada do seu conjunto de dados pode multiplicar o tempo de desenvolvimento do seu projeto de maneira desnecessária. Dependendo do número de amostras disponíveis, você pode estar realizando avaliações de seu modelo diariamente, ou até em frequências maiores, em conjuntos desnecessariamente grandes.

Por mais que possa existir a impressão de que a definição de um modelo para chegar em um determinado resultado é bastante direta, isso não poderia estar mais longe de ser verdade. Sem a adoção de um processo iterativo, não é possível alcançar qualquer tipo de avanço em um problema de aprendizado de máquina. Lembre-se: um projeto de aprendizado de máquina é composto por um processo altamente iterativo.

Desenvolver um modelo que nos trará resultados satisfatórios é um processo altamente iterativo e, se não estruturarmos nosso conjunto de dados de maneira adequada em relação à quantidade de amostras disponíveis, certamente cada iteração de desenvolvimento acabará custando cada vez mais caro para o seu time.

 

Em resumo

O problema
Ao construir uma aplicação de aprendizado de máquina deve se ter cuidado nos processos que estão relacionados a construção do conjunto de dados. Esses, em grande parte, nos guiarão no desenvolvimento de nosso modelo. Na literatura, encontramos técnicas para realizar a divisão do conjunto de dados que talvez não sejam aplicáveis para todas aplicações. Utilizar uma técnica de divisão que não é apropriada ao contexto da aplicação pode impactar negativamente na habilidade de realizações iterações de desenvolvimento de maneira ágil.
O insight
Recomendamos a análise do tamanho do conjunto de dados da aplicação para identificar e utilizar a técnica de divisão do conjunto de dados mais apropriada. Dessa forma, o tempo de desenvolvimento é otimizado e não há qualquer penalização na performance do modelo.

Compartilhe este insight:

Comentários

Participe deixando seu comentário sobre este artigo a seguir:

Subscribe
Notify of
guest
0 Comentários
Inline Feedbacks
View all comments

AUTOR

Thiago Candido
Especialista em inteligência artificial e engenharia de dados com experiência profissional na indústria e setor financeiro

NOVOS HORIZONTES PARA O SEU NEGÓCIO

Nosso time está preparado para superar junto com você grandes desafios tecnológicos.

Entre em contato e vamos juntos utilizar a tecnologia do jeito certo para gerar mais resultados.

Insights EximiaCo

Confira os conteúdos de negócios e tecnologia desenvolvidos pelos nossos consultores:

Engenharia de Software

Três vantagens reais de utilizar orquestradores BPM para serviços

Arquiteto de software e solução com larga experiência corporativa
Desenvolvimento de Software

Os principais desafios ao adotar testes

Especialista em Testes e Arquitetura de Software
Arquitetura de Dados

Insights de um DBA na análise de um plano de execução

Especialista em performance de Bancos de Dados de larga escala

Acesse nossos canais

Simplificamos, potencializamos e aceleramos resultados usando a tecnologia do jeito certo

EximiaCo 2022 – Todos os direitos reservados

0
Queremos saber a sua opinião, deixe seu comentáriox
()
x

Certifique-se de que a separação de seu conjunto de dados é realizada de acordo com a quantidade de amostras disponíveis

Para se candidatar nesta turma aberta, preencha o formulário a seguir:

Condição especial de pré-venda: R$ 14.000,00 - contratando a mentoria até até 31/01/2023 e R$ 15.000,00 - contratando a mentoria a partir de 01/02/2023, em até 12x com taxas.

Tenho interesse nessa capacitação

Para solicitar mais informações sobre essa capacitação para a sua empresa, preencha o formulário a seguir:

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

O seu insight foi excluído com sucesso!

O seu insight foi excluído e não está mais disponível.

O seu insight foi salvo com sucesso!

Ele está na fila de espera, aguardando ser revisado para ter sua publicação programada.

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse nessa solução

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse neste serviço

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

× Precisa de ajuda?