Certifique-se de que a separação de seu conjunto de dados é realizada de acordo com a quantidade de amostras disponíveis

Ao identificar uma situação em que uma aplicação de aprendizado de máquina é apropriada, tendo como finalidades otimizar algum processo técnico, operacional ou de negócio, e não ter sua organização ultrapassada pela competição, devemos dar os primeiros passos para construir o projeto de maneira adequada.

Isso se dá, primeiramente, com foco no conjunto de dados disponível. [tweet]Nossos dados, na maior parte, nos guiarão no decorrer do desenvolvimento de uma aplicação de aprendizado automático[/tweet]. Por meio de um processo empírico, munidos de métricas como precisão, recall, entre outras, avaliaremos a performance da aplicação de Machine Learning.

Métricas de Avaliação

Precisão, Recall (sensibilidade), F1 Score e Acurácia são métricas utilizadas para avaliar a performance de um modelo de Machine Learning. Sem o uso dessas métricas para otimização do modelo, a aplicação pode ser apresentar vieses, ou erros, que são reconhecidos apenas após a aplicação estar em ambiente de produção.

Após avaliar os resultados obtidos, começamos uma nova iteração no ciclo de desenvolvimento, trabalhando em ajustes de nossa arquitetura, conjunto de dados e outros componentes relevantes da aplicação.

A avaliação da performance da aplicação é um processo que possui como etapa fundamental a divisão do conjunto de dados.  Essa divisão pode ser realizada de algumas formas diferentes. Para ilustração, utilizaremos como exemplo a divisão mais comum da literatura, a “80/10/10”. Nela separamos 80% dos nossos dados para realizar o treinamento do modelo, 10% para avaliação durante o desenvolvimento do projeto – também chamado de dev set – e os 10% restantes para o conjunto de testes, que utilizamos para colocar nosso modelo “à prova”.

Você já se perguntou quanto à aplicabilidade dessa divisão “tradicional”? Por muito tempo, a divisão de dados “80/10/10” – ou de proporção semelhante – foi levada como um padrão para o desenvolvimento de modelos de aprendizado de máquina. Essa divisão ainda é aplicável atualmente, quando trabalhamos com imensos conjuntos de dados?

[tweet]Realizar uma divisão equivocada do seu conjunto de dados pode multiplicar o tempo de desenvolvimento do seu projeto de maneira desnecessária[/tweet]. Dependendo do número de amostras disponíveis, você pode estar realizando avaliações de seu modelo diariamente, ou até em frequências maiores, em conjuntos desnecessariamente grandes.

Por mais que possa existir a impressão de que a definição de um modelo para chegar em um determinado resultado é bastante direta, isso não poderia estar mais longe de ser verdade. Sem a adoção de um processo iterativo, não é possível alcançar qualquer tipo de avanço em um problema de aprendizado de máquina. [tweet]Lembre-se: um projeto de aprendizado de máquina é composto por um processo altamente iterativo[/tweet].

Desenvolver um modelo que nos trará resultados satisfatórios é um processo altamente iterativo e, se não estruturarmos nosso conjunto de dados de maneira adequada em relação à quantidade de amostras disponíveis, certamente cada iteração de desenvolvimento acabará custando cada vez mais caro para o seu time.

 

Compartilhe este insight:

Comentários

Participe deixando seu comentário sobre este artigo a seguir:

Subscribe
Notify of
guest
0 Comentários
Inline Feedbacks
View all comments

AUTOR

Thiago Candido
Especialista em inteligência artificial e engenharia de dados com experiência profissional na indústria e setor financeiro

NOVOS HORIZONTES PARA O SEU NEGÓCIO

Nosso time está preparado para superar junto com você grandes desafios tecnológicos.

Entre em contato e vamos juntos utilizar a tecnologia do jeito certo para gerar mais resultados.

Insights EximiaCo

Confira os conteúdos de negócios e tecnologia desenvolvidos pelos nossos consultores:

Arquivo

Pós-pandemia, trabalho remoto e a retenção dos profissionais de TI

CTO Consulting e Especialista em Execução em TI
0
Queremos saber a sua opinião, deixe seu comentáriox
Oferta de pré-venda!

Mentoria em
Arquitetura de Software

Práticas, padrões & técnicas para Arquitetura de Software, de maneira efetiva, com base em cenários reais para profissionais envolvidos no projeto e implantação de software.

Muito obrigado!

Deu tudo certo com seu envio!
Logo entraremos em contato

Certifique-se de que a separação de seu conjunto de dados é realizada de acordo com a quantidade de amostras disponíveis

Para se candidatar nesta turma aberta, preencha o formulário a seguir:

Certifique-se de que a separação de seu conjunto de dados é realizada de acordo com a quantidade de amostras disponíveis

Para se candidatar nesta turma aberta, preencha o formulário a seguir:

Condição especial de pré-venda: R$ 14.000,00 - contratando a mentoria até até 31/01/2023 e R$ 15.000,00 - contratando a mentoria a partir de 01/02/2023, em até 12x com taxas.

Tenho interesse nessa capacitação

Para solicitar mais informações sobre essa capacitação para a sua empresa, preencha o formulário a seguir:

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

O seu insight foi excluído com sucesso!

O seu insight foi excluído e não está mais disponível.

O seu insight foi salvo com sucesso!

Ele está na fila de espera, aguardando ser revisado para ter sua publicação programada.

Tenho interesse em conversar

Se você está querendo gerar resultados através da tecnologia, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse nessa solução

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

Tenho interesse neste serviço

Se você está procurando este tipo de solução para o seu negócio, preencha este formulário que um de nossos consultores entrará em contato com você:

× Precisa de ajuda?