Promptimus: Otimização Automatizada de Prompts LLM para Empresas

Introdução: O Desafio da Otimização de Prompts LLM em Escala Empresarial

No cenário tecnológico atual, Large Language Models (LLMs) tornaram-se pilares em diversas aplicações corporativas. A eficácia desses modelos, no entanto, é frequentemente impulsionada por prompts cuidadosamente elaborados, que encapsulam desde intrincadas lógicas de negócio até requisitos regulatórios e expertise de domínio. Pense em um sistema de saúde que deve aderir rigorosamente à Lei de Portabilidade e Responsabilidade do Seguro de Saúde, ou um sistema financeiro que precisa seguir regras de tolerância a riscos — todos dependem de prompts precisos e conformes.

O desafio não é mais criar prompts do zero, mas sim refinar e elevar o desempenho de prompts já bem desenvolvidos. A demanda por ganhos de performance continua a crescer, exigindo que descubramos aprimoramentos sutis e específicos da tarefa, sem jamais comprometer os requisitos de domínio. É nesse contexto que a AITY apresenta o Promptimus, uma metodologia inovadora para otimização automatizada de prompts que redefine a eficiência e a adaptabilidade no ambiente empresarial.

Promptimus: Uma Solução Inovadora para a Otimização de Prompts

O Promptimus se destaca por sua capacidade de otimizar prompts de maneira automática, oferecendo vantagens significativas sobre abordagens anteriores:

Model Agnosticidade: Ele pega um prompt já otimizado para um modelo fonte, rapidamente o reotimiza para um modelo alvo e compara o desempenho dos prompts otimizados entre os modelos.
Impulsionado por Critérios de Desempenho: Utiliza o template de prompt existente, amostras de dados específicas da tarefa e métricas de desempenho definidas pelo usuário para gerar estratégias de melhoria direcionadas, iterando para alcançar objetivos de otimização de domínio.
Foco em Explorações de Falhas: Emprega um agente de IA para análise de métricas para identificar pontos de falha e um agente auxiliar de depuração para identificar as causas-raiz, refinando cirurgicamente os prompts em relação às falhas (em vez de dimensões aleatórias) para melhorias de desempenho direcionadas.
Totalmente Automatizado: Analisa métricas definidas pelo usuário e utiliza um agente de IA de sanitização de código para gerar pontos de verificação de depuração automaticamente. Funções de métrica podem ser importadas como código Python, e critérios de desempenho podem ser adicionados ou modificados a qualquer momento.
Modo de Edição: Para prompts grandes, cuidadosamente estruturados e com lógica de negócios complexa, o modo de edição faz modificações cirúrgicas e direcionadas em vez de reescrever o prompt inteiro, preservando o que já funciona e corrigindo exatamente o que está quebrado.

O Promptimus suporta uma ampla gama de tarefas de LLM textuais e multimodais, incluindo classificação, extração, geração, sumarização, geração de código e uso de ferramentas, provando ser uma ferramenta versátil para o ambiente empresarial.

Por Que Prompts Bem Engenheirados São Difíceis de Otimizar

Embora a automação da otimização de prompts não seja um conceito novo, as abordagens que funcionam bem ao gerar prompts do zero geralmente falham ao tentar aprimorar prompts já bem elaborados. Estratégias de exploração aleatória, com direções genéricas como "seja mais criativo" ou "adicione exemplos", são ineficazes, pois as melhorias restantes residem em direções estratégicas muito específicas. Além disso, o feedback esparso, na forma de pontuações escalares, não oferece orientação sobre as causas das falhas ou como melhorá-las.

A complexidade crescente das demandas de domínio de negócios, juntamente com a rápida evolução dos modelos de LLM (com lançamentos frequentes de novos modelos por provedores como Anthropic, OpenAI, Google, Meta e Alibaba), intensifica o desafio. Prompts otimizados para um modelo muitas vezes têm desempenho inferior em outro devido a diferentes características de interpretação de instruções. A reotimização manual é cara e demorada, e os riscos de regressão atrasam a adoção de modelos superiores.

Metodologia e Design do Sistema Promptimus

O Promptimus aborda esses desafios com uma metodologia centrada em um loop de iteração de quatro passos, que utiliza os seguintes inputs:

O LLM que você pretende usar para inferência.
O template de prompt inicial.
Um pequeno dataset JSONL (tipicamente 20-50 amostras) com variáveis correspondentes para templates de prompt, dividido em um conjunto de desenvolvimento (para ajuste de prompt) e um conjunto de teste reservado (para validação); não é obrigatório que as amostras contenham o ground truth.
Uma função de métrica de avaliação de desempenho definida pelo usuário (você pode trazer seu próprio código Python).

import json

def custom_defect_classification_metric(llm_output: str, ground_truth: dict) -> float:
    """
    Exemplo de função de métrica definida pelo usuário para classificação de defeitos.
    Avalia se a saída do LLM corresponde à categoria e nível de risco esperados.
    """
    try:
        parsed_output = json.loads(llm_output)
        predicted_category = parsed_output.get("defect_category")
        predicted_risk = parsed_output.get("risk_level")

        expected_category = ground_truth.get("defect_category")
        expected_risk = ground_truth.get("risk_level")

        score = 0.0
        if predicted_category == expected_category:
            score += 0.5
        if predicted_risk == expected_risk:
            score += 0.5
        return score

    except json.JSONDecodeError:
        return 0.0 # Saída inválida do JSON
    except Exception:
        return 0.0 # Outros erros

O Loop de Iteração de Quatro Passos

Passo 1 — Avaliação: Na inicialização, o prompt original é executado no LLM alvo usando o conjunto de desenvolvimento (dev set) para estabelecer pontuações de avaliação de linha de base. Adicionalmente, o agente analisador de métricas realiza uma análise da função de métrica definida pelo usuário, gerando funções de checkpoint que decompõem a avaliação em etapas de validação intermediárias. Esses checkpoints permitem um diagnóstico de falhas granular ao longo do processo de otimização. Por exemplo, se os checkpoints revelam que 98% das saídas têm o formato JSON correto e 95% têm schemas válidos, mas apenas 88% têm valores válidos, a causa do baixo desempenho é localizada na validação de valores. Após a avaliação inicial, o Promptimus se ramifica em dois modos:
- Modo Padrão: Conduz reescritas completas do prompt.
- Modo Edição: Modifica prompts com edições estruturadas de busca e substituição.
Passo 2 — Geração de Feedback:
- Modo Padrão: O gerador de feedback impulsionado por LLM utiliza os checkpoints de métrica pré-calculados pelo analisador de métricas para diagnosticar padrões de falha nos resultados do prompt atual. Ele identifica o checkpoint de gargalo (aquele com a menor taxa de aprovação) e coleta instâncias representativas — incluindo exemplos de falha e sucesso para fornecer contraste — então analisa as causas-raiz e os modos de falha comuns. Finalmente, ele fornece sugestões acionáveis para corrigir o prompt (como "saídas do modelo texto descritivo em vez de códigos de enumeração, sugerir adicionar restrição explícita").
- Modo Edição: Após realizar a mesma análise de falhas do modo padrão, o gerador de feedback propõe edições de busca e substituição direcionadas, fixando as mudanças nos locais exatos responsáveis por falhas específicas.
Passo 3 — Geração de Estratégia e Edição:
- Modo Padrão: Com base no feedback do passo anterior, juntamente com as métricas e amostras de dados, o meta-otimizador analisa as características da tarefa e gera estratégias de exploração específicas da tarefa, mantendo todos os requisitos de domínio codificados no prompt original. Em seguida, para cada estratégia, o otimizador de instruções propõe um prompt candidato aprimorado que aborda as fraquezas identificadas e os padrões de erro específicos. Este acoplamento um-a-um entre estratégias e candidatos garante uma exploração diversificada do panorama de otimização.
- Modo Edição: Para cada edição proposta no passo 2, o Promptimus compara deterministicamente a edição com a falha identificada com três níveis de correspondência: correspondência exata, correspondência difusa normalizada por espaço em branco e correspondência por similaridade perto da referência da linha. Este processo tem uma taxa de sucesso de 97,3% com zero chamadas LLM.
Passo 4 — Avaliação do Candidato: Cada candidato é executado usando o dev set, e o melhor candidato é selecionado executando a função de métrica definida pelo usuário. O candidato com melhor desempenho se torna o ponto de partida para a próxima iteração. Este processo focado na exploração é executado iterativamente por um número de iterações especificado pelo usuário, com cada iteração construindo sobre o que foi aprendido e alcançado na anterior.

Recomendamos o modo padrão para prompts curtos que precisam de expansão significativa (por exemplo, um prompt matemático de duas linhas que precisa se transformar em protocolos de raciocínio detalhados). O modo de edição é a melhor escolha para prompts mais longos e já bem elaborados, contendo conteúdo estruturado como schemas de API, regras de conformidade ou taxonomias de domínio, onde reescritas completas correm o risco de descartar ou reorganizar silenciosamente seções cuidadosamente criadas. Para um prompt com 50.000 a 100.000 tokens, uma iteração típica produz de três a cinco edições totalizando 500 a 1.000 tokens, em vez de regenerar o prompt inteiro.

Resultados Empíricos e Análise

Avaliamos o Promptimus em relação a seis métodos de otimização automática de prompts líderes em 20 benchmarks públicos, abrangendo raciocínio, matemática, perguntas e respostas, text-to-SQL, codificação, chamada de função, seguimento de instruções e tarefas multimodais. O Promptimus alcançou os melhores resultados em 16 dos 20 benchmarks e empatou em um, superando todas as seis linhas de base em média (0,792 vs. 0,765 para o melhor dos seis baselines). Os maiores ganhos aparecem em tarefas onde a métrica possui uma estrutura decomponível. Notavelmente, o Promptimus com modo de edição superou todos os quatro benchmarks multimodais, sugerindo que prompts de visão-linguagem se beneficiam da preservação da estrutura de análise visual existente, em vez de reescrevê-la.

O modo de edição do Promptimus atinge 90% de sua pontuação final de desenvolvimento em uma mediana de cerca de 300 chamadas de métrica, mais rápido do que todas as linhas de base. Ambos os modos tipicamente estabilizam em oito iterações, com a maior parte da melhoria concentrada nas primeiras três a cinco iterações. É crucial notar que os ganhos no conjunto de desenvolvimento se transferem para o conjunto de testes retido, indicando uma robustez contra o overfitting. Atribuímos isso às modificações cirúrgicas do modo de edição, que preservam a estrutura generalizável do prompt, e à sondagem de métricas, que produz sinais de falha que se transferem entre exemplos, em oposição à memorização de padrões do conjunto de desenvolvimento.

Também avaliamos o Promptimus em vários LLMs usando um benchmark público e casos de uso empresariais da Amazon, abrangendo tarefas de classificação, text-to-SQL, raciocínio matemático, codificação, compreensão multimodal e geração complexa de API em sete modelos alvo. O Promptimus melhorou os prompts de linha de base em todas as nove tarefas, com ganhos variando de 3,18% a 90,27%. Os conjuntos de desenvolvimento variaram de 30 a 160 exemplos, com a maioria das tarefas usando menos de 100, demonstrando a eficiência de amostra do sistema. Os resultados também destacam a generalizabilidade model-agnostic: a mesma estrutura de otimização produziu ganhos significativos em modelos alvo proprietários e de código aberto sem engenharia específica da tarefa.

Exemplos Reais de Melhoria com Promptimus:

CodeForces (Benchmark de Codificação): Na geração de funções Python com base em descrições de problemas, o Promptimus no modo de edição convergiu em cinco iterações, aprimorando significativamente o prompt original por meio de deleções e adições direcionadas, otimizando o raciocínio do LLM.
Agente de IA Multimodal (Amazon): Para a detecção de defeitos de construção, utilizando o modelo qwen3-vl-235b-a22b no Amazon Bedrock, o Promptimus otimizou o prompt em três iterações com apenas 16 amostras de desenvolvimento. As recomendações geradas (incluindo fornecimento de um papel, objetivo da tarefa, categorias de defeitos com exemplos, instruções de análise com árvore de decisão e requisitos de formato de saída) melhoraram a acurácia da classificação de imagens de 0,438 para 0,812 no conjunto de desenvolvimento e de 0,471 para 0,529 no conjunto de testes.
Defactify (Verificação de Fatos Multimodal): Para a detecção de desinformação e conteúdo gerado por IA, o analisador de métricas do Promptimus identificou uma tendência do modelo a classificar imagens geradas por IA fotorrealistas como "Reais". O otimizador introduziu uma estrutura adversarial de hipótese dupla com peso assimétrico, tendenciando o modelo para "Gerado por IA". Isso permitiu ao modelo identificar sistematicamente sinais de manipulação, como números distorcidos em um relógio, que o prompt original ignorava.

Conclusão: O Impacto Prático de Promptimus nas Aplicações Empresariais

O Promptimus se destaca por sua capacidade de direcionar e refinar prompts de forma cirúrgica, prevenindo a exploração e garantindo um desempenho otimizado. Sua natureza generalizável e adaptabilidade a funções de métrica definidas pelo usuário e domínios de tarefa, sem a necessidade de engenharia manual, o tornam uma ferramenta inestimável para empresas. O loop de feedback denso impulsiona a análise automática do código da função de métrica, identifica pontos de verificação de depuração e gera estratégias de exploração adaptativas e conscientes da tarefa, que visam os modos de falha específicos de cada combinação de prompt e tarefa.

Particularmente, nossa abordagem é eficiente em termos de amostras, exigindo apenas um pequeno número de exemplos de desenvolvimento (tipicamente 20 a 50) para impulsionar melhorias significativas, tornando-a ideal para cenários empresariais onde dados rotulados são escassos ou caros de obter. Além disso, seu design model-agnostic permite que ele adapte rapidamente prompts a modelos alvo para uma migração de modelos sem emendas em nível empresarial.

Na AITY, estamos orgulhosos de disponibilizar esta inovação através do Amazon Bedrock, permitindo a migração de modelos para aplicações de IA generativa empresariais com zero engenharia manual e conjuntos de dados rotulados mínimos. Com o Promptimus, as empresas podem finalmente alcançar o desempenho máximo de seus LLMs, garantindo conformidade e adaptabilidade em um ambiente de negócios em constante mudança.