Às vezes, a solução para um problema complexo pode estar na página de um livro infantil. Foi essa a lição que os pesquisadores da Microsoft aprenderam ao descobrir como colocar mais potência em um pacote muito menor.
No ano passado, após um dia de trabalho e reflexão sobre possíveis soluções para os desafios da aprendizagem de máquina, Ronen Eldan, da Microsoft, estava lendo histórias para dormir para sua filha quando teve um insight: “Como ela aprendeu essa palavra? Como ela sabe como conectar essas palavras?”
Essa reflexão levou o especialista em machine learning da Microsoft a questionar o quanto um modelo de IA poderia aprender usando apenas palavras que uma criança de 4 anos poderia entender. Essa inspiração ajudou a criar uma abordagem de treinamento inovadora que resultou em uma nova classe de pequenos modelos de linguagem mais eficazes, prometendo tornar a IA ainda mais acessível para mais pessoas.
Os grandes modelos de linguagem (LLMs) abriram oportunidades empolgantes para sermos mais produtivos e criativos usando IA. No entanto, seu tamanho significa que eles requerem uma fonte computacional significativa para operar.
Enquanto esses modelos (LLMs) continuam essenciais para resolver várias tarefas complexas, a Microsoft está desenvolvendo uma série de modelos de linguagem menores (SLMs) que oferecem muitas das mesmas capacidades das LLMs, mas que são menores e foram treinados com uma quantidade menor de dados.
Hoje, a empresa está anunciando a família Phi-3 de modelos abertos, o menor, mais assertivo e eficiente modelo de linguagem disponível. O modelo Phi-3 superou outros modelos de mesmo tamanho e até maiores em vários benchmarks de avaliação de linguagens, códigos e matemáticos, graças à técnica de treinamento inovadora desenvolvida pelos pesquisadores da Microsoft.
Agora, a Microsoft está desenvolvendo a primeira família de linguagens pequenas que é mais poderosa e está disponível ao público: Phi-3-mini, com 3.8 bilhões de parâmetros, que tem um desempenho melhor do que modelos duas vezes maiores, segundo a empresa.
A partir de hoje, ele estará disponível no catálogo do Microsoft Azure AI Model no Hugging Face, uma plataforma de modelos de aprendizagem de máquina, como o Ollama, um framework mais leve para rodar em máquinas locais.
A Microsoft também anuncia modelos adicionais da família Phi-3 que estão por vir para oferecer mais opções de custo e qualidade. O Phi-3-small (7 bilhões de parâmetros) e o Phi-3-medium (14 bilhões de parâmetros) estarão disponíveis, em breve, no catálogo do Azure AI Model e em outros “jardins” de modelos.
Os pequenos modelos de linguagem são projetados para ter bom desempenho em tarefas mais simples, sendo assim mais acessíveis e fáceis de usar, especialmente para organizações com recursos limitados. Eles podem, ainda, ser mais facilmente ajustados para atender a necessidades específicas.
“O que vamos começar a ver não é uma mudança de grande para pequeno, mas uma mudança de uma categoria única de modelos para um portfólio de modelos onde os clientes têm a capacidade de tomar uma decisão sobre qual é o melhor modelo para o seu cenário”, disse Sonali Yadav, gerente de produto principal para IA Generativa na Microsoft.
“Alguns clientes podem precisar apenas de pequenos modelos, alguns precisarão de modelos grandes e muitos vão querer combinar ambos de várias maneiras”, disse Luis Vargas, vice-presidente de IA na Microsoft.
Escolher o modelo de linguagem certo depende das necessidades específicas de uma organização, da complexidade da tarefa e dos recursos disponíveis. Pequenos modelos de linguagem são mais adequados para organizações que procuram construir aplicações que podem ser executadas localmente em um dispositivo (em oposição à nuvem) e onde uma tarefa não requer raciocínio extenso ou nos quais é necessária uma resposta rápida.
Enquanto grandes modelos de linguagem são mais adequados para aplicações que precisam de orquestração de tarefas complexas e envolvem raciocínio avançado, análise de dados e compreensão do contexto, os pequenos modelos de linguagem oferecem soluções potenciais para indústrias regulamentadas e setores que encontram situações em que precisam de resultados de alta qualidade, mas desejam manter os dados em suas próprias instalações.
Os executivos Vargas e Yadav estão particularmente entusiasmados com as oportunidades de colocar SLMs de maior capacidade em smartphones e outros dispositivos móveis que operam “na borda”, ou seja, não estão conectados à nuvem. (Pense em computadores de carros, PCs sem Wi-Fi, sistemas de tráfego, sensores inteligentes em um chão de fábrica, câmeras remotas ou até mesmo dispositivos que monitoram a conformidade ambiental.)
Ao manter os dados dentro do dispositivo, os usuários podem “minimizar a latência e maximizar a privacidade”, explica Vargas. A latência refere-se ao atraso que pode ocorrer quando os LLMs se comunicam com a nuvem para recuperar informações usadas para gerar respostas aos prompts dos usuários.
Em alguns casos, vale a pena esperar por respostas de alta qualidade, enquanto em outros cenários a velocidade é mais importante para a satisfação do usuário. “Como os SLMs podem trabalhar offline, mais pessoas poderão colocar a IA para trabalhar de maneiras que antes não eram possíveis”, conta Vargas. Por exemplo, os SLMs também poderiam ser usados em áreas rurais que não têm serviço de celular.
Considere, por exemplo, um agricultor inspecionando uma lavoura que está com sinais de doença em uma folha ou galho. Usando um SLM com capacidade visual, o agricultor poderia tirar uma foto da cultura em questão e obter recomendações imediatas sobre como tratar pragas ou doenças. “Se você está em uma parte do mundo que não tem uma boa rede”, disse Vargas, “você ainda vai poder ter experiências de IA no seu dispositivo.”
O papel dos dados de alta qualidade
Como o nome indica, em comparação com os LLMs, os SLMs são minúsculos, pelo menos pelos padrões da IA. Phi-3-mini tem “apenas” 3,8 bilhões de parâmetros – uma unidade de medida que se refere aos botões algorítmicos em um modelo e que o ajudam a determinar sua saída. Em contraste, os modelos de linguagem grande possuem ordens de magnitude de parâmetros muito maiores.
Os enormes avanços na IA generativa trazidos pelos grandes modelos de linguagem foram em grande parte pensados para serem habilitados por seu tamanho puro. Mas a equipe da Microsoft conseguiu desenvolver pequenos modelos de linguagem que podem entregar resultados desproporcionais para um pacote minúsculo. Esse avanço foi possibilitado por uma abordagem altamente seletiva dos dados de treinamento – e é aí que entram os livros infantis.
Até o momento, a maneira padrão de treinar grandes modelos de linguagem tem sido usar grandes quantidades de dados da internet. Acreditava-se que essa era a única maneira de atender ao enorme apetite desse tipo de modelo por conteúdo, que ele precisa de tudo isso para “aprender” a entender as nuances da linguagem e gerar respostas inteligentes para os prompts do usuário.
Mas os pesquisadores da Microsoft tiveram uma ideia diferente. “Em vez de treinar apenas com dados brutos da web, por que não procurar dados de qualidade extremamente alta?” perguntou Sebastien Bubeck, vice-presidente de pesquisa de IA generativa da Microsoft, que liderou os esforços da empresa para desenvolver pequenos modelos de linguagem mais eficazes.
Inspirados pelo ritual de leitura noturna de Eldan com sua filha, os pesquisadores da Microsoft decidiram criar um conjunto de dados discreto, começando com 3.000 palavras – incluindo um número aproximadamente igual de substantivos, verbos e adjetivos. Em seguida, eles pediram a um grande modelo de linguagem para criar uma história infantil usando um substantivo, um verbo e um adjetivo da lista – um prompt que repetiram milhões de vezes ao longo de vários dias, gerando milhões de pequenas histórias infantis.
Eles apelidaram o conjunto de dados resultante de “TinyStories” e o usaram para treinar pequenos modelos de linguagem de cerca de 10 milhões de parâmetros. Para sua surpresa, quando solicitado a criar suas próprias histórias, o pequeno modelo de linguagem treinado em TinyStories gerou narrativas fluentes com gramática perfeita.
Em seguida, eles elevaram o nível de seu experimento. Desta vez, um grupo maior de pesquisadores usou dados publicamente disponíveis que foram cuidadosamente selecionados e filtrados com base no valor educacional e na qualidade do conteúdo para treinar o Phi-1.
Após coletar informações publicamente disponíveis em um conjunto de dados inicial, eles usaram uma fórmula de solicitação e semeadura inspirada na usada para TinyStories, mas deram um passo adiante e a tornaram mais sofisticada, para que capturasse um escopo mais amplo de dados.
Para garantir alta qualidade, eles filtraram repetidamente o conteúdo resultante antes de alimentá-lo de volta em um LLM para uma síntese adicional. Desta forma, ao longo de várias semanas, eles acumularam um corpus de dados grande o suficiente para treinar um SLM mais capaz.
“Todo esse cuidado é dedicado à produção desses dados sintéticos”, disse Bubeck, referindo-se aos dados gerados por IA. “Olhando para eles, certificando-se de que fazem sentido, filtrando-os. Não pegamos tudo o que produzimos”, comenta. Eles apelidaram este conjunto de dados de “CodeTextbook”.
Os pesquisadores aprimoraram ainda mais o conjunto de dados, abordando a seleção deles como um professor que decompõe conceitos difíceis para um aluno. “Quando você está lendo material semelhante a um livro didático, de documentos de qualidade que explicam as coisas muito, muito bem”, disse Bubeck, “você torna a tarefa do modelo de linguagem de ler e entender este material com mais facilidade.”
Distinguir entre informações de alta e baixa qualidade não é difícil para um humano, mas classificar mais de um terabyte de dados que os pesquisadores da Microsoft determinaram que precisariam para treinar seu SLM seria impossível sem a ajuda de um LLM.
“O poder da geração atual de grandes modelos de linguagem é realmente um facilitador que não tínhamos antes em termos de geração de dados sintéticos”, disse Ece Kamar, vice-presidente da Microsoft que lidera o Microsoft Research AI Frontiers Lab, onde a nova abordagem de treinamento foi desenvolvida.
Começar com dados cuidadosamente selecionados ajuda a reduzir a probabilidade de os modelos retornarem com respostas indesejadas ou inadequadas, mas não é suficiente para proteger contra todos os possíveis desafios de segurança.
Como em todos os lançamentos de modelos de IA generativos, as equipes de produto e IA responsáveis da Microsoft usaram uma abordagem em várias camadas para gerenciar e mitigar riscos no desenvolvimento de modelos Phi-3. Por exemplo, após o treinamento inicial, eles forneceram exemplos adicionais e feedback sobre como os modelos deveriam idealmente responder, o que constrói uma camada de segurança adicional e ajuda o modelo a gerar resultados de alta qualidade.
Cada modelo também passa por avaliação, teste e equipe vermelha manual, na qual os especialistas identificam e abordam possíveis vulnerabilidades.
Finalmente, os desenvolvedores que usam a família de modelos Phi-3 podem aproveitar um conjunto de ferramentas disponíveis no Azure AI para ajudá-los a construir aplicações mais seguras e confiáveis.
Escolhendo o modelo de linguagem do tamanho certo para a tarefa certa
Mas até mesmo pequenos modelos de linguagem treinados com dados de alta qualidade têm limitações. Eles não são projetados para recuperação de conhecimento em profundidade, onde os grandes modelos de linguagem se destacam devido à sua maior capacidade e treinamento usando conjuntos de dados muito maiores.
Os LLMs são melhores do que SLMs em raciocínio complexo sobre grandes quantidades de informações por conta de seu tamanho e poder de processamento. Essa é uma função que poderia ser relevante para a descoberta de medicamentos, por exemplo, ao ajudar a vasculhar vastos acervos de artigos científicos, analisar padrões complexos e entender interações entre genes, proteínas ou produtos químicos.
“Qualquer coisa que envolva um planejamento onde você tem uma tarefa, e a tarefa é complicada o suficiente, que você precisa descobrir como dividir essa tarefa em um conjunto de subtarefas, e às vezes sub-subtarefas, e então executar todas elas para chegar a uma resposta final que, certamente, vão estar no domínio dos grandes modelos por um tempo”, disse Vargas.
Com base em conversas contínuas com clientes, Vargas e Yadav esperam ver empresas “deslocando” algumas tarefas para pequenos modelos, quando esta tarefa não for muito complexa.
Por exemplo, uma companhia poderia usar o Phi-3 para resumir os principais pontos de um documento longo ou extrair insights relevantes e tendências da indústria em relatórios de pesquisa de mercado. Outra organização pode usar o Phi-3 para gerar cópias, ajudando a criar conteúdo para equipes de marketing ou vendas, com descrições de produtos ou postagens em mídias sociais. Além dessas aplicações, uma empresa pode usar o Phi-3 para alimentar um chatbot de suporte para responder às perguntas básicas dos clientes sobre seu plano ou atualizações de serviço.
Internamente, a Microsoft já está usando suítes de modelos, onde os grandes modelos de linguagem desempenham o papel de roteador, para direcionar certas consultas que requerem menos poder de computação para pequenos modelos de linguagem, enquanto lida com outras solicitações mais complexas por si mesma.
“A afirmação aqui não é que os SLMs vão substituir os grandes modelos de linguagem”, pontua Kamar. Em vez disso, SLMs “estão posicionados de forma única para computação na borda, computação no dispositivo, cálculos nos quais você não precisa ir para a nuvem para fazer as coisas. É por isso que é importante para nós entendermos os pontos fortes e fracos deste novo portfólio de modelos.”
O tamanho traz vantagens importantes. Mas ainda há uma lacuna entre os pequenos modelos de linguagem e o nível de inteligência que se pode obter dos grandes modelos na nuvem, explica Bubeck, vice-presidente de pesquisa de IA generativa da Microsoft. “E talvez sempre haverá uma lacuna porque você sabe – os grandes modelos vão continuar progredindo”, conclui.