Por Susanna Ray
Assim como ferramentas de IA, a exemplo do ChatGPT e Copilot, transformaram a maneira como as pessoas trabalham em todos os tipos de funções ao redor do mundo, elas também remodelaram os chamados “red teams” (equipes vermelhas, em tradução livre). São grupos de especialistas em segurança cibernética que pensam como hackers para ajudar a manter a tecnologia segura e protegida.
As habilidades da IA generativa de se comunicar em várias línguas, escrever histórias e até mesmo criar imagens fotorrealistas apresentam novos riscos potenciais. Eles vão desde fornecer resultados tendenciosos ou imprecisos até dar às pessoas mal-intencionadas novas maneiras de provocar a discórdia. Esses novos riscos estimularam uma abordagem diferenciada e ampla de como o Red Team de AI da Microsoft precisa trabalhar para identificar e reduzir possíveis danos.
“Acreditamos que segurança, IA responsável e a noção mais ampla de segurança de IA são faces diferentes da mesma moeda”, diz Ram Shankar Siva Kumar, principal líder de pesquisa da Microsoft. “É importante obter uma visão universal e completa de todos os riscos de um sistema de IA antes que ele chegue às mãos de um cliente. Porque esta é uma área que terá implicações sociotécnicas massivas”, pondera.
O termo “red teaming” foi cunhado durante a Guerra Fria, quando o Departamento de Defesa dos EUA realizou exercícios de simulação com “equipes vermelhas” que atuavam como soviéticos, e “equipes azuis” que atuavam como os EUA e seus aliados. A comunidade de segurança cibernética então adotou esta linguagem há algumas décadas, criando equipes vermelhas para atuarem como adversários tentando quebrar, corromper ou usar indevidamente tecnologia – com o objetivo final de encontrar e corrigir possíveis danos antes que surgissem problemas reais.
Quando Siva Kumar formou a Red Team de AI da Microsoft em 2019, ele seguiu o modelo tradicional de reunir especialistas em segurança cibernética para investigar proativamente os pontos fracos, seguindo o mesmo procedimento que a empresa já faz com todos os produtos e serviços.
Ao mesmo tempo, Forough Poursabzi estava liderando pesquisadores de toda a empresa em estudos com um novo ângulo e uma lente diferente de IA responsável, analisando agora se a tecnologia generativa poderia ser prejudicial – seja intencionalmente ou devido a problemas sistêmicos em modelos que foram negligenciados durante seu treinamento e avaliação. Esse não é um elemento com o qual as equipes vermelhas tiveram que lidar antes.
Os diferentes grupos rapidamente perceberam que seriam mais fortes juntos e uniram forças para criar um red team mais amplo, capaz de avaliar os riscos de segurança e danos sociais lado a lado, adicionando na equipe um neurocientista, um linguista, um especialista em segurança nacional e vários outros especialistas com diversas origens e diferentes campos de atuação.
“Precisamos de uma ampla gama de perspectivas para que o Red Team de IA responsável seja bem feita”, diz Poursabzi, gerente sênior de programa da equipe de Ética e Efeitos de IA em Engenharia e Pesquisa (Aether) da Microsoft. Esse é um setor que explora todo um ecossistema de IA responsável na Microsoft e analisa riscos emergentes, fazendo considerações de longo prazo com tecnologias de IA generativa.
O Red Team de IA dedicado, liderada por Siva Kumar, é separado daqueles que constroem a tecnologia. Seu escopo expandido inclui adversários que podem tentar obrigar um sistema a gerar alucinações, bem como resultados prejudiciais, ofensivos ou tendenciosos, tudo isso devido a dados inadequados ou imprecisos.
Os membros da equipe assumem várias personas, desde um adolescente criativo pregando uma peça até um adversário conhecido tentando roubar dados, para revelar pontos cegos e descobrir riscos. Os membros da equipe vivem em todo o mundo e falam coletivamente 17 idiomas, do flamengo ao mongol e ao telugu, para ajudar com contextos culturais diferenciados e ameaças específicas de cada região.
E eles não tentam apenas comprometer os sistemas sozinhos – eles usam grandes modelos de linguagem (LLMs) para ataques automatizados a outros LLMs.
O grupo ainda ampliou a profundidade de sua experiência ao lançar estruturas de código aberto, como o Counterfit e o Python Risk Identification Toolkit for generative AI, ou PyRIT, no início deste ano. São op, para ajudar profissionais de segurança e engenheiros de aprendizado de máquina que atuam fora da empresa a mapear riscos potenciais. As ferramentas ajudam os especialistas em “red team” – que é um recurso limitado – a serem mais eficientes e produtivos. A equipe publicou as melhores práticas de suas experiências para ajudar outras pessoas a começar.
Depois que o Red Team de IA da Microsoft encontra um problema, ela o envia para a equipe de medição de IA responsável, que avalia o quanto o problema pode ser uma ameaça. Em seguida, outros especialistas e grupos internos abordam o assunto para concluir a abordagem de três etapas para uma IA segura: mapeamento, medição e gerenciamento de riscos.
“Nossa atividade abrange uma ampla variedade de danos que tentamos provar”, diz Siva Kumar. “Nós nos adaptamos e reformulamos rapidamente, e essa tem sido a receita para o nosso sucesso – não esperar que as forças da mudança aumentem, mas antecipar.”
Saiba mais sobre o trabalho de IA responsável da Microsoft.
Esta postagem faz parte da série Building AI Responsibly da Microsoft, que explora as principais preocupações com a implantação de IA e como a empresa está lidando com elas com suas práticas e ferramentas de IA responsáveis.
fonte: Edelman