Por que a IA tem um problema de comunicação
A linguagem é uma ferramenta cujo propósito é extremamente simples: transferir o pensamento ou ideia da minha cabeça para a sua, da forma mais completa e precisa possível. Como a maioria das ferramentas, a ferramenta da linguagem pode ser usada por diferentes usuários de diversas maneiras.
O domínio do idioma não é garantia de sucesso. Novas tecnologias significam novo vocabulário. E um novo vocabulário significa um uso menos consistente desse vocabulário. E nada é mais novo ou maior no mercado do que a tecnologia relacionada à IA.
É tudo uma questão de contexto
A linguagem só funciona quando os dois lados de uma conversa concordam com o contexto e as definições. Dito de forma mais coloquial, a linguagem funciona melhor com os dois lados “na mesma página”. No mundo técnico, o exemplo clássico de falha de comunicação desse tipo é entre Engenharia e Marketing. É tão comum, na verdade, que é a premissa fundamental do humor no desenho animado Dilbert.

Na verdade, o problema é bem simples: o objetivo de um engenheiro é comunicar uma ideia com precisão. Embora o marketing também se refira à comunicação, a precisão é de importância secundária. O objetivo principal é influenciar. Se uma palavra menos precisa obtiver uma resposta melhor do profissional de marketing, a palavra menos precisa será usada. Naturalmente, isso resulta em uma desconexão (ou seja, falha de comunicação) quando um engenheiro tenta aprender com materiais de marketing.
Outra fonte comum de falha de comunicação são dois grupos com definições diferentes da mesma palavra. Em alguns casos, ambos estão até corretos, embora incompatíveis. Um exemplo perfeito disso é a palavra “teoria”. Para um cientista, engenheiro ou matemático, a palavra “teoria” tem uma definição muito precisa que é bem diferente da de uma pessoa não técnica. William Briggs é um cientista com PhD em Estatística Matemática que ofereceu a seguinte visão sobre o assunto em 2012:
“A propósito, é uma irritação minha chamar qualquer modelo intelectual de algo de 'teoria'. Na ciência, um modelo é uma descrição explicativa e preditiva de algum sistema ou processo. Uma hipótese é um modelo que, em princípio, pode ser falsificado, ou seja, a evidência que refutaria o modelo pode ser declarada de forma inequívoca. Uma teoria é uma hipótese que, até agora, sobreviveu a todas as tentativas de provar que está errada.”
A fusão das definições de “teoria” e “hipótese” nas mentes dos não cientistas torna a comunicação entre cientistas e não cientistas um problema difícil de resolver. Em outras palavras, é difícil transferir os pensamentos ou ideias de um cientista para a cabeça de um não cientista de forma completa e precisa. Em um sentido mais geral, é um bom exemplo de grupos distintos que têm dificuldade em se comunicar uns com os outros.
Como podemos corrigir isso?
Como consumidor de tecnologia, uma comunicação “cruzada” como essa é um desafio diário, seja entre você e um fornecedor ou entre você e outros grupos da sua organização. Conforme afirmado no início, as tecnologias relacionadas à IA são novas no mercado e, portanto, uma fonte de muitas imprecisões e falhas de comunicação.
Para corrigir isso, primeiro, você precisa de uma fonte de dados exatos e precisos. Sua equipe de vendas, um gerente de contas e um engenheiro de vendas têm o trabalho de influenciar você a comprar um produto. Eles são ensinados a se comunicar em termos de marketing. O que você tem a seu favor é que a maioria dos engenheiros de vendas, além de um número surpreendente de gerentes de contas, vieram de uma formação em engenharia. Não é difícil colocá-los no “modo geek”, onde eles abandonam o vocabulário de marketing e mudam para a linguagem de engenharia. Nesse ponto, é importante conhecer as definições dos termos de engenharia que eles usarão.
A IA existe como um campo da Ciência da Computação desde meados da década de 1950. Como tal, o vocabulário está estabelecido no mundo técnico. Mas tudo isso é novidade para o consumidor nos últimos anos, então as definições das palavras usadas na mídia voltada para o consumidor são um pouco “confusas”. Sem dúvida, você já se deparou com termos como “Inteligência Artificial”, “Aprendizado de Máquina”, “Modelos de Linguagem Ampla”, “GPT”, “Inteligência Artificial”, “Aprendizado Profundo”, “Redes Neurais” e “ChatGPT”. Vamos entender isso.
Duas categorias básicas de IA
Assim como o termo “física”, a IA ou Inteligência Artificial não é realmente uma “coisa” em si mesma. Pelo contrário, é um guarda-chuva sob o qual existem muitos outros campos. Descontando os primeiros caminhos de pesquisa sob a égide da IA, existem dois tipos básicos de IA atualmente: IA baseada em estatísticas e IA baseada em redes neurais.
Aprendizagem automática
A IA baseada em estatísticas é mais conhecida como ML ou aprendizado de máquina. Fundamentalmente, o ML consiste em criar um modelo composto por uma ou mais equações para descrever uma solução e, em seguida, “treinar” esse modelo usando reforço positivo e negativo, fornecendo aos modelos respostas certas e erradas. Esse treinamento é essencialmente uma busca assistida por computador por coeficientes para cada variável em cada equação, que, quando novos valores são inseridos nas variáveis, resulta nas respostas desejadas.
Se isso parece muito simples para ser considerado inteligência, você não está sozinho nessa opinião. É comum que o ML seja considerado uma ciência “menor” sob a égide da IA. Embora o status de ML como “inteligência” seja discutível, seu poder como ferramenta não é. O ML se destaca em muitas tarefas difíceis.
Embora o ML possa ser usado para muitas coisas, se eu tivesse que escolher um único caso de uso que defina sua utilidade, escolheria “agrupamento”. O ML é excepcionalmente poderoso para encontrar coisas que “se parecem” umas com as outras. Isso pode ser encontrar todas as fotos do seu cachorro no seu telefone. Ou encontrar os rostos das pessoas em uma fotografia para usar como ponto no qual focar a lente. Como estamos falando de segurança, pode ser útil encontrar grupos de servidores em sua rede com padrões de tráfego semelhantes e, em seguida, notificá-lo quando o tráfego de um desses servidores ficar repentinamente menos parecido com o de antes (ou seja, um desvio da linha de base), potencialmente indicando uma violação.
Há dezenas de outros usos possíveis, incluindo encontrar todos os seus servidores NTP, todos os seus bancos de dados Redis ou todas as máquinas em sua rede executando versões antigas e sem patches do Windows.
Se você ler que um produto usa IA, é provável que a tecnologia específica em uso seja ML. Em comparação com outras tecnologias de IA, o ML é a mais previsível, melhor compreendida e mais fácil de implementar. Ele também resolve muito bem muitos problemas comuns ao espaço de segurança. Também é importante observar que, embora o treinamento de um modelo de ML (a parte que o fornecedor faz) exija amplos recursos de computação, o uso de um modelo de ML (a parte que você faz depois de comprar o produto) depois de treinado não exige mais poder de computação do que qualquer outro aplicativo.
Aprendizado profundo
Quando uma pessoa comum ouve o termo “IA”, as soluções baseadas no Deep Learning provavelmente são o que elas têm em mente. Antes de definirmos o aprendizado profundo, no entanto, primeiro precisamos falar sobre redes neurais.
O componente fundamental de um computador é a porta NAND. Com a lógica computacional, qualquer outro tipo de porta e, portanto, qualquer computador, pode ser construído com portas NAND. Na verdade, os computadores da espaçonave Apollo eram do tamanho de uma grande caixa de sapatos e continham cerca de 14.000 portas NAND.
Os portões NAND são criaturas simples. Na forma mais simples, uma porta NAND tem duas entradas e uma saída. Quando as duas entradas estão altas (“ligada” ou lógica 1), a saída é baixa (“desligada” ou lógica 0). Outras combinações de entradas (baixa/baixa, baixa/alta ou alta/baixa) resultam em uma saída alta. Simples. Mas a partir dessa construção lógica humilde, todos os computadores são construídos.
O bloco de construção fundamental ou “unidade de processamento” do cérebro é um neurônio. Os neurônios não são muito mais complexos do que as portas NAND. Eles se comunicam eletroquimicamente por meio de várias entradas (normalmente centenas) e uma saída. Embora a lógica em um neurônio seja mais complexa do que uma porta NAND (normalmente uma função de limite analógica, em vez de uma porta lógica liga/desliga), ela é facilmente modelada em software.
Um grupo de neurônios “conectados” é uma rede neural. Embora as redes neurais sejam uma curiosidade divertida, seu verdadeiro poder é percebido quando camadas de neurônios são conectadas, onde cada neurônio alimenta um ou mais outros neurônios em grande número. Isso é aprendizado profundo. Oficialmente, o aprendizado profundo é definido como “uma rede neural contendo mais de uma camada”.
O interessante é que as redes neurais são descendentes dos Perceptrons, que foram inventados em 1943 e implementados pela primeira vez em 1958. Embora o Perceptrons tivesse sérias limitações, o conceito básico era o som e evoluiu para redes neurais em 1987. Em outras palavras, temos os elementos básicos e entendemos as ideias fundamentais nas quais a incrível tecnologia de IA de hoje se baseia há mais de trinta e cinco anos, mas o progresso da IA foi glacial até os últimos anos.
O que faltava era poder computacional. O cérebro humano tem aproximadamente 100 bilhões de neurônios. Entre esses neurônios, existem cerca de 100 trilhões de conexões. A potência do computador tem crescido exponencialmente desde seu início, mas somente com o recente advento de coprocessadores de computação gráfica extremamente poderosos, com milhares de núcleos de processador, foi possível construir redes neurais com um número significativo de neurônios. Vamos colocar alguns números para colocar isso em perspectiva.
Em 1986, quando comecei a levar a sério a programação, o supercomputador mais poderoso do mundo era o Cray X-MP/48. Esta máquina custava cerca de $20 milhões de dólares na época, ou cerca de 55 milhões de dólares em dinheiro de hoje. Era do tamanho da geladeira walk-in de um restaurante e usava cerca de 350 kw de eletricidade, quase o mesmo que um quarteirão quadrado de casas com o ar condicionado ligado. Um Raspberry Pi Zero, quando lançado há alguns anos, custava 5 dólares e tinha aproximadamente o mesmo desempenho de um desses sistemas. Um único iPhone ou telefone Android de última geração que você carrega no bolso e joga no lixo ao quebrar a tela é quase tão poderoso quanto todos os supercomputadores do mundo em 1986 juntos. Uma visita à sua grande loja local pode render a você uma máquina igual a algumas centenas de iPhones.
Embora grandes avanços tenham sido feitos no lado da ciência da computação da IA, é realmente o aumento surpreendente na potência do computador e na capacidade de simular um número cada vez maior de neurônios que levou às habilidades notáveis das soluções de IA atuais.
Soluções baseadas em aprendizado profundo
Fora do ML, quase todas as outras tecnologias atuais de IA são baseadas no aprendizado profundo. A IA generativa é a classificação ampla de sistemas que produzem o fator “incrível” na IA atual. A IA generativa é a capacidade de sintetizar novas saídas, geralmente no estilo de outros dados de entrada. Isso pode ser audível (vozes, sons ou música), visual (fotos, filmes, desenhos) ou texto (palavras, frases, parágrafos, poesia ou letra, por exemplo). Essa saída pode ser totalmente original ou feita no estilo de um artista específico (seu mecanismo de busca favorito deve ser capaz de encontrar exemplos da voz de Elvis cantando Baby's Got Back de Sir Mix-a-lot ou uma pintura de um corgi no estilo de Vermeer).

Os modelos de linguagem grande são sistemas de IA generativa especializados em linguagem humana. A menos que você more sob uma rocha extremamente grande, provavelmente já ouviu falar do ChatGPT. O ChatGPT é uma interface web sobre o produto da AutoAI chamado GPT. O ChatGPT é um sistema notável que, baseado em solicitações e perguntas de um usuário, produz resultados que variam de intrigantes a surpreendentes. O ChatGPT ficará feliz em fazer a lição de matemática de seu filho (ou escrever o relatório do livro), escrever uma história para você, analisar um software ou ajudá-lo a escrever algum código em Python. A saída do ChatGPT pode ser facilmente vista como inteligente (embora se essa saída realmente represente inteligência ou não esteja além do escopo deste artigo). Certamente, a produção está próxima o suficiente da inteligência para mostrar aonde a tecnologia pode chegar nos próximos cinco anos.
Aprendizado profundo em segurança
Até o momento, houve pouca integração de soluções de IA baseadas em redes neurais em produtos de segurança. Certamente não é zero, mas ainda há alguns obstáculos a serem superados antes que um fornecedor se comprometa a incorporar essa tecnologia.
Se eu puder tomar algumas liberdades com o termo “motivação”, a primeira desvantagem da geração atual de modelos de grandes linguagens é que sua “motivação” é produzir resultados que satisfaçam o usuário. Isso parece muito bom, até você perceber que a saída que satisfaz o usuário não é necessariamente a saída correta. Um LLM está totalmente feliz em estar errado, desde que o usuário esteja feliz. Na verdade, nem mesmo seria correto dizer que estar correto é uma consideração secundária para um LLM. Se a saída de um LLM for precisa, é mais um feliz acidente e não uma preocupação real para o LLM. Embora isso seja bom ao escrever poesia assistida por LLM, pode ser problemático ao auxiliar na política de segurança.
Em segundo lugar, os LLMs ainda podem “sair do controle”, por assim dizer. Por necessidade, os LLMs são treinados com uma gama muito maior de conhecimentos e dados do que o estritamente necessário para o uso que estão sendo feitos. Na verdade, às vezes é útil pensar em usar um LLM da mesma forma que contratar um funcionário. Um funcionário contratado para realizar a tarefa que você precisa realizar certamente tem experiência de vida fora dessa tarefa. Como um funcionário errante, as implementações atuais do LLM podem ser conduzidas fora de tópicos seguros de conversa.
Os LLMs são tecnologias extremamente recentes e essas questões estão sendo resolvidas por muitas pessoas muito inteligentes. Sem dúvida, eles serão resolvidos no próximo ano. Quando estiverem disponíveis, espere uma variedade de novos recursos do produto, incluindo interfaces de linguagem natural, priorização automática de problemas, referência cruzada de problemas resolvidos anteriormente e sugestões para resolução de problemas. Daqui a doze a dezoito meses, eu ficaria surpreso se não houvesse um produto no mercado que pudesse enviar o seguinte e-mail para você:
Caro usuário. Tráfego anômalo com características correspondentes ao recém-lançado CVE-20240101 foi detectado nas quatro máquinas a seguir em seu datacenter de Dallas a partir das 04:53:07 desta manhã: [...] Todas essas quatro máquinas não tinham o patch XXX do fornecedor e duas também não tinham o patch YYY, ambas mitigando o CVE-20240101. Como esses eram servidores de banco de dados redundantes e a capacidade adequada estava disponível para failover, essas máquinas foram temporariamente desconectadas da rede. Clique em >aqui<< to automatically re-image, patch, and restore these systems, or click > para obter mais informações e outras opções.
Cada peça disso já existe hoje, pelo menos na fase de pesquisa. Os LLMs podem analisar o texto em inglês dos CVEs (vulnerabilidades e exposições comuns). Eles são capazes de comparar os dados desse CVE com o tráfego de rede do mundo real. Eles são capazes de analisar o volume e a capacidade da rede. Eles são capazes de analisar o software e a configuração instalados (e ausentes) de um sistema. E eles são capazes de gerar scripts Ansible para automatizar a reconstrução de sistemas e a restauração de configurações e dados. É só uma questão de juntar as peças.
No encerramento
No mundo das mídias sociais e das notícias, estamos vendo a história se desenrolar à medida que a linguagem (e, portanto, as comunicações) se torna deliberadamente menos precisa. Estamos assistindo implementações reais das lições de Bernays e Orwell. No mundo da tecnologia, no entanto, ainda não estamos enfrentando esses desafios. Ainda estamos livres para falar com precisão e exatidão. Ter o vocabulário certo é uma parte importante disso.