Por qué la IA tiene un problema de comunicación
El lenguaje es una herramienta, cuyo propósito es notablemente simple: transferir el pensamiento o idea en mi cabeza a la tuya, de la manera más completa y precisa posible. Como la mayoría de las herramientas, la herramienta del lenguaje puede ser utilizada por diferentes usuarios de diversas maneras.
El dominio del lenguaje no es garantía de éxito. Las nuevas tecnologías significan nuevo vocabulario. Y nuevo vocabulario significa un uso menos consistente de ese vocabulario. Y nada es más nuevo o más grande en el mercado que la tecnología relacionada con la IA.
Todo se trata de contexto
El lenguaje solo funciona cuando ambos lados de una conversación están de acuerdo en el contexto y las definiciones. Dicho de manera más coloquial, el lenguaje funciona mejor con ambos lados están “en la misma página”. En el mundo técnico, el ejemplo clásico de una falta de comunicación de este tipo es uno entre Ingeniería y Marketing. Es tan común, de hecho, que es la premisa fundamental del humor en la tira de dibujos animados Dilbert.

El problema es en realidad bastante simple: el objetivo de un Ingeniero es comunicar una idea con precisión. Si bien el Marketing también se trata de comunicar, la precisión es de importancia secundaria. El objetivo principal es influir. Si una palabra menos precisa obtiene una mejor respuesta del Comercializador, se utilizará la palabra menos precisa. Naturalmente, esto resulta en una desconexión (es decir, falta de comunicación) cuando un ingeniero intenta aprender de los materiales de Marketing.
Otra fuente común de falta de comunicación son dos grupos que tienen definiciones diferentes de la misma palabra. En algunos casos, ambos son incluso correctos, aunque incompatibles. Un ejemplo perfecto de ello es la palabra “teoría”. Para un científico, ingeniero o matemático, la palabra “teoría” tiene una definición muy precisa que es bastante diferente de la de una persona no técnica. William Briggs es un científico con un doctorado en Estadística Matemática que ofreció la siguiente información sobre el tema en 2012:
“Por cierto, es una de mis cosas una de mis mascotas llamar 'teoría' a cualquier modelo intelectual de algo. En ciencia, un modelo es una descripción explicativa, predictiva de algún sistema o proceso. Una hipótesis es un modelo que en principio puede ser falsificado, es decir, las evidencias que refutarían el modelo pueden ser enunciadas sin ambigüedades. Una teoría es una hipótesis que, hasta el momento, ha sobrevivido a todos los intentos de probar que está equivocada”.
La combinación de las definiciones de “teoría” e “hipótesis” en la mente de los no científicos hace que las comunicaciones entre científicos y no científicos sean un problema difícil de resolver. En otras palabras, es difícil transferir los pensamientos o ideas de un científico a la cabeza de un no científico de manera completa y precisa. En un sentido más general, es un buen ejemplo de grupos distintos que tienen dificultades para comunicarse entre sí.
¿Cómo arreglamos esto?
Como consumidor de tecnología, la comunicación “cross-silo” como esta es un desafío cotidiano, ya sea entre usted y un proveedor, o entre usted y otros grupos dentro de su organización. Como se dijo al principio, las tecnologías relacionadas con la IA son nuevas en el mercado y, por lo tanto, son una fuente de mucha imprecisión y falta de comunicación.
Para solucionar esto, primero, necesita una fuente de datos precisos y precisos. Tu equipo de ventas, un gerente de cuentas y un ingeniero de ventas tienen el trabajo de influenciarte para que compres un producto. Se les enseña a comunicarse en términos de Marketing. Lo que tiene a su favor es que la mayoría de los Ingenieros de Ventas, además de un sorprendente número de Account Managers, provenían de una formación en Ingeniería. No es difícil meterlos en “modo geek” donde dejan caer el vocabulario de Marketing y cambian a lenguaje de ingeniería. En ese punto, es importante conocer las definiciones de los términos de Ingeniería que van a utilizar.
La IA ha existido como un campo de la informática desde mediados de la década de 1950. Como tal, el vocabulario se establece en el mundo técnico. Pero todo esto es nuevo para el consumidor en los últimos años, por lo que las definiciones de palabras utilizadas en los medios orientados al consumidor son un poco “difusas”. Sin duda, ha encontrado términos como “Inteligencia Artificial”, “Aprendizaje Automático”, “Modelos de Lenguaje Grande”, “GPT”, “IA generativa”, “Deep Learning”, “Redes neuronales” y “ChatGPT”. Vamos a darle sentido a estos.
Dos categorías básicas de IA
Al igual que el término “física”, la IA o la Inteligencia Artificial no es realmente una “cosa” en sí misma. Más bien, es un paraguas bajo el cual existen muchos otros campos. Descontando las primeras vías de investigación bajo el paraguas de IA, hoy en día existen dos tipos básicos de IA: IA basada en estadísticas e IA basada en redes neuronales.
Aprendizaje automático
La IA basada en estadísticas es mejor conocida como ML o Machine Learning. Fundamentalmente, el ML se trata de crear un modelo compuesto por una o más ecuaciones para describir una solución, luego “entrenar” ese modelo utilizando el refuerzo positivo y negativo proporcionando a los modelos respuestas correctas e incorrectas. Este entrenamiento es esencialmente una búsqueda asistida por computadora de coeficientes para cada variable en cada ecuación, lo que, cuando se enchufan valores novedosos en las variables, da como resultado las respuestas deseadas.
Si esto suena demasiado simple para ser considerado inteligencia, no estás solo en esa opinión. Es común que el ML sea considerado como una ciencia “menor” bajo el paraguas de IA. Si bien el estatus de ML como “inteligencia” es discutible, su poder como herramienta no lo es. ML sobresale en muchas tareas difíciles.
Si bien el ML se puede usar para muchas cosas, si tuviera que elegir un único caso de uso que defina su utilidad, elegiría “agrupar”. El ML es excepcionalmente poderoso para encontrar cosas que “se parecen” entre sí. Esto podría ser encontrar todas las fotos de su perro en su teléfono. O encontrar las caras de las personas en una fotografía para usar como punto sobre el que enfocar la lente. Dado que estamos hablando de seguridad, podría ser útil para encontrar grupos de servidores en su red con patrones de tráfico similares, luego notificarle cuando el tráfico de uno de esos servidores de repente se vuelve menos como solía ser (es decir, una desviación de la línea de base), lo que podría indicar una brecha.
Hay docenas de otros usos posibles, incluyendo encontrar todos sus servidores NTP, todas sus bases de datos Redis o todas las máquinas de su red que ejecutan versiones antiguas y sin parches de Windows.
Si lees que un producto utiliza IA, es probable que la tecnología específica en uso sea ML. En comparación con otras tecnologías de IA, el ML es el más predecible, mejor entendido y más fácil de implementar. También resuelve muy bien una gran cantidad de problemas comunes al espacio de seguridad. También vale la pena señalar que si bien la capacitación de un modelo de ML (la parte que hace el proveedor) requiere amplios recursos de cómputo, usar un modelo de ML (la parte que realiza una vez que ha adquirido el producto) una vez que ha sido entrenado no requiere más potencia de cómputo que cualquier otra aplicación.
Aprendizaje profundo
Cuando la persona promedio escucha el término “IA”, las soluciones basadas en Deep Learning son probablemente lo que tienen en mente. Antes de definir Deep Learning, sin embargo, primero tenemos que hablar de las redes neuronales.
El bloque de construcción fundamental de una computadora es la puerta NAND. Con lógica computacional, cualquier otro tipo de puerta, y por lo tanto cualquier computadora, se puede construir de puertas NAND. De hecho, las computadoras de la nave espacial Apollo eran del tamaño de una gran caja de zapatos y contenían alrededor de 14,000 puertas NAND.
Las puertas NAND son criaturas simples. En la forma más simple, una puerta NAND tiene dos entradas y una salida. Cuando ambas entradas son altas (“encendido” o lógica 1), la salida es baja (“apagado” o lógica 0). Otras combinaciones de entradas (baja/baja, baja/alta o alta/baja) dan como resultado un alto rendimiento. Sencillo. Pero a partir de esta humilde construcción lógica, se construyen todas las computadoras.
El bloque de construcción fundamental o “unidad de procesamiento” del cerebro es una neurona. Las neuronas no son mucho más complejas que las puertas NAND. Se comunican electroquímicamente a través de varias entradas (típicamente cientos) y una salida. Si bien la lógica en una neurona es más compleja que una puerta NAND (típicamente una función umbral analógica, en lugar de una puerta lógica de encendido/apagado), esto se modela fácilmente en software.
Un grupo de neuronas “cableadas” juntas es una red neuronal. Si bien las Redes Neuronales son una curiosidad divertida, su verdadero poder se realiza cuando se conectan capas de neuronas, donde cada neurona alimenta una o más de otras neuronas en grandes cantidades. Esto es Deep Learning. Oficialmente, el aprendizaje profundo se define como “una red neuronal que contiene más de una capa”.
Lo interesante es que las Redes Neuronales son descendientes de los Perceptrones, que fueron inventados en 1943, e implementados por primera vez en 1958. Si bien los Perceptrones tenían serias limitaciones, el concepto básico era sólido, y evolucionó a redes neuronales en 1987. En otras palabras, hemos tenido los componentes básicos y entendido las ideas fundamentales en las que se basa la increíble tecnología de IA de hoy en día durante más de treinta y cinco años, sin embargo, el progreso de la IA fue glacial hasta los últimos años.
Lo que faltaba era potencia de cómputo. El cerebro humano tiene aproximadamente 100 mil millones de neuronas. Entre estas neuronas, hay aproximadamente 100 billones de conexiones. La potencia de las computadoras ha ido creciendo exponencialmente desde sus inicios, pero solo con el reciente advenimiento de coprocesadores gráficos de computadora extremadamente potentes con miles de núcleos de procesador cada uno ha sido posible construir Redes Neuronales con números significativos de neuronas. Tiremos algunos números para poner esto en perspectiva.
En 1986, cuando empecé a tomar en serio la programación, la supercomputadora más poderosa del mundo era la Cray X-MP/48. Esta máquina costaba alrededor de $20M USD en ese momento, o alrededor de $55M USD en el dinero de hoy. Era aproximadamente del tamaño del refrigerador walk-in de un restaurante, y utilizaba alrededor de 350 kw de electricidad, aproximadamente tanto como una cuadra cuadrada de casas con el aire acondicionado en marcha. Una Raspberry Pi Zero, cuando se lanzó hace unos años, costaba $5 USD y tenía aproximadamente el mismo rendimiento que uno de estos sistemas. Un solo iPhone o teléfono Android de gama alta que llevas en tu bolsillo y tiras a la basura cuando rompes la pantalla es casi tan potente como todas las supercomputadoras del mundo en 1986 combinadas. Una visita a tu gran tienda local podría darte una máquina igual a unos pocos cientos de iPhones.
Si bien se han logrado grandes avances en el lado de la informática de la IA, es realmente el asombroso aumento en la potencia de la computadora y la capacidad de simular un número cada vez mayor de neuronas lo que ha llevado a las notables capacidades de las soluciones de IA actuales.
Soluciones basadas en aprendizaje profundo
Fuera de ML, casi todas las demás tecnologías actuales de IA se basan en Deep Learning. La IA generativa es la clasificación amplia de los sistemas que producen el factor “wow” en la IA actual. La IA generativa es la capacidad de sintetizar nuevos resultados, a menudo al estilo de otros datos de entrada. Esto puede ser audible (voces, sonidos o música), visual (imágenes, películas, dibujos) o texto (palabras, oraciones, párrafos, poesía o letras, por ejemplo). Esta salida podría ser completamente original o hecha al estilo de un artista específico (tu motor de búsqueda favorito debería poder mostrar ejemplos de la voz de Elvis cantando Baby's Got Back de Sir Mix-a-lot o una pintura de un corgi al estilo de Vermeer).

Los Modelos de Lenguaje Grande son sistemas generativos de IA que se especializan en lenguaje humano. A menos que vivas bajo una roca extremadamente grande, es probable que hayas oído hablar de ChatGPT. ChatGPT es una interfaz web sobre el producto de AutoAI llamado GPT. ChatGPT es un sistema notable que, basado en indicaciones y preguntas de un usuario, produce resultados que van desde desconcertantes hasta asombrosos. ChatGPT felizmente hará la tarea de matemáticas de su hijo (o escribirá su informe de libro), le escribirá una historia, analizará una pieza de software o le ayudará a escribir algún código en Python. La salida de ChatGPT puede verse fácilmente como inteligente (aunque si esta salida realmente representa inteligencia o no está fuera del alcance de este artículo). Ciertamente, la producción está lo suficientemente cerca de la inteligencia como para mostrar hacia dónde podría ir la tecnología en los próximos cinco años.
Deep Learning en seguridad
Hasta la fecha, ha habido poca integración de las soluciones de IA basadas en redes neuronales en productos de seguridad. Ciertamente no es cero, pero aún quedan algunos baches de velocidad por recorrer antes de que un proveedor se comprometa a incorporar esta tecnología.
Si me permite tomar algunas libertades con el término “motivación”, la primera responsabilidad de la actual generación de Modelos de Lenguaje Grande es que su “motivación” es producir un producto que satisfaga a un usuario. Esto suena bastante bien, hasta que te das cuenta de que la salida que satisface a un usuario no es necesariamente la salida correcta. Un LLM está completamente contento con estar equivocado, siempre y cuando el usuario esté contento. De hecho, ni siquiera sería exacto decir que ser correcto es una consideración secundaria para un LLM. Si la salida de un LLM resulta ser precisa, es más bien un accidente feliz, y de ninguna preocupación real del LLM. Si bien esto está bien cuando se escribe poesía asistida por LLM, puede ser problemático al ayudar con la política de seguridad.
En segundo lugar, los LLM aún pueden “salirse de las manos”, por así decirlo. Por necesidad, los LLM están capacitados con una amplitud de conocimientos y datos mucho más amplia de lo estrictamente necesario para el uso que se les está dando. De hecho, a veces es útil pensar en usar un LLM de la misma manera que contratar a un empleado. Un empleado contratado para hacer la tarea que necesita hacer ciertamente tiene experiencia de vida fuera de esa tarea. Al igual que un empleado errante, las implementaciones actuales de LLM se pueden llevar fuera de temas seguros de conversación.
Los LLM son tecnología extremadamente reciente, y estas cuestiones están siendo trabajadas por mucha gente muy inteligente. Sin duda se resolverán en el próximo año más o menos. Una vez que lo estén, espere una variedad de nuevas características del producto, incluyendo interfaces de lenguaje natural, priorización automática de problemas, referencias cruzadas de problemas previamente resueltos y sugerencias para la resolución de problemas. De doce a dieciocho meses a partir de ahora, me sorprendería que no hubiera un producto en el mercado que pudiera enviarte el siguiente correo electrónico:
Estimado usuario. Se detectó tráfico anómalo con características que coinciden con el recién lanzado CVE-20240101 de las siguientes cuatro máquinas en su centro de datos de Dallas a partir de las 04:53:07 de esta mañana: [...] Todas estas cuatro máquinas carecían del parche XXX del proveedor, y dos también carecían del parche YYY, ambos mitigan CVE-20240101. Como se trataba de servidores de bases de datos redundantes y se disponía de capacidad adecuada para fail-over, estas máquinas se desconectaron temporalmente de la red. Haga clic >aquí<< to automatically re-image, patch, and restore these systems, or click > para obtener más información y otras opciones.
Cada pieza de esto ya existe hoy, al menos en la fase de investigación. Los LLM pueden analizar el texto en inglés de CVE (vulnerabilidades y exposiciones comunes). Son capaces de comparar los datos en ese CVE con el tráfico de red del mundo real. Son capaces de analizar el volumen y la capacidad de la red. Son capaces de analizar el software y la configuración instalados (y faltantes) de un sistema. Y son capaces de generar scripts de Ansible para automatizar la reconstrucción de sistemas y la restauración de configuraciones y datos. Es solo cuestión de juntar las piezas.
En clausura
En el mundo de las redes sociales y las noticias, estamos viendo cómo se desarrolla la historia a medida que el lenguaje (y, por lo tanto, las comunicaciones) se está haciendo deliberadamente menos preciso. Estamos viendo implementaciones en el mundo real de las lecciones de Bernays y Orwell. En el mundo de la tecnología, sin embargo, aún no estamos enfrentando estos retos. Todavía somos libres de hablar con precisión y exactitud. Tener el vocabulario adecuado es una parte importante de eso.