AI에 통신 문제가 있는 이유
언어는 도구이며, 그 목적은 매우 간단합니다. 머릿속의 생각이나 아이디어를 가능한 한 완전하고 정확하게 여러분의 것으로 옮기는 것입니다.대부분의 도구와 마찬가지로 언어 도구는 다양한 사용자가 다양한 방식으로 사용할 수 있습니다.
언어의 숙달이 성공을 보장하지는 않습니다.새로운 기술은 곧 새로운 어휘를 의미합니다.새로운 어휘는 그 어휘를 덜 일관되게 사용한다는 것을 의미합니다.그리고 시장에서 AI 관련 기술만큼 새롭거나 더 큰 것은 없습니다.
모든 것은 컨텍스트에 관한 것입니다
언어는 대화의 양쪽이 컨텍스트와 정의에 동의할 때만 작동합니다.좀 더 구어적으로 말하자면, 언어는 양쪽 모두가 “같은 이해를 바탕으로” 있을 때 가장 잘 작동합니다.기술 업계에서 이러한 유형의 잘못된 의사소통의 전형적인 예는 엔지니어링과 마케팅 간의 오해입니다.사실 만화 딜버트 (Dilbert) 에 나오는 유머의 근본 전제가 될 정도로 흔한 일이죠.

문제는 사실 아주 간단합니다. 엔지니어의 목표는 아이디어를 정확하게 전달하는 것입니다.마케팅은 커뮤니케이션에 관한 것이기도 하지만 정확성은 이차적으로 중요합니다.주요 목표는 영향력을 행사하는 것입니다.정확도가 낮은 단어가 마케터로부터 더 좋은 반응을 얻으면 덜 정확한 단어가 사용됩니다.엔지니어가 마케팅 자료를 통해 교훈을 얻으려고 할 때 당연히 연결이 끊어지는 (즉, 의사소통이 잘못된 경우) 발생합니다.
의사 소통의 또 다른 일반적인 원인은 같은 단어에 대해 서로 다른 정의를 가진 두 그룹입니다.서로 호환되지 않더라도 둘 다 맞는 경우도 있습니다.이에 대한 완벽한 예가 “이론”이라는 단어입니다.과학자, 엔지니어, 수학자에게 있어 “이론”이라는 단어는 기술자가 아닌 사람과는 상당히 다른 매우 정확한 정의를 가지고 있습니다.윌리엄 브릭스 (William Briggs) 는 수학 통계학 박사 학위를 받은 과학자로, 2012년에 이 주제에 대해 다음과 같은 통찰력을 제공했습니다.
“그건 그렇고, 어떤 것에 대한 지적 모델을 '이론'이라고 부르는 것은 정말 짜증나는 일입니다.과학에서 모델은 어떤 시스템이나 과정을 설명하거나 예측적으로 설명하는 것을 말합니다.가설이란 원칙적으로 반증될 수 있는 모형입니다. 즉, 모형을 반증할 수 있는 근거를 분명하게 진술할 수 있는 모형입니다.이론이란 지금까지 그 가설이 틀렸음을 증명하려는 모든 시도에서 살아남은 가설입니다.”
비과학자의 마음 속에 있는 “이론”과 “가설”의 정의가 혼동되기 때문에 과학자와 비과학자 간의 의사 소통은 해결하기 어려운 문제입니다.즉, 과학자의 생각이나 아이디어를 비과학자의 머리에 완전하고 정확하게 전달하기는 어렵습니다.좀 더 일반적인 의미에서는 서로 다른 집단이 서로 의사소통하는 데 어려움을 겪는 좋은 예라고 할 수 있습니다.
이 문제를 해결하려면 어떻게 해야 할까요?
기술 소비자로서 이러한 “크로스 사일로” 커뮤니케이션은 기업과 공급업체 간, 사용자와 조직 내 다른 그룹 간에 이루어지는 일상적인 과제입니다.서두에서 언급한 바와 같이 AI 관련 기술은 시장에 처음 등장한 기술이기 때문에 부정확성과 잘못된 의사소통의 원인이 됩니다.
이 문제를 해결하려면 먼저 정확하고 정확한 데이터 소스가 필요합니다.영업팀, 어카운트 매니저, 세일즈 엔지니어는 제품 구매를 유도하는 역할을 합니다.이들은 마케팅 용어로 의사소통하는 법을 배웁니다.알고 계신 것은 대부분의 영업 엔지니어와 놀랍게도 많은 계정 관리자가 엔지니어링 출신이라는 것입니다.이들이 마케팅 어휘를 버리고 엔지니어링 언어로 전환하는 “괴짜 모드”에 들어가게 하는 것은 어렵지 않습니다.이때 사용하게 될 엔지니어링 용어의 정의를 아는 것이 중요합니다.
AI는 1950년대 중반부터 컴퓨터 과학의 한 분야로 자리 잡았습니다.따라서 어휘는 기술 세계에서 확립되었습니다.하지만 이 모든 것은 지난 몇 년 동안 소비자에게 생소한 것이므로 소비자를 대상으로 하는 미디어에서 사용되는 단어의 정의가 다소 “모호합니다.”의심할 여지 없이 “인공 지능”, “기계 학습”, “대형 언어 모델”, “GPT”, “제너레이티브 AI”, “딥 러닝”, “신경망”, “ChatGPT”와 같은 용어를 접해본 적이 있을 것입니다.이것들을 이해해 봅시다.
AI의 두 가지 기본 범주
“물리학”이라는 용어처럼 AI 또는 인공 지능은 그 자체로는 실제로 “사물”이 아닙니다.그보다는 다른 많은 분야가 존재할 수 있는 우산 같은 존재이기도 합니다.AI라는 개념의 초기 연구 분야를 제외하면 오늘날 AI에는 통계 기반 AI와 신경망 기반 AI라는 두 가지 기본 유형이 있습니다.
머신 러닝
통계 기반 AI는 ML 또는 머신 러닝으로 더 잘 알려져 있습니다.기본적으로 ML은 솔루션을 설명하기 위해 하나 이상의 방정식으로 구성된 모델을 만든 다음 모델에 정답과 오답을 제시하여 긍정적 강화와 부정적 강화를 사용하여 모델을 “학습”하는 것입니다.이 훈련은 기본적으로 컴퓨터를 통해 각 방정식의 각 변수에 대한 계수를 검색하는 것으로, 새 값을 변수에 연결하면 원하는 답을 얻을 수 있습니다.
이것이 지능이라고 생각하기에는 너무 단순하게 들린다면, 그 의견은 당신만이 아닙니다.ML은 AI라는 우산 아래 “하위” 과학으로 간주되는 것이 일반적입니다.“인텔리전스”라는 ML의 위상은 논쟁의 여지가 있지만 도구로서의 ML의 힘은 그렇지 않습니다.ML은 많은 어려운 작업에서 탁월한 성능을 발휘합니다.
ML은 다양한 용도로 사용될 수 있지만, ML의 유틸리티를 정의하는 유일한 사용 사례를 하나만 선택해야 한다면 “그룹화”를 선택할 것입니다.ML은 서로 “닮은” 것을 찾는 데 매우 강력합니다.이렇게 하면 휴대폰에 있는 강아지 사진을 모두 찾을 수 있을 것입니다.또는 사진 속 인물의 얼굴을 찾아 렌즈의 초점을 맞출 포인트로 사용할 수도 있습니다.보안에 대해 이야기하고 있기 때문에 네트워크에서 비슷한 트래픽 패턴을 가진 서버 그룹을 찾은 다음 해당 서버 중 하나에서 나오는 트래픽이 갑자기 예전처럼 줄어들어 (즉, 기준선에서 벗어난 경우) 이를 알려주는 것이 유용할 수 있습니다. 이는 잠재적으로 보안 침해를 의미할 수 있습니다.
모든 NTP 서버, 모든 Redis 데이터베이스 또는 패치되지 않은 이전 버전의 Windows를 실행하는 네트워크의 모든 시스템을 찾는 등 수십 가지 다른 용도로 사용할 수 있습니다.
제품에 AI가 사용된다는 내용을 읽으면 사용 중인 특정 기술이 ML일 가능성이 높습니다.다른 AI 기술과 비교할 때 ML은 가장 예측 가능하고 가장 잘 이해되며 구현하기 가장 쉽습니다.또한 보안 공간에서 흔히 발생하는 많은 문제를 훌륭하게 해결합니다.ML 모델 (벤더가 수행하는 부분) 을 학습하려면 광범위한 컴퓨팅 리소스가 필요하지만, 일단 교육을 받은 후 ML 모델 (제품을 구매한 후 수행하는 부분) 을 사용하면 다른 어떤 애플리케이션보다 강력한 컴퓨팅 성능이 필요하지 않다는 점도 주목할 만합니다.
딥 러닝
보통 사람이 “AI”라는 용어를 들었을 때 아마도 딥 러닝에 기반한 솔루션을 염두에 두고 있을 것입니다.하지만 딥러닝을 정의하기 전에 먼저 신경망에 대해 이야기해야 합니다.
컴퓨터의 기본 구성 요소는 NAND 게이트입니다.컴퓨터 로직을 사용하면 다른 유형의 게이트, 즉 모든 컴퓨터에 NAND 게이트를 구축할 수 있습니다.사실 아폴로 우주선의 컴퓨터는 커다란 신발장 크기였고 약 14,000개의 NAND 게이트가 들어 있었습니다.
NAND 게이트는 단순한 동물입니다.가장 간단한 형태의 NAND 게이트는 두 개의 입력과 하나의 출력을 갖습니다.두 입력이 모두 높으면 (“on” 또는 로직 1) 출력은 낮습니다 (“off” 또는 로직 0).다른 입력 조합 (저/저, 저/고 또는 고/저) 은 출력이 높습니다.간단합니다.하지만 이렇게 낮은 논리적 구조를 바탕으로 모든 컴퓨터가 만들어지죠.
뇌의 기본 구성 요소 또는 “처리 단위”는 뉴런입니다.뉴런은 NAND 게이트보다 훨씬 복잡하지 않습니다.이들은 여러 입력 (일반적으로 수백 개) 과 하나의 출력을 통해 전기화학적으로 통신합니다.뉴런의 로직은 NAND 게이트 (일반적으로 on/off 로직 게이트가 아닌 아날로그 임계값 함수) 보다 복잡하지만 소프트웨어에서 쉽게 모델링할 수 있습니다.
서로 “연결된” 뉴런 그룹이 신경망입니다.신경망은 재미있는 호기심이지만, 신경망의 진정한 힘은 뉴런 층이 연결되어 각 뉴런이 하나 이상의 다른 뉴런에 대량으로 공급될 때 실현됩니다.이것이 바로 딥러닝입니다.공식적으로 딥 러닝은 “둘 이상의 계층을 포함하는 신경망”으로 정의됩니다.
흥미로운 점은 신경망이 1943년에 발명되어 1958년에 처음 구현된 퍼셉트론의 후손이라는 것입니다.퍼셉트론은 한계가 심각했지만 기본 개념은 소리였고 1987년에 신경망으로 발전했습니다.다시 말해, 우리는 35년 이상 동안 기본 구성 요소를 갖추고 오늘날의 놀라운 AI 기술의 기반이 되는 기본 개념을 이해해 왔지만 최근 몇 년 동안 AI의 발전은 미미했습니다.
부족한 것은 컴퓨팅 파워였습니다.인간의 뇌에는 대략 1,000억 개의 뉴런이 있습니다.이 뉴런 사이에는 약 100조 개의 연결이 있습니다.컴퓨터 성능은 처음 시작된 이래로 기하급수적으로 성장해 왔지만, 각각 수천 개의 프로세서 코어를 갖춘 매우 강력한 컴퓨터 그래픽 보조 프로세서가 최근에 등장한 후에야 의미 있는 수의 뉴런을 포함하는 신경망을 구축할 수 있게 되었습니다.이를 이해하기 위해 몇 가지 수치를 제시해 보겠습니다.
1986년, 제가 처음으로 프로그래밍에 대해 진지하게 생각하기 시작했을 때, 세상에서 가장 강력한 슈퍼컴퓨터는 Cray X-MP/48이었습니다.당시 이 기계의 가격은 약 2천만 달러, 오늘날 돈으로 환산하면 약 5천 5백만 달러입니다.식당의 대형 냉장고와 비슷한 크기였고, 약 350kw의 전기를 사용했는데, 이는 에어컨을 가동했을 때 집 한 제곱미터 블록과 맞먹는 양이었습니다.라즈베리 파이 제로 (Raspberry Pi Zero) 는 몇 년 전에 출시되었을 때 가격은 미화 5달러였으며 이들 시스템 중 하나와 거의 비슷한 성능을 보였습니다.주머니에 넣고 다니다가 화면이 깨지면 휴지통에 버리는 iPhone 또는 고급형 Android 휴대폰 한 대는 1986년 당시 전 세계 모든 슈퍼컴퓨터를 합친 것과 거의 비슷합니다.동네 대형 매장에 가면 아이폰 수백 대에 해당하는 기계를 구할 수도 있습니다.
AI의 컴퓨터 과학 측면에서 엄청난 발전이 이루어졌지만, 오늘날 AI 솔루션의 놀라운 능력으로 이어진 것은 컴퓨터 성능과 그 어느 때보다 많은 수의 뉴런을 시뮬레이션할 수 있는 능력이 놀라울 정도로 향상되었다는 것입니다.
딥 러닝 기반 솔루션
ML 외에도 현재 거의 모든 다른 AI 기술은 딥 러닝을 기반으로 합니다.제너레이티브 AI는 오늘날 AI에서 '놀라운' 요소를 만들어내는 시스템을 광범위하게 분류한 것입니다.제너레이티브 AI는 새로운 결과를 합성할 수 있는 능력으로, 대개 다른 입력 데이터와 같은 방식으로 합성할 수 있습니다.이는 청각 (음성, 소리 또는 음악), 시각 (그림, 동영상, 그림) 또는 텍스트 (예: 단어, 문장, 단락, 시 또는 가사) 일 수 있습니다.이 결과물은 완전히 독창적일 수도 있고 특정 아티스트의 스타일로 만들어졌을 수도 있습니다. 즐겨 찾는 검색 엔진을 통해 Mix-a-Lot 경의 Baby's Got Back을 부르는 엘비스의 목소리나 베르메르 스타일의 코기 그림의 예를 찾을 수 있을 것입니다.

대형 언어 모델은 인간 언어를 전문으로 하는 제너레이티브 AI 시스템입니다.매우 큰 바위 아래에 살지 않는 한 ChatGPT에 대해 들어보셨을 것입니다.ChatGPT는 GPT라는 AutoAI 제품 위에 있는 웹 인터페이스입니다.ChatGPT는 사용자의 프롬프트와 질문을 기반으로 수수께끼부터 놀라운 것까지 다양한 결과를 만들어내는 놀라운 시스템입니다.ChatGPT는 자녀의 수학 숙제 (또는 책 보고서 작성) 를 기꺼이 해주고, 이야기를 쓰거나, 소프트웨어를 분석하거나, Python으로 코드를 작성하도록 도와줍니다.ChatGPT의 결과는 지능적이라고 쉽게 볼 수 있습니다 (하지만 이 출력이 진정으로 지능을 나타내는지 아닌지는 이 글의 범위를 벗어납니다).물론 그 결과는 지능에 충분히 근접해 향후 5년 후 기술이 어디로 갈지 알 수 있을 정도입니다.
보안에서의 딥 러닝
현재까지 보안 제품에 신경망 기반 AI 솔루션이 통합된 경우는 거의 없습니다.확실히 0은 아니지만 공급업체가 이 기술을 통합하기로 약속하기 전에 해결해야 할 몇 가지 과제가 남아 있습니다.
제가 “동기 부여”라는 용어를 조금이라도 자유롭게 설명하자면, 현세대 대형 언어 모델의 첫 번째 책임은 사용자가 만족할 수 있는 결과물을 생성하는 것이 “동기 부여”라는 것입니다.사용자를 만족시키는 출력이 반드시 올바른 출력은 아니라는 사실을 깨닫기 전까지는 꽤 괜찮게 들립니다.LLM은 사용자가 만족하기만 하면 틀려도 전적으로 만족합니다.사실, 정확하다는 것이 LLM의 부차적인 고려 사항이라고 말하는 것조차 정확하지 않을 수 있습니다.LLM의 출력이 정확하다면 이는 우연한 사고일 뿐이며 LLM의 진정한 관심사는 아닙니다.LLM 지원 시를 작성할 때는 괜찮지만 보안 정책을 지원할 때는 문제가 될 수 있습니다.
둘째, LLM은 말하자면 여전히 “손에서 벗어날” 수 있습니다.LLM은 용도에 꼭 필요한 것보다 훨씬 더 광범위한 지식과 데이터를 바탕으로 교육을 받을 필요가 있습니다.사실, 직원을 고용하는 것과 같은 방식으로 LLM을 사용하는 것을 생각해 보는 것이 유용할 때가 있습니다.여러분이 수행해야 하는 작업을 수행하기 위해 고용된 직원은 분명 그 업무 외의 다양한 경험을 가지고 있을 것입니다.엉뚱한 직원처럼, 현재의 LLM 구현은 안전한 대화 주제를 벗어나는 방향으로 진행될 수 있습니다.
LLM은 매우 최신 기술이며, 이러한 문제는 매우 똑똑한 많은 사람들에 의해 해결되고 있습니다.의심할 여지 없이 내년 정도에 해결될 것입니다.문제가 해결되면 자연어 인터페이스, 문제의 자동 우선 순위 지정, 이전에 해결한 문제의 상호 참조, 문제 해결을 위한 제안 등 다양한 새로운 제품 기능이 제공될 것으로 기대됩니다.지금으로부터 12~18개월 후에 시장에 다음과 같은 이메일을 보낼 수 있는 제품이 없다면 놀랄 것입니다.
친애하는 사용자.오늘 아침 04:53:07 부터 달라스 데이터 센터의 다음 네 대의 시스템에서 새로 출시된 CVE-20240101 버전과 일치하는 특성을 가진 변칙 트래픽이 감지되었습니다. [...] 이 네 시스템 모두 공급업체 패치 XXX가 없었고 두 대에도 CVE-20240101 완화 패치 YYY가 없었습니다.이중 데이터베이스 서버였고 페일오버에 사용할 수 있는 충분한 용량이 있었기 때문에 이러한 시스템의 네트워크 연결이 일시적으로 끊어졌습니다.< to automatically re-image, patch, and restore these systems, or click >자세한 내용 및 기타 옵션을 보려면 >여기<를 클릭하십시오.
이것의 각 부분은 적어도 연구 단계에서 이미 존재합니다.LLM은 CVE의 영문 텍스트 (일반적인 취약점 및 노출) 를 분석할 수 있습니다.CVE의 데이터를 실제 네트워크 트래픽과 비교할 수 있습니다.네트워크 볼륨 및 용량을 분석할 수 있습니다.시스템에 설치된 (또는 누락된) 소프트웨어와 구성을 분석할 수 있습니다.또한 Ansible 스크립트를 생성하여 시스템 재구축과 구성 및 데이터 복원을 자동화할 수 있습니다.조각들을 하나로 모으기만 하면 됩니다.
폐장 중
소셜 미디어와 뉴스의 세계에서 우리는 언어 (따라서 커뮤니케이션) 가 의도적으로 덜 정확해지면서 역사가 펼쳐지는 것을 지켜보고 있습니다.우리는 버네이스와 오웰의 교훈이 현실 세계에 구현되는 것을 지켜보고 있습니다.그러나 기술 세계에서는 아직 이러한 도전에 직면하지 않았습니다.우리는 여전히 정확하고 정확하게 말할 수 있습니다.올바른 어휘를 익히는 것은 중요한 부분입니다.