안녕하세요! 모두의 IT 부케, 케빈입니다. :)
오늘은 익숙하지만 설명하자면 어려운 그 용어, 인공지능에 대한 기초 지식을 설명드리고자 합니다.
비전공자부터 전공자까지 모두에게 도움이 되었으면 합니다. 자, 그러면 이제 시작해볼까요?
■ 인공지능(AI)의 등장: 용어의 유래와 정의
"인공지능"이라는 용어는 미국의 컴퓨터 공학자이자 인지 과학자인 존 매카시(John McCarthy)가 1956년 미국 다트머스 대학 학회에서 처음 사용했습니다. 비록 당시 학회에는 약 10여 명의 학자만 참여했지만, 이후 그 학회 참석자와 그들의 제자들이 AI의 미래를 만들게 됩니다.
"인간의 지능, 두뇌를 컴퓨터로 구현할 수 있지 않을까?"
인공지능은 인간의 지능을 모방하여 학습, 추론, 지각 능력이 필요한 작업을 할 수 있는 컴퓨터 시스템을 말합니다. 인공지능이라는 학술적 용어는 1956년에 등장했지만, 그 개념은 오래전부터 존재했습니다.
대표적 개념으로는 1943년 워런 스터기스 맥클록(Warren Sturgis McCulloch, 이하 워런 맥클록)과 월터 피츠(Walter Pitts)의 최초의 신경망 모델, 1950년 앨런 튜링(Alan Mathison Turing, 이하 앨런 튜링)의 생각하는 기계 구현과 튜링 테스트가 있습니다.
1943년, 워런 맥클록과 월터 피츠는 인간의 뇌를 기계적으로 모델링한 최초의 논문, "A logical Calculus of Ideas immanent in nervous activity, 1943"를 발표합니다. 둘은 인간의 뉴런과 두뇌 활동을 0과 1(on/off)의 이진법적인 수학 모델로 제안했으며, 이는 퍼셉트론 등 후속 인공 신경망 발전에 지대한 영향을 끼칩니다.
1950년에는 천재적인 수학자이자 암호학자, 컴퓨터 과학자인 앨런 튜링이 계산 기계와 지성(Computing Machinery and Intelligence)이라는 논문을 발표하여 컴퓨터의 사고 능력을 평가하는 그 유명한 튜링 테스트를 제안했습니다. 참고로 앨런 튜링은 애니그마 해독을 통해 2차 세계 대전에 기여를 했으며, 컴퓨터 과학의 아버지라고 불리는 인물입니다. 그는 인공 지능이라는 용어가 나오기 전부터 그 개념을 생각했으며, 현대 컴퓨터의 발전에 큰 공헌을 했습니다.
본론으로 돌아와서, 튜링 테스트는 아마 한 번쯤은 들어보셨을 테스트일 텐데요. 간단히 설명드리자면, 인간과 지능을 가진 기계가 각각 심문자에게 질문을 받습니다. 심문자는 질문을 통해 인간과 컴퓨터를 구분하며, 구분할 수 없을 시에는 컴퓨터에게 지능이 있다고 간주합니다.
이처럼 인간의 지적 능력을 모방하고자 하는 연구는 오래전부터 존재했으며, 이러한 연구들은 최초의 신경망 모델로 평가받는 1958년 프랭크 로젠 블랫(Frank Rosenblatt)의 퍼셉트론 논문(The Perceptron: A probabilitic model for information storage and organization in the brain)에 밑거름이 됩니다.
당시 퍼셉트론 이론은 엄청난 사회적 관심을 받았습니다. 퍼셉트론은 워런 맥클록과 월터 피츠가 고안했던 "맥컬록-피츠 모델"의 뉴런 구조에 가중치(Weights) 개념을 추가한 모델입니다. 가중치를 통해 기계가 학습하며, 마치 기계가 정말 "생각"을 하는 것으로 보였습니다.
실제로 퍼셉트론 모델은 미 해군 연구소에서 연구 자금을 지원했고, 이미지를 인식하는 시연에 성공합니다. 당시 뉴욕 타임즈에 게재된 기사의 제목이 "전자두뇌가 스스로 가르치다(Electric Brain teaches itself)"일 정도로 그 성능은 충격적이었습니다.
이후 AI 분야에 폭발적인 연구 자금이 몰려들기 시작했고, 사람들은 AI가 세상을 바꿀 것이라는 기대감에 부풀어 있었습니다. 하지만 기대감이 부풀면 언젠가는 꺼지듯이, 이는 AI Winter를 촉발시키는 계기가 됩니다.
■ AI 겨울(Winter): 2번의 암흑기
첫 번째 AI Winter: 퍼셉트론의 한계
퍼셉트론 발표 이후, 10년이라는 시간이 지나서 1969년에 마빈 민스키(Marvin Lee Minsky)와 시모어 페퍼트(Seymour Parpert)가 퍼셉트론의 문제점과 한계를 수학적 증명으로 발표합니다.
퍼셉트론은 선형 분리가 가능한 문제(AND, OR)는 쉽게 풀지만,
선형 문제로 해결할 수 없는 XOR 문제는 풀 수 없다. - 마빈 민스키, 시모어 페퍼트
마빈 민스키와 시모어 페퍼트는 퍼셉트론의 문제점만을 지적한 것이었지만, 사람들에게는 인공 신경망 자체의 한계가 드러난 것으로 받아들여졌습니다.
퍼셉트론은 혁신의 산물이었지만, 현실의 대부분을 차지하는 비선형 문제를 해결할 수 없다는 소식에 사람들의 관심은 자연스럽게 멀어져 갔습니다. 그리고 이는 곧 AI 연구에 대한 연구 지원의 중단을 의미했으며, 이렇게 AI 분야는 1차 혹한기 또는 암흑기라 불리는 AI Winter에 들어가게 됩니다.
▶ 최초의 인공 신경망, 퍼셉트론을 자세히 알고 싶다면?: 최초의 신경망 모델 퍼셉트론: 정의, 동작 원리 그리고 한계점
다층 퍼셉트론(MLP)과 오류 역전파 알고리즘, 1차 AI Winter를 걷어내다.
그렇게 사람들로부터 AI에 대한 관심이 잊혀갈 무렵, 무려 17년이 지난 1986년에 인지 심리학자이자 컴퓨터 과학자인 제프리 힌튼(Geoffery Everest Hinton)이 다층 퍼셉트론(MLP, Multi-Layer Perceptrons)과 오류 역전파(Back-Propagation) 알고리즘이라는 인공지능 역사에 기념비적인 개념을 제시합니다.
다층 퍼셉트론은 기존 입력과 출력 층만으로 구성된 퍼셉트론 사이에 Hidden Layer(은닉층)라는 층을 삽입한 알고리즘입니다. 연결층이 많아짐으로써, 비선형적 문제까지 해결할 수 있게 된 셈입니다.
오류 역전파는 현대 인공 신경망의 가장 기본이 되는 개념입니다. 의미 그대로 오류를 역전파 한다는 뜻인데, 여기서 오류란 신경망 모델이 출력한 값과 실제 값의 차이를 의미합니다. 오류 역전파가 적용된 신경망 모델은 오차 값을 출력층에서부터 입력층으로 거꾸로 전파하며 가중치를 갱신(학습)하는 개념입니다.
다층 퍼셉트론과 오류 역전파에 대한 이론은 17년간 지속되었던 1차 AI 혹한기를 끝냈습니다. 비선형 문제를 해결할 수 있게 된 AI 분야로 다시 막대한 연구 자금이 몰려들기 시작했으며, 많은 학자들이 현실의 복잡한 문제를 풀기 위해 더 깊은 신경망(은닉층, Hidden Layer를 더 많이 삽입)을 만드는 연구를 시작하게 됩니다. 하지만 봄은 항상 짧은 것일까요, 폭발적으로 성장하던 인공 신경망 분야는 다시금 혹독한 겨울을 맞이하게 됩니다.
2차 AI Winter: 인공 신경망, 모순에 빠지다.
1990년대 이르러, 인공 신경망 연구는 "Vanishing Gradient Problem(기울기 소실 문제)"라는 벽에 직면합니다. 여기서 그레디언트(Gradient)란 다변량 함수의 기울기를 의미합니다.
오류 역전파 알고리즘이 가중치(Weights)를 갱신하는 원리는 마치 눈을 가리고 산을 내려가는 방식과 같습니다. 어떤 산 중턱에서 눈을 가리고 하산을 한다고 가정하겠습니다. 어떤 방향이 하산하는 방향인지 모르기 때문에, 방향을 알기 위해 발을 360도 돌리며 지금 자신이 서 있는 곳보다 낮은 지대를 향해 한 발자국 내딛습니다. 이 과정을 반복하다 보면, 언젠가 우리는 평지(Local 또는 Global)에 도달하게 됩니다.
인공 신경망의 가중치는 고차원(다변량) 수학 모델입니다. 인공 신경망의 성능은 곧 가중치(Weight)가 얼마나 데이터에 적합하도록 학습이 되었는지로 나타낼 수 있습니다. 가중치 학습은 오류 역전파 방식으로 이루어집니다. 가중치 갱신의 목적은 실제 값과의 오차를 줄이는 과제(Task)이며, 이를 수학적으로 정량화하기 위해 오차에 대한 고차원 방정식을 만듭니다.
그리고 오차 방정식의 기울기(Gradient)가 감소(Descent)하는 방향으로 가중치를 갱신합니다. 이 방식이 마치 눈을 가리고 하산하는 방식과 비슷하다고 하여 Gradient Descent(기울기 하강)라고 합니다.
문제는 이 기울기 하강 방식이 인공 신경망이 깊어질수록(Deep) 잘 작동하지 않는다는 점입니다. 급진적인 학습을 막기 위해 가중치는 1 이하의 값을 사용합니다.
그런데, 연결이 많아질수록 1보다 작은 값이 곱해지며 역전파되는 값이 점점 사라지며 가중치를 갱신할 수 없게 됩니다. 이러한 모습이 마치 오차 함수의 기울기가 사라지는 것 같다고 하여, 기울기 소실 문제(Vanishing Gradient Problem)라고 합니다.
이 문제 때문에 인공 신경망은 현실의 복잡한 문제를 풀기 위해서 심층 신경망이 필요하지만, 망이 깊어질수록 성능이 떨어지는 모순적인 상황에 직면합니다. 거기에 더해, 당시 제한적인 컴퓨터 성능이 적층된 신경망의 연산량을 쫓아가지 못하는 문제가 겹치며 많은 학자들이 떠나가기 시작했습니다. 연구 자금 또한 대폭 축소되며 인공지능 산업은 또다시 2차 AI Winter에 접어들게 됩니다.
▶ 기울기 소실 문제에 대해 자세히 알고 싶다면?:
개념적 접근: 인공 신경망의 학습(경사 하강법)과 기울기 소실 문제(Vanishing Gradient Problem) 완벽
■ 딥러닝의 등장: 화려한 봄이 오다.
DNN(Deep Neural Network) 용어의 등장: 어둠 속 작은 불꽃
2차 AI Winter 시기에도 제프리 힌튼(Geoffery Everest Hinton)은 신경망에 대한 연구를 포기하지 않았습니다. 인공 신경망이라는 단어가 들어간 논문은 보지도 않았던 시기, 2006년에 제프리 힌튼은 "A fast learning algorithm for deep belief nets"라는 논문을 발표합니다.
가중치 초기값을 제대로 설정한다면 심층 신경망을 구현할 수 있다는 내용으로, 이 논문에서 처음으로 "DNN(Deep Neural Network)"라는 용어가 사용되었습니다. 기존 신경망과 크게 다른 구조는 아니었지만, 딥러닝이라는 매력적인 용어에 사람들의 관심이 모이게 됩니다.
딥러닝, 학계를 놀라게 하다: AlexNet의 등장과 인공 지능의 화려한 부활
지금은 없어졌지만, 이미지 처리 분야에서 ILSVRC(ImageNet Large Scale Visual Recognition Challenge), 일명 ImageNet Challenge라고 불리는 대회가 있었습니다.
많은 팀들이 각자 고안한 이미지 분류 모델의 성능을 평가하는 대회였는데요. 딥러닝이 등장하기 전까지, SVM(Support Vector Mechaine) 또는 얕은 구조의 신경망 모델이 우승을 번갈아 가며 차지하고 있는 상황이었습니다.
그러다, 2012년 제프리 힌튼이 그 유명한 DNN 구조의 AlexNet이라는 모델을 고안하여 ImageNet challenge에 참가하게 됩니다. 이 딥러닝 모델은 바로 직전 연도 우승했던 모델의 오류율 26%를 16%까지 낮추며 압도적인 정확도로 우승을 차지하며 학계의 폭발적인 관심을 받았습니다.
몇 년 동안 오류율 1% 이하의 미세한 수치로 우승자가 바뀌던 지지부진한 상황에서 AlexNet의 등장은 엄청난 혁신이었습니다. 딥러닝의 압도적인 성능에 많은 학자들이 인공 지능 분야에 다시 관심을 갖게 되었습니다.
참고로 ImageNet challenge는 2015년에 사람의 오류율인 5%대 모델이 등장했으며, 이후 사람의 인지 능력을 뛰어넘는 성능의 모델이 계속하여 나오자 의미가 없다고 판단하여 대회는 폐지되었습니다.
알파고(AlphaGo)와 인공 지능 전성시대
학계에서는 2012년부터 인공 지능 붐이 일어났지만, 대중들에게 인공 지능 분야가 널리 알려진 것은 2016년 3월 구글 딥마인드에서 개발한 알파고(AlphaGo)가 세계적인 프로 바둑 기사인 이세돌 9단을 꺾으면서부터 였습니다. 이 시기에도 이미 학계에서는 다양한 분야에 걸쳐 인간의 인지 능력과 대등한, 혹은 그 이상의 모델이 계속해서 나오고 있었습니다. 이러한 상황 속에, 대중의 관심과 스포트라이트를 받으며 인공 지능 분야는 폭발적인 성장을 기록하게 됩니다.
인공 지능에 대한 개인적인 고찰
비 온 뒤 땅이 다져지는 것처럼, 인공 지능 분야는 2번의 혹독한 겨울을 버텨내고 화려하게 꽃 피기 시작했습니다. 괄목적인 발전을 이루고 있으며, 현재에는 일종의 만능처럼 여겨지고 있습니다. 그렇다면 영화 아이언맨의 인공 지능 비서 자비스(Xavis)처럼 인간의 지성을 갖는 인공 지능이 개발될 수 있을까요?
영화 아이언맨에서 자비스는 사람과의 원활한 의사소통, 감정 교류, 학습되지 않은 환경에서의 대처 능력 등을 보여줍니다. 마치 정말로 사람인 것 같은 느낌이 드는데요. 인공지능은 강 인공지능(Strong AI)과 약 인공지능(Weak AI)으로 구분된다고 합니다. 강 인공지능은 인간을 완벽하게 모방한 인공지능이며, 영화 아이언맨의 자비스가 여기에 해당된다고 생각됩니다.
약 인공지능은 유용한 도구로써 설계된 인공지능입니다. 현재의 거의 모든 인공 지능 모델이 여기에 해당되며, 특정 분야에서 인간의 인지 능력을 초월하는 능력을 갖고 있지만 그 분야가 너무 작고 환경이 바뀌면 새로운 모델이 필요합니다.
강 인공지능과 약 인공지능에 대한 자세한 설명은 아래 링크를 참고해주세요.
https://namu.wiki/w/%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5
인공 신경망의 시작은 인간 뉴런의 모방이었지만, 현재 딥러닝 모델의 논문을 보면 인간 뉴런과 점점 달라지고 있습니다. 마치 하늘을 날기 위해 새를 모방하여 비행기를 만들었지만, 현재의 비행기가 새와는 다른 것처럼 말입니다.
약 인공지능이 무조건 나쁘고, 강 인공지능이 무조건 좋은 것은 아닙니다. 비행기는 나뭇가지에 앉을 수 없지만, 빠른 속도로 많은 양의 사람과 화물을 나를 수 있습니다. 도구로써의 약 인공지능이 활약할 수 있는 분야도 무궁무진하다고 생각합니다.
그렇지만 현재 인공 지능의 발전 방향만을 봤을 때, 자비스와 같은 인공 지능이 나오기는 어려울 것 같습니다. 그리고 역사적으로 봤을 때, 이러한 한계점이 3차 AI Winter를 초래하지는 않을까 라는 걱정이 되기도 하네요. 그렇지만 언제나 그렇듯이 인류는 문제를 극복하고 한 단계 더 퀀텀 점프하여 자비스와 같은 인공 지능이 탄생하지 않을까요? 그 시기가 빨리 왔으면 좋겠네요.
여기까지 인공지능에 대한 기초 배경지식을 살펴보았습니다. 더 궁금하신 내용이 있다면 댓글 남겨주세요. :)
긴 글 읽어 주셔서 감사합니다.
※추가 자료 링크
▶ 최초의 인공 신경망, 퍼셉트론을 자세히 알고 싶다면?: 최초의 신경망 모델 퍼셉트론: 정의, 동작 원리 그리고 한계점
▶ 기울기 소실: 개념적 접근: 인공 신경망의 학습(경사 하강법)과 기울기 소실 문제(Vanishing Gradient Problem) 완벽
'AI - Deep Learning' 카테고리의 다른 글
활성화 함수: 정의와 종류, 비선형 함수를 사용해야 하는 이유 (0) | 2022.11.01 |
---|---|
딥 러닝을 위한 회귀 분석의 이해: Logit, Sigmoid, Softmax (5) | 2022.10.31 |
인공 신경망 학습 원리와 기울기 소실 문제 정의 및 해결법 한 글로 정리 (1) | 2022.10.13 |
최초의 신경망 모델 퍼셉트론: 정의, 동작 원리 그리고 한계점 (2) | 2022.10.11 |
논리 연산의 그래프적인 해석과 Python 코드 (0) | 2022.10.10 |
댓글