AI 딥러닝의 간략한 역사 (퍼옴)
우리는 AI 딥러닝의 제 3의 황금기를 지나고 있으며, 제 3의 암흑기는 언제 올까요?
관련 업에 종사하는 사람으로서.. 다음 암흑기는 짧고 황금기는 길게 가면 좋겠습니다😄
인공 지능(AI)과 딥 러닝은 지난 수십 년 동안 놀라운 진전을 이루었으며, 컴퓨터 비전, 자연어 처리, 로봇공학과 같은 분야를 혁신했습니다. 이 글에서는 초기 신경망 모델에서 현대의 대규모 언어 모델, 멀티모달 AI 시스템에 이르기까지 딥 러닝을 활용한 AI 역사의 주요 이정표에 대한 개요를 제공합니다.
1. 인공지능의 탄생 (1956)
인공 지능(AI)이라는 개념은 수세기 동안 존재해 왔지만, 오늘날 우리가 알고 있는 현대 AI 분야는 20세기 중반에 형성되기 시작했습니다. "인공 지능"이라는 용어는 1956년 컴퓨터 과학자이자 인지 과학자인 존 매카시가 인공 지능에 대한 다트머스 여름 연구 프로젝트에서 처음 만들었습니다.
다트머스 컨퍼런스는 종종 연구 분야로서의 AI의 발상지로 여겨진다. 이 컨퍼런스는 컴퓨터 과학자, 수학자, 인지 과학자 그룹을 모아 인간 지능을 시뮬레이션할 수 있는 기계를 만드는 가능성에 대해 논의했다. 참석자에는 마빈 민스키, 나다니엘 로체스터, 클로드 섀넌과 같은 유명 인사가 포함되었다.
1.1 AI의 진화: 규칙 기반 시스템에서 딥 러닝까지
AI의 진화는 1950년대에 체스와 문제 해결과 같은 작업을 위한 알고리즘이 개발되면서 시작되었으며, 최초의 AI 프로그램인 Logical Theorist는 1956년에 만들어졌습니다. 1960년대와 1970년대에는 복잡한 의사 결정 프로세스를 지원할 수 있는 MYCIN과 같은 규칙 기반 전문가 시스템이 도입되었습니다. 1980년대에는 머신 러닝이 등장하여 AI 시스템이 데이터에서 학습하고 시간이 지남에 따라 개선할 수 있게 되었고, 현대의 딥 러닝 기술의 기반을 마련했습니다.
오늘날 최첨단 AI 기술의 대부분은 AI의 풍경을 변화시킨 딥 러닝 기술에 의해 구동됩니다. 머신 러닝의 전문 분야인 딥 러닝은 여러 계층의 인공 신경망을 활용하여 원시 입력 데이터에서 복잡한 기능을 추출합니다. 이 글에서는 AI의 역사를 살펴보고, 그 진화에서 딥 러닝의 역할을 강조합니다.
2. 초기 인공신경망(1940년대~1960년대)
2.1 Muclloch-Pitts 뉴런(1943)
신경망의 개념은 워렌 맥컬로흐와 월터 피츠가 최초의 인공 뉴런 모델을 제안한 1943년으로 거슬러 올라갑니다. 맥컬로흐-피츠(MP) 뉴런 모델은 생물학적 뉴런을 획기적으로 단순화한 것입니다. 이 모델은 이진 입력을 집계하고 임계값 활성화 함수를 사용하여 이 집계에 따라 결정을 내려 이진 출력 {0, 1}을 생성함으로써 인공 신경망의 기반을 마련했습니다.
이 단순화된 모델은 신경 행동의 본질을 포착합니다. 즉,
여러 입력을 받고, 이를 통합하고,
통합된 신호가 임계값을 초과하는지 여부에 따라 이진 출력을 생성합니다. MP 신경 모델은 단순함에도 불구하고 기본적인 논리 연산을 구현할 수 있었으며, 신경 계산의 잠재력을 보여주었습니다.
2.2 로젠블랫의 퍼셉트론 모델(1957)
1957년 프랭크 로젠블랫은 패턴을 학습하고 인식할 수 있는 단일 계층 신경망인 퍼셉트론을 도입했습니다. 퍼셉트론 모델은 MP 뉴런보다 더 일반적인 계산 모델로, 실수 값 입력을 처리하고 가중치를 조정하여 분류 오류를 최소화하도록 설계되었습니다.
로젠블래트는 또한 퍼셉트론을 위한 지도 학습 알고리즘을 개발했는데, 이를 통해 네트워크가 훈련 데이터로부터 직접 학습할 수 있게 되었습니다.
로젠블랫은 퍼셉트론의 능력에 대한 야심 찬 주장을 내세웠는데, 여기에는 개인을 인식하고 언어 간에 음성을 번역하는 잠재력이 포함되었고, 그 기간 동안 AI에 대한 대중의 관심이 상당히 높아졌습니다. 퍼셉트론 모델과 관련 학습 알고리즘은 신경망의 진화에서 중요한 이정표를 세웠습니다. 그러나 곧 중요한 한계가 드러났습니다. 퍼셉트론의 학습 규칙은 비선형적으로 분리 가능한 학습 데이터가 제공되었을 때 수렴할 수 없었습니다.
2.3 ADALINE(1959)
1959년, Widrow와 Hoff는 Perceptron 학습 규칙을 개선한 ADALINE (Adaptive Linear Neuron, Delta Learning Rule이라고도 함)을 도입했습니다 . ADALINE은 이진 출력 및 노이즈 감도와 같은 한계를 해결했으며 비선형적으로 분리 가능한 데이터에서 학습하고 수렴할 수 있었습니다 . 이는 신경망 개발의 주요 혁신이었습니다.
ADALINE의 주요 특징은 다음과 같습니다.
- 선형 활성화 함수 : 퍼셉트론의 계단
함수와 달리 ADALINE은 선형 활성화 함수를 사용하므로
회귀 작업과 연속 출력에 적합합니다. - 최소 평균 제곱(LMS) 알고리즘 : ADALINE은 예측 출력과 실제 출력 간의
평균 제곱 오차를 최소화하는 LMS 알고리즘을 채택하여 보다 효율적이고 안정적인 학습 과정을 제공합니다. - 적응형 가중치
: LMS 알고리즘은 출력 오류에 따라 가중치를 적응적으로 조정하여
노이즈가 있는 경우에도 ADALINE이 효과적으로 학습하고 수렴할 수 있도록 합니다.
ADALINE의 도입은 신경망의 첫 번째 황금기를 알리는 신호로 , 로젠블랫의 퍼셉트론 학습의 한계를 극복했습니다. 이 획기적인 발전은 효율적인 학습, 지속적인 출력, 노이즈가 많은 데이터에 대한 적응을 가능하게 했으며, 이 분야에서 혁신의 물결과 빠른 진전을 불러일으켰습니다.
그러나 퍼셉트론과 마찬가지로 ADALINE은 여전히 선형적으로 분리 가능한 문제에 국한되어 더 복잡하고 비선형적인 작업을 해결할 수 없었습니다. 이러한 제한은 나중에 XOR 문제로 인해 더욱 강조되어 더 진보된 신경망 아키텍처의 개발로 이어졌습니다.
2.4 XOR 문제(1969)
1969년, 마빈 민스키와 세이무어 페퍼트는 그들의 책 "퍼셉트론"에서 단층 퍼셉트론의 중대한 한계를 강조했습니다. 그들은 퍼셉트론이 선형 결정 경계로 인해 간단한 이진 분류 작업인 배타적 OR(XOR) 문제를 해결할 수 없다는 것을 보여주었습니다. XOR 문제는 선형적으로 분리할 수 없으므로 단일 선형 경계로는 모든 입력 패턴을 올바르게 분류할 수 없습니다.
이 발견은 비선형 결정 경계를 학습할 수 있는 보다 복잡한 신경망 아키텍처의 필요성을 강조했습니다. 퍼셉트론의 한계가 노출되면서 신경망에 대한 신뢰가 상실되고 상징적 AI 방법으로 전환되어 1970년대 초부터 1980년대 중반까지 "신경망의 첫 번째 암흑기"가 시작되었습니다.
그러나 XOR 문제를 해결하여 얻은 통찰력은 연구자들이 비선형 관계를 포착할 수 있는 더 복잡한 모델이 필요하다는 것을 인식하게 했습니다. 이러한 인식은 궁극적으로 다층 퍼셉트론과 다른 고급 신경망 모델의 개발로 이어졌고, 이는 수십 년 후 신경망과 딥 러닝의 부활을 위한 토대를 마련했습니다.
3. 다층 퍼셉트론(1960년대)
다층 퍼셉트론(MLP)은 1960년대에 단일 층 퍼셉트론을 개선한 것으로 도입되었습니다. 여러 층의 상호 연결된 뉴런으로 구성되어 단일 층 모델의 한계를 해결할 수 있습니다. 소련 과학자 AG 이바크넨코와 V. 라파는 퍼셉트론의 기초 작업을 바탕으로 MLP 개발에 상당한 기여를 했습니다.
3.1 숨겨진 레이어
숨겨진 레이어를 추가하면 MLP가 데이터에서 복잡하고 비선형적인 관계를 포착하고 표현할 수 있습니다. 이러한 숨겨진 레이어는 네트워크의 학습 기능을 크게 향상시켜 XOR 문제와 같이 선형적으로 분리할 수 없는 문제를 해결할 수 있습니다.
3.2 MLP의 역사적 맥락과 과제
MLP는 신경망 연구에서 상당한 진전을 이루었으며, 복잡한 문제를 해결하기 위한 딥 러닝 아키텍처의 잠재력을 보여주었습니다. 그러나 1960년대와 1970년대에 MLP의 개발은 여러 가지 어려움으로 인해 방해를 받았습니다.
- 학습 알고리즘 부족 : 초기 MLP 모델은 네트워크
의 가중치를 효과적으로 조정할 수 있는 효율적인 학습 알고리즘이 부족했습니다
. 역전파가 없어서
여러 계층이 있는 딥 네트워크를 학습하기 어려웠습니다. - 계산 한계
: 당시 사용 가능한 계산 능력은
딥 신경망을 훈련하는 데 필요한 복잡한 계산을 처리하기에 부족했습니다. 이러한 한계로 인해
MLP 연구 및 개발의 진행이 느려졌습니다.
신경망의 첫 번째 암흑 시대는 1986년에 역전파 알고리즘이 재발견되고 발표되면서 끝났고, 신경망의 두 번째 황금기가 시작되었습니다 .
다층 퍼셉트론(MLP) 마스터링건축, 교육 및 과제미디엄닷컴
4. 역전파(1970년대~1980년대)
1969년 XOR 문제는 퍼셉트론(단일 계층 신경망)의 한계를 강조했습니다. 연구자들은 다층 신경망이 이러한 한계를 극복할 수 있다는 것을 깨달았지만, 이러한 복잡한 네트워크를 훈련할 실용적인 알고리즘이 부족했습니다. 역전파 알고리즘이 개발되어 신경망이 이론적으로 모든 함수를 근사할 수 있게 되는 데 17년이 걸렸습니다. 흥미롭게도, 이 알고리즘은 실제로 출판되기 전에 발명되었다는 사실이 나중에 밝혀졌습니다. 오늘날 역전파는 1960년대와 1970년대에 시작된 이후 상당한 발전과 개선을 거쳐 딥 러닝의 기본 구성 요소입니다.
4.1 초기 개발(1970년대)
- 세포 린나인마(Seppo Linnainmaa, 1970) : 역전파 알고리즘의 핵심 구성 요소인 자동 미분 개념을 도입했습니다.
- 폴 워보스(Paul Werbos, 1974) : 미적분학의 연쇄 법칙을 사용하여 네트워크의 가중치에 대한 오차 함수의 기울기를 계산하고, 이를 통해 다층 신경망의 학습이 가능하다고 제안했습니다.
4.2 세련화 및 대중화(1980년대)
- 데이비드 루멜하트, 제프리 힌튼, 로널드 윌리엄스(1986) : 역전파 알고리즘을 딥 신경망을 훈련하는 실용적이고 효율적인 방법으로 제시하고 다양한 문제에 대한 응용 사례를 보여주었습니다.
4.3 역전파의 주요 특징:
- 경사 하강법 : 역전파는 경사 하강법과 함께 사용되어 오류 함수를 최소화합니다. 이 알고리즘은 네트워크의 각 가중치에 대한 오류의 경사를 계산하여 가중치를 반복적으로 업데이트하여 오류를 줄일 수 있습니다.
- 체인 룰 : 역전파 알고리즘의 핵심은 미적분학의 체인 룰을 적용하는 것입니다. 이 룰은 오차의 기울기를 일련의 편미분으로 분해할 수 있게 하며, 이는 네트워크를 통한 역방향 패스를 통해 효율적으로 계산할 수 있습니다.
- 계층적 계산 : 역전파는 출력 계층에서 시작하여 입력 계층으로 역으로 작업하는 계층별 방식으로 작동합니다. 이 계층적 계산은 그래디언트가 네트워크를 통해 올바르게 전파되도록 보장하여 딥 아키텍처의 학습을 가능하게 합니다.
4.5 보편 근사 정리(1989)
1989년 조지 사이벤코가 제안한 범용 근사 정리(Universal Approximation Theorem)는 다층 신경망의 기능에 대한 수학적 기초를 제공했습니다. 이 정리는 단일 은닉 층을 가진 피드포워드 신경망이 충분한 뉴런과 비선형 활성화 함수를 사용하여 임의의 정확도로 모든 연속 함수를 근사할 수 있다고 말합니다. 이 정리는 신경망의 힘과 유연성을 강조하여 광범위한 응용 분야에 적합하게 만듭니다.
4.6 두 번째 황금기(1980년대 후반~1990년대 초반)
역전파법과 UAT(Universal Approximation Theorem)의 개발은 신경망의 두 번째 황금기를 알렸습니다. 역전파법은 다층 신경망을 훈련하는 효율적인 방법을 제공하여 연구자들이 더 깊고 복잡한 모델을 훈련할 수 있게 했습니다. UAT는 다층 신경망 사용에 대한 이론적 정당성을 제공하고 복잡한 문제를 해결하는 능력에 대한 확신을 강화했습니다. 1980년대 후반과 1990년대 초반에 걸친 이 기간 동안 이 분야에 대한 관심이 다시 높아지고 상당한 진전이 있었습니다.
4.7 두 번째 암흑 시대(1990년대 초반~2000년대 초반)
그러나 신경망 분야는 1990년대 초반부터 2000년대 초반까지 여러 요인으로 인해 "두 번째 암흑기"를 경험했습니다.
- 분류 및 회귀 작업에 수학적으로 우아한 접근 방식을 제공하는 지원 벡터 머신(SVM)의 등장 .
- 계산적 한계로 인해 딥 신경망을 훈련하는 데는 여전히 시간이 많이 걸리고 하드웨어가 많이 필요합니다.
- 과잉적합 및 일반화 문제 때문에 초기 신경망은 훈련 데이터에서는 좋은 성과를 보였지만 보이지 않는 데이터에서는 성과가 좋지 않아 실제 응용 분야에서 신뢰성이 떨어졌습니다.
이러한 과제로 인해 많은 연구자들이 신경망에서 관심을 다른 분야로 옮기게 되었고, 이로 인해 해당 분야는 한동안 침체기를 겪었습니다.
4.8 딥러닝으로서의 부활(2000년대 후반~현재):
신경망 분야는 2000년대 후반과 2010년대 초반에 다음의 발전에 힘입어 다시 부활했습니다.
- 딥러닝 아키텍처 (CNN, RNN, Transformer, Diffusion Models)
- 하드웨어 (GPU, TPU, LPU)
- 대규모 데이터 세트 (ImageNet, COCO, OpenWebText, WikiText 등)
- 학습 알고리즘 (SGD, Adam, 드롭아웃)
이러한 발전은 컴퓨터 비전, 자연어 처리, 음성 인식 및 강화 학습에서 상당한 혁신을 가져왔습니다. 실용적인 발전과 결합된 범용 근사 정리는 딥 러닝 기술의 광범위한 채택과 성공을 위한 길을 열었습니다.
5. 합성곱 신경망(1980년대~2010년대)
합성곱 신경망(CNN)은 특히 컴퓨터 비전 및 이미지 처리 분야에서 딥 러닝의 풍경을 극적으로 변화시켰습니다. 1980년대에서 2010년대로의 진화는 아키텍처, 훈련 기술 및 애플리케이션에서 상당한 발전을 반영합니다.
5.1 초기 개발(1989-1998)
CNN의 개념은 1980년대에 켄지 후쿠시마가 처음 소개했는데, 그는 인간 시각 피질의 구조를 모방한 계층적 신경망인 Neocognitron 을 제안했습니다 . 이 선구적인 작업은 CNN 개발의 토대를 마련했습니다. 1980년대 후반과 1990년대 초반에 얀 르쿤과 그의 팀은 CNN을 더욱 발전시켜 손으로 쓴 숫자 인식을 위해 특별히 설계된 LeNet-5 아키텍처를 도입했습니다.
5.2 CNN의 핵심 구성 요소
CNN은 세 가지 핵심 구성 요소로 구성됩니다.
- 합성곱 계층 : 이러한 계층은 학습 가능한 필터 세트를 적용하여 입력 이미지의 특성의 공간적 계층을 자동으로 학습합니다.
- 풀링 레이어 : 풀링 레이어는 입력의 공간적 차원을 줄여 변화에 대한 견고성을 높이고 계산 부하를 줄입니다.
- 완전 연결 계층 : 합성곱 계층과 풀링 계층에 이어 완전 연결 계층은 분류 작업에 사용되어 이전 계층에서 학습한 기능을 통합합니다.
5.3 CNN의 주요 특징
- 지역적 수용 필드 : CNN은 지역적 수용 필드를 사용하여 입력 데이터의 지역적 패턴을 포착하므로 이미지 및 시각적 작업에 매우 효과적입니다.
- 공유 가중치 : 합성곱 계층에서 공유 가중치를 사용하면 네트워크의 매개변수 수가 줄어들어 훈련이 더 효율적이고 쉬워집니다.
- 변환 불변성: 풀링 레이어는 변환 불변성을 도입하여 네트워크가 입력 이미지에서의 위치와 관계없이 패턴을 인식할 수 있게 합니다.
5.4 CNN의 부상: AlexNet의 영향(2012)
2012년, AlexNet이 ImageNet 대규모 시각 인식 챌린지(ILSVRC)에서 우승하면서 CNN 개발에 있어 중요한 이정표가 세워졌습니다. AlexNet은 상당한 차이로 승리하여 이미지 분류에 있어 중요한 돌파구를 마련했습니다.
ILSVRC는 1,000개 이상의 주석이 달린 이미지 데이터 세트에서 알고리즘을 평가하는 연간 이미지 인식 벤치마크로, 1,000개 클래스로 분류됩니다. AlexNet의 혁신은 다음과 같습니다.
- ReLU 활성화 함수 : 기존 활성화 함수의 문제점을 극복하기 위해 도입된 ReLU는 더 빠른 학습
과 향상된 성능을 가능하게 했습니다. - 드롭아웃 정규화 : 이 기술은 훈련 중에 무작위로 단위를 삭제하여 과잉 맞춤을 줄였습니다.
- 데이터 증강 : 훈련 데이터 세트를 향상시켜 훈련 데이터의 다양성을 인위적으로 늘려 일반화를 개선했습니다.
AlexNet의 성공은 CNN 개발에 있어서 전환점을 가져왔으며, 이미지 분류 및 객체 감지 분야가 더욱 발전할 수 있는 길을 열었습니다.
AlexNet은 신경망의 세 번째 황금기를 열어줍니다
현재의 황금기(2010년대~현재)는 딥 러닝, 빅데이터, 강력한 컴퓨팅 플랫폼의 융합으로 특징지어집니다. 이 시대는 이미지 인식, 자연어 처리, 로봇 공학에서 놀라운 돌파구를 보였습니다. 지속적인 연구는 AI 역량의 경계를 넓히기 위해 계속되고 있습니다.
5.5 후속 아키텍처
AlexNet에 이어 여러 영향력 있는 아키텍처가 등장했습니다.
- VGGNet(2014) : 옥스퍼드의 Visual Geometry Group에서 개발한 VGGNet은 더 작은 합성 필터(3x3)로 더 깊은 아키텍처를 강조하여 놀라운 정확도를 달성했습니다.
- GoogLeNet/Inception(2014) : 네트워크가 다중 스케일 기능을 효율적으로 캡처할 수 있도록 하는 Inception 모듈을 도입했습니다.
- ResNet(2015) : 잔차 네트워크는 스킵 연결을 도입하여 사라지는 그래디언트 문제를 완화하면서 매우 깊은 네트워크의 학습을 가능하게 했습니다.
5.6 CNN의 응용
CNN의 발전은 다양한 분야에 혁명을 일으켰습니다.
- 컴퓨터 비전 : CNN은 현대 컴퓨터 비전의 중추가 되어 이미지 분류, 객체 감지, 의미 분할에 획기적인 발전을 가져왔습니다.
- 의료 영상 : CNN은 질병 진단, 종양 탐지, 영상 유도 수술과 같은 작업에 활용되어 진단 정확도를 크게 향상시킵니다.
- 자율 주행 자동차 : CNN은 자율 주행 자동차의 인식 시스템에 필수적이며, 이를 통해 주변 환경을 해석하고 대응할 수 있습니다.
CNN이 처음 생겨나서부터 딥 러닝의 초석이 되기까지의 여정은 AI에 미치는 엄청난 영향을 보여줍니다. CNN의 성공은 또한 딥 러닝의 추가 발전을 위한 길을 열었고 RNN과 Transformers와 같은 다른 전문 신경망 아키텍처의 개발에 영감을 주었습니다. CNN의 이론적 기반과 실질적 혁신은 다양한 도메인에서 딥 러닝 기술의 광범위한 채택과 성공에 크게 기여했습니다.
6. 순환 신경망(1986–2017)
순환 신경망(RNN)은 순차적 데이터를 처리하도록 설계되었습니다. 기존의 피드포워드 네트워크(MLP라고도 함)와 달리 RNN은 시퀀스 요소 간의 시간적 종속성을 포착할 수 있는 내부 숨겨진 상태 또는 "메모리"를 유지합니다. 이로 인해 RNN은 언어 모델링, 시계열 예측 및 음성 인식과 같은 작업에 특히 효과적입니다.
6.1 초기 개발(1980년대-1990년대)
RNN의 개념은 1980년대로 거슬러 올라가며, John Hopfield, Michael I. Jordan, Jeffrey L. Elman과 같은 선구자들이 이러한 네트워크의 개발에 기여했습니다. John Hopfield가 1982년에 도입한 Hopfield 네트워크는 신경망에서 순환 연결을 이해하는 토대를 마련했습니다. 1980년대와 1990년대에 각각 제안된 Jordan 네트워크와 Elman 네트워크는 순차적 데이터에서 시간적 종속성을 포착하려는 초기 시도였습니다.
RNN은 피드포워드 네트워크에 사용되는 표준 역전파 알고리즘의 확장인 시간 역전파(BPTT)를 사용하여 학습합니다. BPTT는 각 시간 단계를 계층으로 처리하여 시간에 따라 네트워크를 펼치는 것을 포함합니다. 순방향 패스 동안 입력 시퀀스가 처리되고 출력 계층에서 오류가 계산됩니다. 그런 다음 결과 그래디언트가 마지막 시간 단계에서 첫 번째 시간 단계로 역전파되어 RNN의 매개변수가 업데이트됩니다. 그러나 RNN은 그래디언트가 매우 작아져 학습이 이루어지지 않는 Vanishing Gradient 문제로 인해 긴 시간 종속성을 학습하는 데 어려움을 겪습니다. 반대로 그래디언트가 너무 커져 불안정한 학습이 발생할 수 있으며 이를 Exploding Gradient 문제라고 합니다.
6.2 LSTM, GRU 및 Seq2Seq 모델(1997~2014)
- Long Short-Term Memory(LSTM) 네트워크(1997) : Sepp Hochreiter와 Jürgen Schmidhuber는 기존 RNN의 사라지는 그래디언트 문제를 해결하기 위해 LSTM 네트워크를 도입했습니다. LSTM은 게이팅 메커니즘을 사용하여 정보 흐름을 제어하여 순차적 데이터에서 장기 종속성을 캡처할 수 있습니다. 셀 상태( 장기 정보 저장), 숨겨진 상태( 현재 시간 단계에 대한 단기 출력을 전달), 3개의 게이트(입력, 망각, 출력 게이트)로 구성됩니다. 각 단계에서 LSTM은 여러 수학 연산과 게이트를 기반으로 얼마나 많은 정보를 잊을지, 얼마나 많은 정보를 셀 상태에 추가할지, 그리고 다음 단계에 얼마나 많은 정보를 출력할지 결정합니다.
- Gated Recurrent Units (GRUs) (2014) : Kyunghyun Cho 등은 정보 흐름을 조절하기 위해 게이팅 메커니즘을 사용하는 LSTM의 간소화된 버전인 GRU를 소개했습니다. 3개의 게이트와 2개의 상태를 갖는 LSTM과 달리 GRU는 2개의 게이트와 1개의 상태로 작동합니다. LSTM의 Forget 및 Input 게이트는 단일 Update 게이트로 병합되어 얼마나 많은 과거 정보를 보관하고 얼마나 많은 새 정보를 통합할지 결정합니다. 또한 LSTM의 Output 게이트는 GRU의 Reset 게이트로 대체되어 새 정보를 통합하기 전에 얼마나 많은 과거 정보를 "재설정"하거나 잊을지 결정합니다. GRU는 LSTM보다 매개변수가 적어서 종종 학습 속도가 빠릅니다.
- Sequence-to-Sequence Models (Seq2Seq) (2014) : Ilya Sutskever와 그의 팀은 인코더-디코더 아키텍처를 사용하여 입력 시퀀스를 출력 시퀀스에 매핑하는 Seq2Seq 모델을 도입했습니다. 이 모델은 기계 번역, 음성 인식, 텍스트 요약과 같은 작업에 널리 사용되었습니다.
6.3 RNN 응용 프로그램
RNN은 다음을 포함한 다양한 분야에 상당한 영향을 미쳤습니다.
- 자연어 처리 : RNN은 자연어 처리 분야에 혁명을 일으켜 언어 모델링, 기계 번역, 감정 분석, 텍스트 생성과 같은 작업에 상당한 진전을 가져왔습니다.
- 음성 인식 : RNN은 음성 인식 시스템에서 널리 사용되며, 말한 언어의 시간적 종속성을 모델링하여 음성 신호를 텍스트로 변환합니다.
- 시계열 예측 : RNN은 순차적 데이터의 시간적 종속성을 모델링하여 미래 값을 예측하는 시계열 예측에 효과적입니다.
6.4 RNN의 과제
성공에도 불구하고 RNN은 몇 가지 과제에 직면합니다.
- 사라지는 기울기와 폭발하는 기울기 : 기존 RNN은 이런 문제에 어려움을 겪었지만 LSTM과 GRU는 몇 가지 솔루션을 제공합니다.
- 계산 복잡도 : RNN을 훈련하는 데는 많은 리소스가 필요할 수 있으며, 특히 데이터 세트가 큰 경우 더욱 그렇습니다.
- 병렬화 : RNN의 순차적 특성은 병렬 학습 및 추론 과정을 복잡하게 만듭니다.
RNN의 성공은 딥 러닝의 추가 발전을 위한 길을 열었고, 다양한 순차적 데이터 작업에서 최첨단 성능을 달성한 Transformers와 같은 다른 전문화된 신경망 아키텍처의 개발에 영감을 주었습니다. RNN의 이론적 기반과 실질적인 혁신은 다양한 도메인에서 딥 러닝 기술의 광범위한 채택과 성공에 크게 기여했습니다.
7. Transformer (2017-현재)
변환기는 순차적 데이터를 처리하는 뛰어난 능력으로 딥 러닝의 모습을 바꾸어 놓았으며, 자연어 처리(NLP)부터 컴퓨터 비전에 이르기까지 여러 분야에서 핵심적인 역할을 하게 되었습니다.
7.1 Transformer의 소개 (2017)
Transformer 모델은 Vaswani et al. (2017)이 획기적인 논문 " Attention is All You Need"에서 소개했습니다. 이 모델은 RNN의 기존 순차적 처리를 포기하고 셀프 어텐션 메커니즘을 도입하여 병렬 처리와 장거리 종속성의 더 나은 처리를 가능하게 했습니다.
7.2 트랜스포머의 주요 특징
- 셀프 어텐션 메커니즘 : 시퀀스의 각 위치가 모든 위치에 주의를 기울일 수 있어 RNN이나 LSTM보다 더 유연하게 맥락을 포착합니다.
- 병렬화 : 모든 입력 데이터를 동시에 처리하여 학습 속도를 향상시킵니다. 이는 RNN의 순차적 특성과 극명하게 대조됩니다.
- 인코더-디코더 구조: 인코더와 디코더 스택은 모두 셀프 어텐션 및 피드포워드 신경망 계층을 활용하며, 위치 인코딩을 통해 시퀀스 순서를 유지합니다.
7.3 Transformer 기반 언어 모델(2017년 ~ 현재)
- BERT(2018): 인코더 전용 변환기 인 Transformers의 양방향 인코더 표현은 마스크 언어 모델링과 다음 문장 예측에 대한 사전 학습을 통해 NLP에 혁명을 일으켰습니다.
- T5(2019): 인코더-디코더 변환기 인 텍스트-텍스트 전송 변환기 는 NLP 작업을 텍스트-텍스트 형식으로 재구성하여 모델 아키텍처와 교육을 단순화합니다.
OpenAI의 GPT 시리즈 개요
OpenAI의 Generative Pre-trained Transformer(GPT) 시리즈는 2018년 출시 이후 자연어 처리(NLP) 분야를 크게 발전시켰습니다. 각 반복은 이전 반복을 기반으로 구축되어 향상된 기능을 갖춘 더 큰 모델을 도입했습니다. 각 버전에 대한 자세한 개요는 다음과 같습니다.
- GPT(2018): 원래 GPT 모델은 2018년에 1억 1,700만 개의 매개변수를 가진 자기회귀 디코더 전용 변환기 로 소개되었습니다. 시퀀스에서 다음 토큰(하위 단어)을 예측 하도록 설계되어 인간과 유사한 텍스트를 이해하고 생성하는 강력한 역량을 보여주었습니다. 이 기초 모델은 생성 언어 모델의 후속 개발을 위한 토대를 마련하여 대규모 텍스트 코퍼스에서 비지도 학습의 잠재력을 보여주었습니다.
- GPT-2(2019): 2019년에 출시된 GPT-2는 모델 크기와 기능에서 상당한 도약을 보여 최대 15억 개의 매개변수 까지 확장되었습니다. 이 버전은 특정 훈련 없이도 작업을 수행할 수 있는 제로샷 작업 성능 과 같은 새로운 능력을 보여주었습니다 . 그러나 일관되지만 때로는 오해의 소지가 있는 텍스트를 생성하는 능력은 특히 가짜 뉴스나 잘못된 정보를 생성하는 데 있어 잠재적인 오용에 대한 윤리적 우려를 불러일으켰습니다.
- GPT-3(2020): 2020년에 공개된 GPT-3는 모델 크기를 인상적인 1,750억 개의 매개변수 로 더욱 확장했습니다 . 이 모델은 프롬프팅 중에 제공된 최소한의 예제를 기반으로 다양한 작업에 적응할 수 있는 few-shot 학습 에서 놀라운 능력을 보여주었습니다 . 인간과 유사한 텍스트를 생성할 수 있는 능력은 콘텐츠 생성, 코딩 지원, 대화형 에이전트를 포함한 수많은 응용 프로그램을 위한 다재다능한 도구가 되었습니다. GPT-3의 아키텍처는 광범위한 미세 조정 없이도 광범위한 NLP 작업을 수행할 수 있게 해주어 당시 사용 가능한 가장 강력한 언어 모델 중 하나라는 지위를 굳건히 했습니다.
- ChatGPT(2022) : 인간 피드백(RLHF)을 통한 강화 학습을 통해 여러 차례 대화에 최적화된 미세 조정된 GPT-3.5 모델은 후속 질문 처리와 맥락 유지, 명령어 조정 및 선호도 데이터를 통해 사용자 의도에 맞춰 응답을 조정하는 데 탁월합니다.
- GPT-4(2023): 2023년에 출시된 최신 버전인 GPT-4는 기능과 매개변수를 모두 확장하는 추세를 이어가고 있지만, 아키텍처와 매개변수 수에 대한 구체적인 세부 사항은 지금까지 완전히 공개되지 않았습니다. 특히 복잡한 맥락을 추론하고 이해하는 분야에서 이전 모델에서 보였던 성능을 더욱 향상시킬 것으로 예상됩니다.
7.4 기타 잘 알려진 대규모 언어 모델(LLM)
대규모 언어 모델(LLM)의 풍경은 다양한 저명한 모델에 의해 상당히 풍부해졌으며, 각각은 인공 지능에서 고유한 기능과 발전을 제공합니다. 다음은 잘 알려진 LLM에 대한 업데이트된 개요입니다.
- Anthropic의 클로드(2022): AI 출력에서 안전과 윤리적 고려 사항을 우선시하여 인간의 가치와 일치시키는 것을 목표로 합니다.
- Meta의 LLaMA(2023): 다양한 계산적 요구에 맞춰 다양한 크기의 모델을 제공하며, 자연어 처리 벤치마크에서 인상적인 결과를 보였습니다.
- Mistral.AI의 Mistral(2023): 오픈소스 AI 솔루션에 중점을 두고 실시간 애플리케이션에 적합하며 고성능과 리소스 효율성의 균형을 유지합니다.
- 알리바바의 Qwen(2023년): 영어와 중국어를 위한 고품질의 이중어 AI 모델을 만들어, 여러 언어의 응용 프로그램을 용이하게 하고 혁신을 촉진합니다.
- Microsoft의 Phi(2023): 상황에 맞는 이해와 사용자 상호 작용을 위한 고급 교육 기술을 통해 다양한 애플리케이션에서 다양성과 통합을 강조합니다.
- Google의 Gemma 시리즈(2024): 성능과 효율성에 중점을 두고 텍스트 생성, 요약 및 추출을 포함한 다양한 응용 프로그램을 위한 가볍고 최첨단 오픈 모델입니다.
8. 멀티모달 모델(2023-현재)
8.1 GPT-4V(2023) 및 GPT-4o(2024)
- GPT-4V(2023)는 이미 강력한 텍스트 기반 모델에 멀티모달 기능을 통합하여 AI 개발에서 중요한 단계를 나타냈습니다. 텍스트뿐만 아니라 이미지에서도 콘텐츠를 처리하고 생성할 수 있어 보다 포괄적인 AI 상호 작용을 위한 토대를 마련합니다.
- GPT-4V에서 진화한 GPT-4o(2024) 는 정교한 맥락적 이해를 통해 향상된 멀티모달 통합을 제공합니다. 다양한 미디어에서 더 나은 일관성, 텍스트 프롬프트에서 고급 이미지 생성, 시각적 입력을 기반으로 한 정교한 추론을 제공하여 이전 버전보다 개선되었습니다. 또한 GPT-4o에는 윤리적 정렬을 위한 고급 교육 메커니즘이 포함되어 있어 출력이 정확할 뿐만 아니라 책임감 있고 인간의 가치와 일치하도록 보장합니다.
8.2 구글의 제미니(2023년~현재)
- Gemini Pro(2023): Google의 Gemini는 텍스트, 이미지, 오디오 및 비디오 처리를 통합하여 멀티모달 작업을 위해 설계된 모델 패밀리를 소개합니다. 특히 Gemini Pro는 확장성과 효율성으로 두드러지며, 실시간 분석에서 다양한 미디어 형식에 걸친 복잡한 콘텐츠 생성에 이르기까지 다양한 애플리케이션에 고급 AI를 사용할 수 있게 합니다.
- Gemini의 멀티모달 기능 : 다양한 규모의 애플리케이션을 위한 Ultra 및 Nano 버전을 포함한 Gemini 모델은 여러 데이터 유형에 대한 이해가 필요한 작업을 수행하도록 설계되었습니다. 비디오 요약, 멀티모달 번역 및 대화형 학습 환경과 같은 작업에서 탁월하여 멀티미디어 컨텍스트에서 AI의 역할을 발전시키려는 Google의 의지를 보여줍니다.
8.3 클로드 3.0 및 클로드 3.5(2023년~현재)
- Anthropic에서 도입한 Claude 3.0(2023) 은 맥락적 이해와 윤리적 고려 사항을 개선하여 AI 응답의 안전성과 신뢰성을 강화하는 데 중점을 두고 있습니다. 해롭거나 편향된 출력을 피하는 엄격한 준수를 유지하면서 더 대화적이고 도움이 되도록 설계되었습니다.
- Claude 3.5(2024)는 Claude 3.0의 기능을 더욱 개선하여 복잡한 작업에서 더 나은 성능을 제공하고, 처리 효율성을 높이고, 사용자 요청을 더욱 섬세하게 처리합니다. 이 버전은 멀티모달 상호 작용을 강조하지만, 주로 텍스트 및 논리적 작업에 뛰어나며, 보다 통합된 사용자 경험을 위해 시각적 또는 기타 감각적 입력을 처리하는 기능이 새롭게 등장했습니다.
8.4 LLaVA(2023)
- LLaVA(Large Language and Vision Assistant)는 언어 이해와 시각 처리를 결합한 멀티모달 AI에 대한 혁신적인 접근 방식을 나타냅니다. 2023년에 개발된 LLaVA는 이미지를 해석하고 텍스트 콘텐츠와 연관시켜 이미지에 대한 질문에 답하고, 시각적 콘텐츠를 설명하거나, 심지어 시각적 단서를 기반으로 텍스트를 생성할 수 있습니다. 이 아키텍처는 변환기 모델의 강점을 활용하여 시각적 및 언어적 이해가 모두 필요한 작업에서 최첨단 성능을 달성합니다. 이 모델은 특히 오픈 소스 특성으로 유명하여 멀티모달 AI 애플리케이션에서 추가 연구 및 개발을 장려합니다.
이러한 모델은 텍스트를 이해하고 생성할 뿐만 아니라 다양한 모달리티에서 콘텐츠를 해석하고 생성하여 인간의 인지 능력을 보다 밀접하게 반영하는 AI 시스템으로의 전환을 총체적으로 나타냅니다. AI 모델의 이러한 진화는 더욱 상호 작용적이고 직관적이며 다양한 감각 입력을 혼합하여 실제 시나리오를 처리할 수 있는 애플리케이션을 촉진하여 AI가 일상 생활, 연구 및 산업 애플리케이션에서 달성할 수 있는 지평을 확장합니다.
9. Diffusion 모델(2015-현재)
Difussion 모델은 생성 모델의 영향력 있는 범주로 부상하여 복잡한 데이터 분포에서 고충실도 샘플을 만드는 새로운 방법론을 제공합니다. 그들의 접근 방식은 수많은 응용 분야에서 탁월한 성과를 거둔 점진적인 노이즈 제거 기술을 채택함으로써 GAN 및 VAE와 같은 기존 모델과 대조됩니다.
9.1 확산 모델 소개(2015)
기초 작업은 Sohl-Dickstein 등(2015)이 Difussion 모델을 소개하는 논문을 통해 마련했습니다. 그들은 점진적인 노이즈 추가를 역전하여 노이즈를 다시 구조화된 데이터로 변환할 수 있는 생성 프로세스를 개념화했습니다.
9.2 Difussion 모델의 주요 특징
- 노이즈 제거 프로세스: 이 모델은 단계적으로 노이즈를 추가하고(순방향 프로세스) 이를 역방향으로 처리하는 방법(역방향 프로세스)을 학습하여 효과적으로 노이즈를 제거하여 샘플을 생성합니다.
- 마르코프 체인: 두 프로세스 모두 마르코프 체인으로 구조화되어 있으며, 각 순방향 단계에 가우시안 노이즈가 추가되고 모델은 역방향으로 이를 제거하는 방법을 학습합니다.
- 훈련 목표: 각 단계에서 예측된 노이즈와 실제 노이즈 간의 차이를 최소화하고, 증거 하한(ELBO)의 형태를 최적화하는 것이 목표입니다.
- 안정성과 견고성: GAN보다 안정성이 뛰어나 모드 붕괴와 같은 문제를 피하고 다양하고 고품질의 출력을 지속적으로 생성합니다.
9.3 Difussion 모델의 발전(2020-현재)
- Denoising Diffusion Probabilistic Models (DDPM)(2020):
확산 과정을 개선하여 이미지 합성의 새로운 기준을 제시했습니다. - Denoising Diffusion Implicit Models (DDIM)(2021):
비마르코프 샘플링으로 효율성을 높여 생성 프로세스를 더 유연하게 만듭니다. - Score-Based Generative Model through Stochastic Differential
Equations
(2021): 효율적인 샘플 생성을 위해 확률적 미분 방정식을 활용했습니다. - Latent Diffusion Model(2022) : 안정적 확산과 같은 인기 있는 텍스트-이미지 생성 시스템의 기반이 되어 AI 생성 이미지 분야를 크게 발전시키고 보다 접근성 있고 효율적인 생성 AI 도구를 위한 길을 열었습니다.
9.3 텍스트-이미지 생성
DALL-E 3 및 Stable Diffusion 3와 같은 모델은 텍스트 설명으로부터 고품질 이미지를 생성하는 데 탁월합니다. DALL-E 3는 세부적이고 정확한 시각적 정보를 제공하고 Stable Diffusion은 이미지 생성 기술에 대한 접근성을 민주화하는 오픈 소스 대안을 제공합니다.
- FLUX.1(2024): Black Forest Lab은 AI 이미지 생성을 위한 고급 확산 모델인 FLUX.1을 공개했습니다. 이 모델은 뛰어난 속도, 품질, 신속한 준수를 제공합니다. Schnell, Dev, Pro의 세 가지 버전으로 제공되는 FLUX.1은 Rectified Flow Transformers와 같은 혁신적인 기술을 활용하여 매우 사실적인 이미지를 생성합니다. FLUX.1은 텍스트를 생성하고 손가락과 발가락과 같은 세부 사항을 처리할 수 있습니다. 이는 좋은 이미지 생성기에 필요한 모든 것입니다.
- DreamBooth(2022): 특정 주제의 몇 장의 이미지에 대한 확산 모델을 훈련하여 개인화된 이미지를 생성할 수 있습니다.
- LoRA(2022): Low-Rank Adaptation의 약자로, 최소한의 추가 매개변수로 확산 모델을 미세 조정할 수 있는 기술로, 특정 작업이나 데이터 세트에 맞게 모델을 조정하기 쉽습니다.
- ControlNet(2023): 스케치나 깊이 맵과 같은 추가 입력에 대한 조건 확산 모델을 제공하여 생성된 이미지에 대한 제어를 강화합니다.
- Multi-SBoRA(2024) : Multi-SBoRA는 다중 개념에 대한 확산 모델을 사용자 정의하기 위한 새로운 방법입니다. 직교 표준 기반 벡터를 사용하여 미세 조정을 위한 저랭크 행렬을 구성하여 교차 개념 간섭을 줄이는 지역 및 비중첩 가중치 업데이트를 허용합니다. 이 접근 방식은 사전 학습된 모델의 지식을 보존하고, 계산 오버헤드를 줄이며, 모델 유연성을 향상시킵니다. 실험 결과에 따르면 Multi-SBoRA는 독립성을 유지하고 크로스토크 효과를 완화하면서 다중 개념 사용자 정의에서 최적의 성능을 달성합니다.
확산 모델 연구의 궤적은 다양한 AI 아키텍처의 장점을 결합하면서 속도와 품질을 최적화하는 통합 모델에 대한 잠재력을 갖추고 있어 밝은 미래를 보여줍니다.
9.4 텍스트-비디오: OpenAI Sora(2024)
OpenAI Sora는 OpenAI의 멀티모달 AI 오퍼링의 기능을 확장하는 새로운 텍스트-비디오 생성 모델입니다. 이 모델을 사용하면 사용자가 텍스트 설명에서 비디오를 만들어 텍스트와 동적 시각적 콘텐츠 간의 격차를 효과적으로 메울 수 있습니다. Sora가 멀티모달 프레임워크에 통합되면 창의적인 애플리케이션의 잠재력이 향상되어 사용자가 최소한의 입력으로 풍부한 멀티미디어 콘텐츠를 생성할 수 있습니다. 이 개발은 복잡한 형태의 미디어를 이해하고 생성할 수 있는 보다 직관적이고 상호 작용적인 AI 시스템을 향한 중요한 단계를 의미합니다.
10. 결론
AI와 딥 러닝의 역사는 상당한 진전과 변혁적 혁신으로 특징지어집니다. 초기 신경망부터 합성곱 신경망(CNN), 순환 신경망(RNN), 트랜스포머, 확산 모델과 같은 정교한 아키텍처에 이르기까지 이 분야는 다양한 도메인에 혁명을 일으켰습니다.
최근의 발전으로 OpenAI의 GPT-4o, Google의 Gemini Pro, Antropic의 Claude 3.5 Sonnet, Meta의 LLaMA3.1과 같은 대규모 언어 모델(LLM)과 대규모 멀티모달 모델(LMM)이 개발되어 인상적인 자연어 및 멀티모달 기능을 보여줍니다. 또한 Midjourney, DALL-E 3, Stable Diffusion, FLUX.1, Sora와 같은 텍스트-이미지 및 텍스트-비디오 생성 모델을 포함한 생성 AI의 획기적인 발전으로 AI의 창의적 잠재력이 확장되었습니다.
확산 모델은 다양한 응용 프로그램을 갖춘 강력한 생성 모델로 등장했습니다. 연구가 더 효율적이고 해석 가능하며 유능한 모델을 개발하는 데 계속 집중함에 따라 AI와 딥 러닝이 사회와 기술에 미치는 영향은 커질 뿐입니다. 이러한 발전은 기존 분야에서 혁신을 주도하고 창의적인 표현, 문제 해결 및 인간-AI 협업을 위한 새로운 가능성을 창출하고 있습니다.
그러나 딥 러닝이 AI에 대한 유일하거나 가장 좋은 접근 방식은 아닙니다. 심볼릭 AI, 강화 학습, 신경 심볼릭 AI는 고유한 강점을 제공하며 해석 가능성 및 계산 리소스 요구 사항과 같은 딥 러닝의 한계를 해결합니다. AI에 대한 포괄적인 관점은 이러한 다양한 방법론을 포괄해야 합니다.
AI의 미래는 여러 접근 방식의 시너지에 있습니다. 연구가 진행됨에 따라 다양한 AI 기술 생태계를 육성하면 균형 잡히고 효과적인 진화가 보장되어 사회와 기술 모두에게 이롭습니다.
원문