본문으로 바로가기
반응형

CNN (Convolutional Neural Network)

  • 주요 특징:
    이미지 데이터를 처리하는 데 특화
    컨볼루션 필터를 이용해 중요한 특징(엣지, 색상 등)을 추출
    이미지 분류, 객체 탐지, 스타일 변환 등에 사용
  • 현재 사용 여부: 여전히 많이 사용됨(O)
    → 이미지 처리 분야에서는 여전히 필수적인 모델

근데 요즘은 YOLO(You Only Look Once)를 많이 쓴다고 한다.

CNN은 약간 기초 아키텍처 느낌. 물론 Trasformer 아키텍처 기반으로 한 Vit 아키텍처가 최근 2021년에 출시되었다. 

 

RNN (Recurrent Neural Network)

  • 주요 특징:
    시퀀스(연속된 데이터) 처리 가능
    과거 정보를 활용해 현재 상태를 결정
    하지만 "장기 의존성 문제" 존재 → 기억력이 약함
  • 현재 사용 여부: 거의 안 씀 (Transformer로 대체됨)
    → 병렬 연산 불가능, 속도가 느리고 긴 문장을 잘 처리하지 못함

LSTM (Long Short-Term Memory)

  • 주요 특징:
    RNN의 단점(장기 의존성 문제)을 해결
    셀 상태(cell state)를 통해 장기 기억 가능
    입력 게이트, 망각 게이트, 출력 게이트라는 3가지 중요한 게이트를 가진다
    번역, 음성 인식, 주가 예측 등에 사용됨
  • 현재 사용 여부: 거의 안 씀 (Transformer로 대체됨)
    → 병렬 연산이 어렵고, 트랜스포머 기반 모델보다 성능이 떨어짐

결국 RNN을 보완하고자 LSTM이 만들어졌는데 이것조차도 Transformer로 대체 되었다.

 

기존 RNN, LSTM 한계점은 문장이 길명 앞의 내용이 잘 전달되지 않는다는 점이다.

그렇기에 모든 단어를 다 참고하되, 중요한 단어에 더 집중하면 되지 않을까?

 

그래서 나온게 Attention 이라는 개념

-> 중요한 단어는 크게, 덜 중요한 단어는 작게!!

 

이에 따라 Self-Attention 이라는 개념도 파생됨.

문장안에서 각 단어들이 서로 얼마나 중요한지 보는 것

 

 

 

Transformer 

  • 주요 특징:
    RNN/LSTM보다 빠르고 정확함
    Self-Attention 메커니즘을 사용해 문장 내 단어 간 관계를 잘 이해
    병렬 연산 가능 → 학습 속도가 빠름
    번역, 텍스트 요약, 질의응답 등에 최적화
  • 인코더(문장을 이해하는 부분), 디코더(문장을 만들어내는 부분) 로 이루어져 있다
  • 현재 사용 여부: 대부분의 NLP 모델이 Transformer 기반
    → LSTM/RNN은 거의 사용되지 않고, Transformer가 표준이 됨

2017년 에 만들어졌고 자연어처리(NLP)의 혁명 그 자체라고 할 수 있다!!

Attention is all you need 논문에서 제시된? 고안된? 아키텍처이다.

 

 

Bert

  • Transformer의 Encoder 부분을 기반으로 양방향 학습
  • 입력 문장의 앞뒤 문맥을 모두 고려하여 단어를 이해하는데 중점을 둔다

GPT (Generative Pre-trained Transformer):

Transformer 기반의 텍스트 생성 모델

Transformer 디코더 구조를 활용한 대표적인 모델
 방대한 데이터로 사전 학습 후, 특정 태스크에 파인튜닝 가능
"다음 단어 예측"을 통해 자연스러운 문장 생성 가능

문맥이 복잡한 경우에는 예측의 정확도가 떨어질 수 있다.

 

결론적으로 BERT는 출력 생성에 한계점이, GPT는 문장 이해에 한계점이 있다.

이는 결국 각 아키텍처가 기반으로 하는 게 인코더, 디코더이기 때문이다.

반응형