python(12)
-
트랜스포머 어텐션(Transformer attention)
CNN은 커널을 이용하기 때문에 이미지의 특징을 추출하는 데 국소적인 부분만 고려하고, RNN은 시간의 흐름에 따라 점점 과거의 정보가 흐려짐 이를 극복하기 위해 RNN계열 알고리즘을 사용하는 어텐션 메커니즘 등장 어텐션 : 뇌가 가장 중요하고 연관성 있는 정보에 집중하는 것 - 어텐션 값 : 문장의 특정 단어를 볼때 문장 내의 다른 단어와의 연관성 (높다, 낮다) 트랜스포머 (2017) : 순환신경망을 사용하지않고, 순수하게 어텐션메커니즘으로 구성된 인코더-디코더 모델 - 인코더에서 모든 단어 동시에 고려 - 인코더-디코더를 여러개 중첩시킨 구조로 어텐션을 극대화함 - 기계번역알고리즘 트랜스포머의 전체적인 구조 1. 인코더는 인코더 블록을 N번 반복(중첩) 2. 디코더는 디코더 블록을 N번 반복 3. ..
2023.12.01 -
GAN 파생 기술(DCGAN, CGAN ..etc)
배경 : GAN은 생성자와 판별자가 서로 적대하면서 학습하는 구조이기 때문에, 학습이 매우 불안정( 균형이 무너진 훈련으로 인한 정상적 분류 불가능한 상태 ) DCGAN ( GAN + CNN ) 등장 (2015) : 입력된 이미지를 바탕으로 그것과 매우 유사한 가짜 이미지 생성을 위해 임의의 노이즈 값을 사용한 모델 - 고화질의 이미지를 생성한 최조의 GAN모델 (이후,더욱 개선된 2017년 WGAN, 2018년 PGGAN 등장 ) - WGAN : 거리측도를 바꿈으로써 고화질의 이미지 생성 - PGGAN : 1024*1024 고해상도 이미지를 생성하기 위해 4*4 저해상도 이미지부터 해상도를 높여가며 학습하는 모델 DCGAN 구성 - Progect and reshape Block : 임의의 입력으로 주어..
2023.11.24 -
적대적 생성 신경망 GAN(Generative Adversarial Networks)
위조 지폐범 vs 경찰 - 위조 지폐범 : 경찰관이 구별해내지 못하도록 가짜돈을 위조 - 경찰관 : 진짜 돈과 가짜 돈을 구분 - 엔딩 : 경찰관이 진짜 돈과 가짜 돈을 구별하지 못하게 될 때 암묵적 추정 방식 : 확률분포를 명시적으로 추정하지 않고 샘플을 생성하기 위해 확률분포를 간접적으로 표현하는 방식 - GAN은 잠재변수 z를 복잡한 고차원의 확률분포를 따르는 샘플 x로 변환한다. GAN의 구성요소 - GAN : 진짜와 가짜를 구별할 수 없을 정도로 정교한 가짜를 만드는 생성자를 학습하는 알고리즘 - 생성자와 판별자가 적대적 관계에서 경쟁하면서 훈련하는 방식으로 내시균형* 상태에 도달하면 끝난다. 1. 생성자 - 가짜 데이터를 만들면서 판별자가 진짜라고 속을 때 까지 학습 - 특징공간에 있는 임의의..
2023.11.17 -
변형 오토인코더
- AE : 입력 이미지가 잠재공간(latent space)의 한 포인트에 매핑 - VAE : 이미지가 잠재공간(latent space)에 있는 포인트 주변의 정규 분포에 매핑 -> AE는 앞단인 Encoder를 찾는 것이 목적이지만, VAE는 뒷단의 Decoder 네트워크를 학습하는 것이 목적 오토인코더(AE) - 입력 이미지 -> 인코더 -> 압축 -> 디코더 -> 재구성된 출력 이미지 - 목표 : 데이터 벡터에 대한 차원을 축소하여 실제 이미지와 동일한 이미지를 출력하는 것 - 생성된 데이터의 확률분포에는 관심이 없음 - 유사한 새로운 데이터 생성할 수 없음 변형 오토인코더 (VAE) - 목표 : 데이터가 만들어지는 확률 분포를 찾아 비슷한 데이터를 생성하는 것 ( = 확률분포를 이용해 어떤 새로운..
2023.11.09 -
오토인코더
오토인코더 구조 (입력 - 출력) 지도학습 / 비지도학습 분류 모델 - 지도학습모델 : 정답이 존재하는 데이터들을 학습하여 예측값과 정답값이 같아지도록 훈련시키는 모델 -> 입력 - 출력쌍이 이미 정의된, 정답클래스를 명시해둔 데이터로 네크워크를 학습한 내용을 바탕으로 실제 클래스 예측 - 비지도학습모델 : 정답이 존재하지 않는 데이터들을 학습하여 그 안의 패턴이나 데이터간 유사도를 학습하는 모델 -> 입력 - 출력쌍이 정의되지 않은, 정답이 없는 데이터들을 알아서 학습시켜 비슷한 데이터끼리 모음(ex. 군집화) 오토인코더모델은 비지도학습의 대표 모델이다. 오토인코더의 구성 요소 - 인코더 구조 : 일련의 레이어를 이용하여 노드를 감소시킴 - 잠복공간 : 줄어든 입력 정보가 보존되는 가장 낮은 라벨 공간..
2023.10.20 -
U-Net
Unet 구조도 - 정보를 압축하는 인코더와 정보로부터 이미지를 복원하는 디코더로 구성됨 - 정보손실을 줄이기 위해 , 원본 이미지와 유사하게 하기 위해 다운샘플링의 출력결과를 업샘플링의 입력과 합침 인코더-디코더 - 컴퓨터가 이해할수 있는 언어로 변경하는 것을 인코더, 컴퓨터 언어를 사람이 이해할수 있는 언어로 변경하는것을 디코더라고 한다. - U-Net의 인코더 구조 : 기본블록(합성곱층 두번, 풀링층 한번) 5개로 구성되나, 마지막 블록에서는 풀링을 하지 않는다. -> 인코더를 통해 합성곱을 이용해 이미지로부터 특징 추출한다. - U-Net의 디코더 구조 : 기본블록(업샘플링 한번, 합성곱 두번) 4개로 구성되나, 마지막 블록은 합성곱을 3번 사용한다. -> 마지막 합성곱은 신경망의 출력을 결정한다..
2023.10.20