python(12)
-
[Pycharm] 윈도우에서 AIhub 데이터 셋 다운로드 방법 (aihubshell)
AIhub 에서 데이터 셋을 다운받는 방법 기본적으로 Window상에서는 리눅스용 윈도우 하위 시스템을 설치하거나 INNORIX-EX-Agent 응용프로그램을 설치한 후 데이터 셋을 다운받을 수 있습니다. 이러한 방식을 복잡할뿐만 아니라 데이터 셋 크기가 크다면, zip 파일이 열리지 않는 경우가 발생하기도 합니다. 이를 Pycharm을 사용하여 보다 간단하게 진행할수 있는 방법을 설명드리려고 합니다. 먼저 pycharm에 데이터 셋에 맞는 환경을 구축한 후 여기서 aihubshell을 다운받아 프로젝트 파일에 넣습니다. 그런 다음, 인터넷에 나와 있는 방법을 통해 파이참에 ubuntu를 설치합니다.제가 한지 오래돼서 기억은 나지 않지만 관리자 권한으로 실행한 후 위 사진 처럼 wsl --in..
2024.10.18 -
커널 방법 이론(kernel method, kernel trick)
Hwjeong 머신러닝 강의노트 (바로가기) - kernel trick Hal Daumé III, A Course in Machine Learning, 2013 * 본 게시물은 필자가 공부를 위해 쓴 게시물입니다. 특정 공간을 명시적으로 확장하는 대신, 원래 데이터 표현을 유지하면서 암묵적으로 모든 특징을 확장하는 기법 배경 - linearly separable 가능 -> liner boundry기반으로 classification 가능 - linearly inseparable함 (경계만들어서 분류 불가능) linearly inseparable한 training data들을 linearly separble하게 만들고 싶음 - 고차원으로 매핑(특징공간 확장) - 특징벡터 x를 확장된 Φ(x)로 매핑 - 2차..
2024.01.16 -
앙상블 기법(Ensemble Methods)
여러개의 분류기를 생성하고 그 예측을 결합하여 최종예측을 도출하는 기법. 즉 여러 약한학습기들의 결합으로 강한 학습기를 만들어내어 정확한 예측을 돕는 방식 앙상블 기법의 특징과 종류 : 결정 트리 단점을 많은 분류기(모델)을 결합하여 학습 시켜 극복함 - 특정 조건 하에서 다양하고 독립적인 모델들을 결합하면 개별 모델보다 더 나은 성능을 얻을 수 있음 - 분류기의 분산 줄이는 경향 있음 - 모든 분류기가 동일한 오류를 발생시키지 않음 - 데이터 변경에 민간함 알고리즘에 유용함 앙상블 분류기가 잘못된 예측을 할 확률 (P) - 25개의 기본 분류기(k)가 있다고 가정 - 각 분류기의 오류율은 e = 0.35로 가정 - 분류기들은 서로 독립적이라고 가정 - e^(25-k) : 각 분류기가 오류를 할 확률 -..
2024.01.09 -
K-최근접 이웃 알고리즘(K-Nearest Neighbor, KNN)
입력 데이터를 가장 가까운 속성(유사성)에 따라 분류하여 레이블링 하는 지도학습 알고리즘 패스트캠퍼스 Gareth James et al., An Introduction to Statistical Learning: with Applications in Python, Springer, 2023 * 본 게시물은 필자가 공부를 위해 쓴 게시물입니다. 지도학습(Supervised Learning) : 정답이 주어졌을 때, 모델의 출력이 정답과 유사해지도록 학습 기본개념 - 각 차원 : 하나의 특징(특정 벡터) - 각 예제 : 고차원 공간에서의 점 (특정값의 집합) - 고차원 공간의 벡터 -> 기하학( 기계 학습의 개념 )을 적용할 수 있음 - 벡터 공간에서 두 점 사이의 거리 계산 (유클리드 거리 사용) - 특정..
2024.01.09 -
결정트리(Decision trees) 이론
규칙을 학습을 통해 자동으로 습득하고, 분류 규칙을 생성하는 지도 학습 모델(분류, 회귀), 머신러닝 알고리즘 Gareth James et al., An Introduction to Statistical Learning: with Applications in Python, Springer, 2023 파이썬 머신러닝 완벽 가이드 파이썬으로 배우는 머신러닝의 교과서 딥러닝 교과서 Do it * 본 게시물은 필자가 공부를 위해 쓴 게시물입니다. 1. 결정트리 구조 루트노드 - 처음 분류 기준, 조건 규칙노드 - feature의 결합, 규칙조건 리프노드 - 결정된 클래스 값, 마지막 노드 서브트리 - 새로운 규칙조건에 의해 생성 *트리의 깊이(depth)가 깊어질수록, 결정트리의 예측성능은 저하될 가능성이 있음..
2024.01.02 -
Let there be color 모델(자동 채색 알고리즘)
Let there be color 모델, 자동 채색 알고리즘 : 인코더-디코더 구조 변형 모델 - 데이터 셋 : 다양한 이미지와 그 이미지에 해당하는 설명이 포함된 데이터 (Flickr8k) - 목적 : 흑백이미지로부터 색이 있는 컬러이미지를 만들어 내는 것 - 입력 값 : 흑백이미지 - 전처리 : 스케일링, 색체계 변환 모델의 구조 - 로 레벨 네크워크 : 이미지의 국소적인 특징 추출 -> 이미지를 3*3 커널 합성곱층을 쌓아서 만듦, 하나의 층을 거칠 때마다 이미지의 크기가 절반으로 줄어듦(특징추출) - 미들 레벨 네크워크 : 이미지의 중간 크기의 특징 추출 - 글로벌 레벨 네크워크 : 이미지의 전체적인 크기의 특징 추출 (개요) -> MLP층은 나중에 색을 칠할 때 사용할 특징을 추출 - 컬러라이제..
2023.12.01