목록파이썬 (41)
개발자의 스터디 노트
1. 임베딩을 배우는 이유 그동안 우리는 벡터 표현으로 원-핫 표현을 사용했습니다. 이 벡터의 길이는 어휘 사전의 크기와 같고, 값은 특정 단어를 나타내는 한 위치만 1이고 나머지는 모두 0입니다. 또한 카운트 기반 표현을 보았습니다. 이 벡터의 길이는 모델에 있는 고유한 단어의 개수와 같지만, 문장에 등장하는 카운트 값은 단어의 빈도에 상응합니다. 카운트 기반 표현은 중요한 내용이나 의미가 벡터의 여러 차원에 표현되어서 분산적 표현이라고도 부릅니다. 분산 표현은 역사가 깊고 많은 머신러닝 및 신경망 모델에서 잘 동작합니다. 분산 표현은 단어가 훨씬 낮은 밀집 벡터로 표현된다는 사실에서 이름을 따왔습니다. 단어의 의미와 다른 속성이 이 밀집 벡터의 여러 차원에 걸쳐 분산됩니다. 저차원으로 학습된 밀집 표..
1. 풀링 풀링(pooling)은 고차원 특성 맵을 저차원 특성 맵으로 요약하는 연산입니다. 합성곱의 출력은 특성 맵입니다. 특성 맵의 값은 입력의 일부 영역을 요약합니다. 합성곱 연산의 중첩되는 특징 때문에 많은 특성이 중복될 수 있습니다. 풀링은 고차원이고 중복 가능성이 높은 특성 맵을 저차원으로 요약하는 방법입니다. 풀링은 특성 맵의 국부적인 영역에 적용하는 합, 평균, 최댓값과 같은 산술 연산입니다. 이런 풀링 연산을 각각 합 풀링(sum pooling), 평균 풀링(average pooling), 최대 풀링(max pooling)이라 합니다. 풀링은 통계적으로 약하고 크기가 큰 특성 맵을 강하고 작은 특성 맵으로 개선할 수 있습니다. 2. 배치 정규화 배치 정규화(batch normalizati..
1. 테스트 셋에서 평가하기 - MLP의 정확도는 약 50% 정도였습니다. CNN 모델이 어느 정도의 성능 향상이 있었는지 테스트 셋으로 평가해봅시다. classifier.load_state_dict(torch.load(train_state['model_filename'])) classifier = classifier.to(args.device) dataset.class_weights = dataset.class_weights.to(args.device) loss_func = nn.CrossEntropyLoss(dataset.class_weights) dataset.set_split('test') batch_generator = generate_batches(dataset, batch_size=args...
모델 훈련은 앞서 포스팅했던 과정을 그대로 답습합니다. 1. 학습에 필요한 메서드 생성 def make_train_state(args): return {'stop_early': False, 'early_stopping_step': 0, 'early_stopping_best_val': 1e8, 'learning_rate': args.learning_rate, 'epoch_index': 0, 'train_loss': [], 'train_acc': [], 'val_loss': [], 'val_acc': [], 'test_loss': -1, 'test_acc': -1, 'model_filename': args.model_state_file} def update_train_state(args, model, tra..
MLP로 만든 예제와 대부분의 내용은 같지만 모델 구성과 벡터 변환 과정이 다릅니다. 모델 입력은 원-핫 표현이 아니라 위치정보가 포함된 원-핫 벡터의 행렬입니다. 이렇게 하면 CNN이 나열된 문자를 더 잘 볼 수 있고 원-핫 인코딩에서 잃었던 순서 정보를 인코딩할 수 있습니다. 1. SurnameDataset 원-핫 벡터의 행렬을 구성하기 위해 데이터셋 클래스가 가장 킨 성씨를 찾아 이를 SurnameVectorizer 클래스의 객체에 행렬의 행 크기로 전달하도록 구현되었습니다. 원-핫 행렬의 크기를 제어하는 데 데이터셋에서 가장 긴 성씨를 사용하는 이유는 두 가지입니다. 첫째. 성씨 행렬의 각 미니 배치는 3차원 텐서입니다. 따라서 크기가 모두 같아야 합니다. 둘째. 데이터셋에서 가장 긴 성씨를 사용..
CNN은 공간상의 부분 구조를 감지하는 데 적합한( 그래서 의미 있는 공간상의 부분 구조를 만드는) 신경망입니다. CNN 은 소수의 가중치를 사용해 입력 데이터 텐서를 스캔하는 식으로 이를 수행합니다. 스캔하면서 부분 구조의 유무를 표현하는 출력 텐서를 만듭니다. 2차원 합성곱 연산. 입력 행렬이 커널 하나와 합성곱 연산을 수행하여 출력 행렬(또는 특성 맵)을 만듭니다. 합성곱은 입력 행렬의 위치마다 커널을 적용합니다. 합성곱 연산을 수행할 때마다 커널과 입력 행렬의 각 원소를 곱한 후 모두 더합니다. 1. 합성곱 연산의 차원 - 파이토치에서는 1차원, 2차원, 3차원 합성곱이 가능하며 각각 Conv1d, Conv2d, Conv3d 클래스로 구현되었습니다. - 1차원 합성곱은 각 타임 스텝에 특성 벡터가..
심층 신경망 모델(즉 층이 여럿인 모델)에서는 드롭아웃(dropout)이라고 하는 구조적인 규제 방법이 매우 중요합니다. 드롭아웃이란 무엇일까요? https://heytech.tistory.com/127 [딥러닝] Drop-out(드롭아웃)은 무엇이고 왜 사용할까? 안녕하세요, 오늘은 딥러닝에 있어서 Generalization 기법 중 하나인 Drop-out(드롭아웃)에 대해 알아봅니다. 그럼 바로 시작하죠! 학습목표 💡 드롭아웃(Drop-out)이 무엇이고, 왜 사용하는지에 대해 이 heytech.tistory.com 위 포스팅을 참고하면 드롭아웃을 사용함으로써 정규화가 잘된 특정 Feature만을 과도하게 학습함으로써 발생할수 있는 과대적합(Overfitting)을 방지하여 훈련의 안정성을 기대할 수..
MLP로 학습한 모델을 평가해보도록 하겠습니다. 평가는 테스트 데이터 셋으로 진행합니다. 훈련 데이터의 정확도가 테스트 데이터의 정확도보다 높게 나옴을 알 수 있습니다. 모델은 항상 훈련하는 데이터에서 더 높은 성능이 나옵니다. 따라서 훈련 세트의 성능이 새로운 데이터에도 적용된다고 생각해서는 안됩니다. 1. 테스트 셋 데이터에서 평가하기 # 가장 좋은 모델을 사용해 테스트 세트의 손실과 정확도를 계산합니다 classifier.load_state_dict(torch.load(train_state['model_filename'])) classifier = classifier.to(args.device) dataset.class_weights = dataset.class_weights.to(args.devi..