3. Technical Approach
- skip
- skip
- Technical Approach
기학습된 modality-specific 교사들이 respective modality space에서 자동차들이 위치한 BB를 예측한다. 이 예측은 single multi-teacher prediction으로 융합되고 audio student network를 학습시키기위한 pseudo라벨로 활용된다.
(각 도메인에서의) 상호 보완적인 정보를 효과적으로 활용하기 위해서 MTA(multi-Teacher Alignment loss)를 제안한다.
3장의 나머지에서 우리는 먼저 교사-학습 네트워크의 아키텍처와 교사 pre-trainning 절차를 설명하고, 오디오 학생을 더 잘 초기화하기 위해 제안하는 새로운 핑계 과제(pretext task)를 설명한다.- 네트워크 구조
교사 네트워크 : efficientDet 구조 사용
( efficientDet = efficientNet + bidirectional feature pyramid network + final regression and classifier branch )
efficientNet은 mobile inverted bottlenect unit을 복수의 stage에 사용하여 입력 데이터로부터 적절한 특징을 추출한다.
capacity 요구에 따라 8개의 네트워크 변형이 있는데. 이를 통해 성능과 예측 속도에 대한 trade-off 문제를 해결한다. compound scaling coefficient (뭔지모름)이 네트워크의 깊이와 너비를 입력이미지의 해상도에 따라 균일하게 스케일링(스케일조정) 한다.
(= 이게 모델의 종류가 8개이고 입력영상 크기에 따라서 선택적으로 사용한다는게 맞음 ? 입력이미지의 크기가 크면 객체의 크기가 상대적으로 클테니까 큰 오브젝트 검출 타겟을 한다는건가 ? )
efficientNet의 어떤 stage에서 특징이 추출되어야 하는지 고르기 위해서, EfficientDet은 weighted bidirectional feature pyramid(automatic machine learning and manual tunning 조합) 를 소개 하였다.
네트웤의 마지막 단계는 classifier 과 regressor branch이다. ( 일련의 separable convolutions-batch normalization- and a memory-efficient swish 로 구성된다. )
본 과업에서는 EfficientDet-D2가 성능&속도 면에서 가장 좋았다 (실험결과 참고) . 본 과업에서 제안하는 프레임 워크가 특정 선생님 구조에 의존적이지 않다. (drop-in 이 뭔지는 모르겠지만,쉽게 통합 가능함 )
본 실험에서 768x768 해상도를 사용하였고, 5 BiFPN cell repetitions, with 112 channels each
- 네트워크 구조
전체과정 요약 :
- pre trained 된 teacher모델로 이미지내 car의 개수를 예측함 ( self-supervised에서는 많이 쓰임 )
- 8채널 spectrogram 을 EfficientNet의 입력으로, mlp classifier을 출력으로 사용하여 개수를 예측한다.
- 이 사전 과업에 대해 학습된 모델의 가중치로 audio student network를 초기화 하고,
MM-DistillNet framework에서 훈련이 진행되는 동안 소리 스펙트럼을 시각화한 입력에서 car를 detect하는 것을 훈련한다.
# 교사들은 EfficientDet을 백본으로 사전학습 되었다. 사용한 데이터셋은 아래와 같음
- RGB teacher that we train on COCO [26], PAS- CAL VOC [16], and ImageNet [14] for the car labels
- Depth teacher that we train on the Argoverse [12] dataset using 3D vehicle bounding boxes mapped to 2D.
- ThermalteacherthatwetrainontheFLIRADAS[18]
# 교사학습을 통해 얻을 수 있는 효과(의견)
RGB, thermal, distance map, sound 4개를 모두 갖고 있는 데이터 셋은 찾기 힘듬 .
많은 양의 DB를 통해 충분히 훈련된 교사들의 weight, 및 knowledge 를 student가 배울 수 있음
8채널 monophonic-microphone array를 입력으로 visual reference frame에서 bb를 예측한다.
masked autoencoder self sueprvised learning
: label이 있기때문 (audio 에서 차의 개수를 predict한다는 작업이 있기 때문에 self supervised라고 하기 약간 애매하다. )
'VirtualTryon' 카테고리의 다른 글
CLIPVisionModel Projection, PBE image encoder to SDXL 이식기록 (0) | 2023.09.24 |
---|---|
Virtual Tryon(개발 아이디어) (0) | 2023.09.03 |
clip - ViT & Image projection (0) | 2023.08.25 |
Stable diffusion with LoRA! (0) | 2023.03.31 |