본문 바로가기

VirtualTryon

[논문리뷰] There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge 풀번역

3. Technical Approach 

There Is More Than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking With Sound by Distilling Multimodal Knowledge Figure 2. Our proposed MM-DistillNet framework consists of three pre-trained modality-specific teachers built upon EfficientDet-D2 that predict bounding boxes in the visual space and an audio student network that takes spectrograms of sound from a microphone array as input. By exploiting the co-occurrence of the modalities, we train the audio student to regress the bounding boxes predicted by the teachers using focal loss and our proposed MTA loss that aligns the intermediate network layers. During inference, the student detects multiple moving vehicles in the visual frame using only sound.

 

 

  1. skip
  2. skip
  3. Technical Approach
    기학습된 modality-specific 교사들이 respective modality space에서 자동차들이 위치한 BB를 예측한다. 이 예측은 single multi-teacher prediction으로 융합되고 audio student network를 학습시키기위한 pseudo라벨로 활용된다. 
    (각 도메인에서의) 상호 보완적인 정보를 효과적으로 활용하기 위해서 MTA(multi-Teacher Alignment loss)를 제안한다. 
    3장의 나머지에서 우리는 먼저 교사-학습 네트워크의 아키텍처와 교사 pre-trainning 절차를 설명하고, 오디오 학생을 더 잘 초기화하기 위해 제안하는 새로운 핑계 과제(pretext task)를 설명한다.
    1. 네트워크 구조
      교사 네트워크 : efficientDet 구조 사용
      ( efficientDet = efficientNet +
      bidirectional feature pyramid network + final regression and classifier branch )
      efficientNet은 mobile inverted bottlenect unit을 복수의 stage에 사용하여 입력 데이터로부터 적절한 특징을  추출한다. 
      capacity 요구에 따라 8개의 네트워크 변형이 있는데. 이를 통해 성능과 예측 속도에 대한 trade-off 문제를 해결한다. compound scaling coefficient (뭔지모름)이 네트워크의 깊이와 너비를 입력이미지의 해상도에 따라 균일하게 스케일링(스케일조정) 한다. 
      (= 이게 모델의 종류가 8개이고 입력영상 크기에 따라서 선택적으로 사용한다는게 맞음 ? 입력이미지의 크기가 크면 객체의 크기가 상대적으로 클테니까 큰 오브젝트 검출 타겟을 한다는건가 ? ) 
      efficientNet의 어떤 stage에서 특징이 추출되어야 하는지 고르기 위해서, EfficientDet은 weighted bidirectional feature pyramid(automatic machine learning and manual tunning 조합) 를 소개 하였다. 
      네트웤의 마지막 단계는 classifier 과 regressor branch이다. ( 일련의 separable convolutions-batch normalization- and a memory-efficient swish 로 구성된다. )
      본 과업에서는 EfficientDet-D2가 성능&속도 면에서 가장 좋았다 (실험결과 참고) . 본 과업에서 제안하는 프레임 워크가 특정 선생님 구조에 의존적이지 않다. (drop-in 이 뭔지는 모르겠지만,쉽게 통합 가능함 ) 
      본 실험에서 768x768 해상도를 사용하였고, 5 BiFPN cell repetitions, with 112 channels each

 

 

전체과정 요약 : 

  1. pre trained 된 teacher모델로 이미지내 car의 개수를 예측함 ( self-supervised에서는 많이 쓰임 )
  2. 8채널 spectrogram 을 EfficientNet의 입력으로, mlp classifier을 출력으로 사용하여 개수를 예측한다. 
  3. 이 사전 과업에 대해 학습된 모델의 가중치로 audio student network를 초기화 하고, 
    MM-DistillNet framework에서 훈련이 진행되는 동안 소리 스펙트럼을 시각화한 입력에서 car를 detect하는 것을 훈련한다. 

# 교사들은 EfficientDet을 백본으로 사전학습 되었다. 사용한 데이터셋은 아래와 같음  

  • RGB teacher that we train on COCO [26], PAS- CAL VOC [16], and ImageNet [14] for the car labels
  • Depth teacher that we train on the Argoverse [12] dataset using 3D vehicle bounding boxes mapped to 2D.
  • ThermalteacherthatwetrainontheFLIRADAS[18]

     # 교사학습을 통해 얻을 수 있는 효과(의견) 
RGB, thermal, distance map, sound 4개를 모두 갖고 있는 데이터 셋은 찾기 힘듬 .
많은 양의 DB를 통해 충분히 훈련된 교사들의 weight, 및 knowledge 를 student가 배울 수 있음   

8채널 monophonic-microphone array를 입력으로 visual reference frame에서 bb를 예측한다.

 

 

 

 

 

 

 

 

masked autoencoder self sueprvised learning 

: label이 있기때문 (audio 에서 차의 개수를 predict한다는 작업이 있기 때문에 self supervised라고 하기 약간 애매하다. )