Virtual Tryon(개발 아이디어)

1. 일단 img2img의 효과에 대해서 알고싶다.

학습시켰던 controlnet 모델이 모델의 얼굴은 잘 내보내는데, 옷부분이 무너진다.

이 부분에 대해서 img2img를 수행했을때, 어떤 결과가 나오는지 보자.

2. 해봐야 하는 실험 ? >

사람 유지적 측면에서 controlnet을 쓰면 더 좋아 질 순 있지만, 굳이 안써도됨.

그래서 controlnet은 일단 빼고,

Image Embedding의 효과에 대해서 좀 더 고민할껀데,

학습시 masked condition을 사용해서 9 channel unet을 학습 시킬려고함

unet 학습, mask를 주고, ( masked = 팔+상체+손 )

condition ( image embedding) = 의복 줌.

일부만 학습

다행히 diffusers에 text to image 학습 방법이 있고, ( 파일명 : train_text_to_image.py)

image 2 image 로 어떻게 unet 을 갈아 끼울 수 있는지 써져있다. 자세히 보자...

오늘 image2image 학습 코드는 짜고 집에 가쟈...

image embedding 도 할 수있으면 하고...

image2image로 바꾸는건 어려워 보이지 않는다.

unet 2dconditional로 넣어주면 되는것 같은데?

그럼 지금 해야할게,

step1) original train_text_to_image.py 코드에서 image2image 를 불러 올 수 있게 바꾸고,

step2 ) image conditioning 쪽도 바꿔준다.

image2image 학습시 노이즈 추가 어떻게 해야되는지 아래 페이지에서 참고 할 수 있다.
(stable diffusion image2image 재는 LoRA를 학습했다고 하는데, input 넣을때 어떤식으로 넣는지. mask, image, 조합시

걍 torch.cat하면 되나봄

mask image랑 masked image를 만들어야할듯

unet을 학습은 하지 않는다,

image encoder 을 학습한다.

== 이렇게 해주면 일단은 paint by examle과 유사하게 된다.

CLIPVisionModel Projection, PBE image encoder to SDXL 이식기록 (0)	2023.09.24
clip - ViT & Image projection (0)	2023.08.25
Stable diffusion with LoRA! (0)	2023.03.31
[논문리뷰] There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge 풀번역 (0)	2023.02.05

오늘, 최선을 다하자