1. 일단 img2img의 효과에 대해서 알고싶다.
학습시켰던 controlnet 모델이 모델의 얼굴은 잘 내보내는데, 옷부분이 무너진다.
이 부분에 대해서 img2img를 수행했을때, 어떤 결과가 나오는지 보자.
2. 해봐야 하는 실험 ? >
사람 유지적 측면에서 controlnet을 쓰면 더 좋아 질 순 있지만, 굳이 안써도됨.
그래서 controlnet은 일단 빼고,
Image Embedding의 효과에 대해서 좀 더 고민할껀데,
학습시 masked condition을 사용해서 9 channel unet을 학습 시킬려고함
unet 학습, mask를 주고, ( masked = 팔+상체+손 )
condition ( image embedding) = 의복 줌.
일부만 학습
다행히 diffusers에 text to image 학습 방법이 있고, ( 파일명 : train_text_to_image.py)
image 2 image 로 어떻게 unet 을 갈아 끼울 수 있는지 써져있다. 자세히 보자...
오늘 image2image 학습 코드는 짜고 집에 가쟈...
image embedding 도 할 수있으면 하고...
image2image로 바꾸는건 어려워 보이지 않는다.
unet 2dconditional로 넣어주면 되는것 같은데?
그럼 지금 해야할게,
step1) original train_text_to_image.py 코드에서 image2image 를 불러 올 수 있게 바꾸고,
step2 ) image conditioning 쪽도 바꿔준다.
image2image 학습시 노이즈 추가 어떻게 해야되는지 아래 페이지에서 참고 할 수 있다.
(stable diffusion image2image 재는 LoRA를 학습했다고 하는데, input 넣을때 어떤식으로 넣는지. mask, image, 조합시
걍 torch.cat하면 되나봄
https://huggingface.co/runwayml/stable-diffusion-inpainting/discussions/33
mask image랑 masked image를 만들어야할듯
unet을 학습은 하지 않는다,
image encoder 을 학습한다.
== 이렇게 해주면 일단은 paint by examle과 유사하게 된다.