(진행중)
- 데이터 셋 안의 사람 위치 정보로 Density Map GT를 생성하고 LDM의 input으로 (완료)
- RGB 이미지는 Conditioning으로, 임베딩 모듈 (완료)
- Dataloader 모듈 코딩 (완료)
- Concatenate 방식으로 학습 되는데, Cross Attention 방식으로 학습 해보려는 중. 그러나 오류 발생. 디버깅 중.
모델 I/O

입력 x (Ground Truth Map)
c의 사람 머리 부분에 흰 점. (Depth 데이터 기반으로 만들어짐. 거리에 따라 점의 크기가 결정되며 만들어짐.)

conditioning 입력 c

입력 x

입력 conditioning

noising(diffusion) 과정

denoising ..?

결과 샘플링. x랑 유사한 이미지가 나오긴 했으나 만족스럽진 않음.
TO DO
- 결과 지표 어떻게?(일단 선행 연구 조사)
- 성능개선 → 파라미터 조정 .
- FrozenClipImageEmbedder + Crossattention 에러 디버깅