Density Map Generation for Crowd Counting Using Latent Diffusion Models(TBD) | Notion

(진행중)

데이터 셋 안의 사람 위치 정보로 Density Map GT를 생성하고 LDM의 input으로 (완료)
RGB 이미지는 Conditioning으로, 임베딩 모듈 (완료)
Dataloader 모듈 코딩 (완료)
Concatenate 방식으로 학습 되는데, Cross Attention 방식으로 학습 해보려는 중. 그러나 오류 발생. 디버깅 중.

모델 I/O

입력 x (Ground Truth Map)

입력 x (Ground Truth Map)

c의 사람 머리 부분에 흰 점. (Depth 데이터 기반으로 만들어짐. 거리에 따라 점의 크기가 결정되며 만들어짐.)

conditioning 입력 c

conditioning 입력 c

입력 x

입력 x

입력 conditioning

입력 conditioning

noising(diffusion) 과정

noising(diffusion) 과정

denoising ..?

denoising ..?

결과 샘플링. x랑 유사한 이미지가 나오긴 했으나 만족스럽진 않음.

결과 샘플링. x랑 유사한 이미지가 나오긴 했으나 만족스럽진 않음.

TO DO

결과 지표 어떻게?(일단 선행 연구 조사)
성능개선 → 파라미터 조정 .
FrozenClipImageEmbedder + Crossattention 에러 디버깅