SDXL에 ControlNet·IP-Adapter 동시 적용 실전

서로 다른 요구(구도는 고정, 스타일은 참조, 프롬프트는 창의적으로)를 한 번에 만족시키려면 SDXL에 ControlNet과 IP-Adapter를 동시에 적용하는 구성이 가장 효율적입니다. ControlNet은 “형태/레이아웃 제약”을, IP-Adapter는 “레퍼런스 이미지 기반 특징 주입”을 담당하므로, 둘을 함께 쓰면 결과가 흔들리지 않으면서도 원하는 분위기나 인물 유사도를 끌어올릴 수 있습니다.

이 글에서는 SDXL 기준으로 두 모듈을 동시에 걸 때의 개념적 충돌 지점, 가중치(Weight)와 시작/종료 스텝(Start/End) 설계, 메모리/속도 최적화 팁, 그리고 diffusers 기반의 코드 예제를 제공합니다.

생성 파이프라인도 결국 “지연/병목을 어디서 줄이느냐”가 품질만큼 중요합니다. 웹 앱으로 서빙할 계획이라면 RSC/TTFB 튜닝 관점도 함께 보세요: Next.js 14 App Router TTFB 폭증 잡는 RSC 튜닝

SDXL에서 ControlNet과 IP-Adapter가 겹치는 지점

ControlNet: 구조를 강제하는 조건

ControlNet은 Canny, Depth, OpenPose, Lineart 같은 구조 힌트 이미지를 받아, U-Net의 중간 피처에 “이 구조를 따라가라”는 신호를 주입합니다. SDXL에서는 보통 sdxl-controlnet-* 계열을 사용합니다.

장점: 구도/포즈/윤곽이 프롬프트보다 우선해 흔들림이 줄어듭니다.
단점: 강도가 높으면 질감/스타일이 단조로워지고, 프롬프트의 창의성이 죽을 수 있습니다.

IP-Adapter: 레퍼런스 특징을 주입하는 조건

IP-Adapter는 CLIP 이미지 인코더를 통해 레퍼런스 이미지를 임베딩하고, 이를 U-Net의 cross-attention에 주입해 스타일/인물 특징/색감을 유도합니다.

장점: “이 사진 느낌으로”를 프롬프트보다 안정적으로 구현합니다.
단점: 강도가 높으면 레퍼런스를 과도하게 베껴서 구도가 끌려가거나, 원치 않는 디테일이 따라옵니다.

동시에 걸면 생기는 대표적 충돌

구도 vs 스타일 우선순위 충돌: ControlNet이 강하면 IP-Adapter가 주입한 스타일이 약해 보입니다.
초반 스텝 지배 문제: IP-Adapter를 초반부터 강하게 걸면 레퍼런스의 배치까지 따라가려는 경향이 생깁니다.
과제약(Over-conditioning): ControlNet 여러 개 + IP-Adapter + 강한 프롬프트까지 합치면 결과가 뭉개지거나 노이즈가 남습니다.

이를 해결하는 핵심은 가중치와 스텝 구간을 분리하는 것입니다.

실전 워크플로: 무엇을 먼저 준비할까

1) Control 이미지 만들기

Canny: 원본 사진에서 윤곽선만 추출해 구도를 고정
OpenPose: 인물 포즈를 정확히 고정
Depth: 원근/볼륨을 자연스럽게 유지

보통 “구도만 고정”이면 Canny나 Lineart가 가장 간단합니다.

2) IP-Adapter 레퍼런스 선택

스타일만 가져오려면: 배경/구도가 단순한 레퍼런스가 유리
인물 유사도가 목표라면: 얼굴이 선명하고 정면에 가까운 레퍼런스가 유리

레퍼런스가 복잡할수록 원치 않는 요소도 같이 따라옵니다. 이때는 IP-Adapter weight를 낮추거나 start를 뒤로 미루는 게 효과적입니다.

3) 프롬프트는 “의도만” 명확히

ControlNet과 IP-Adapter가 이미 강한 조건이므로, 프롬프트를 장황하게 쓰면 충돌이 납니다.

좋은 예: cinematic lighting, shallow depth of field, high detail, 35mm photo
나쁜 예: 구도/포즈/배치까지 프롬프트로 강제하는 긴 문장

diffusers로 ControlNet + IP-Adapter 동시 적용 코드

아래 예시는 diffusers 기반 개념 코드입니다. 설치/버전 조합에 따라 클래스명이 조금 다를 수 있으니, 핵심은 “SDXL 파이프라인에 ControlNet을 연결하고, IP-Adapter를 로드한 뒤 가중치와 적용 구간을 조절한다”는 점입니다.

import torch
from diffusers import (
    StableDiffusionXLControlNetPipeline,
    ControlNetModel,
    AutoencoderKL,
)
from diffusers.utils import load_image

# 1) 모델 로드
base_model = "stabilityai/stable-diffusion-xl-base-1.0"
controlnet_id = "diffusers/controlnet-canny-sdxl-1.0"  # 예시

controlnet = ControlNetModel.from_pretrained(
    controlnet_id,
    torch_dtype=torch.float16,
)

pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
    base_model,
    controlnet=controlnet,
    torch_dtype=torch.float16,
    variant="fp16",
    use_safetensors=True,
)

pipe.to("cuda")
pipe.enable_xformers_memory_efficient_attention()

# 2) IP-Adapter 로드
# diffusers 버전에 따라 load_ip_adapter / set_ip_adapter_scale API가 다를 수 있습니다.
# 핵심은: ip-adapter 가중치(scale)와 이미지(레퍼런스)를 넣는 것.
pipe.load_ip_adapter(
    "h94/IP-Adapter",
    subfolder="sdxl_models",
    weight_name="ip-adapter_sdxl.bin",
)

# 3) 입력 이미지
control_image = load_image("./canny.png")
ref_image = load_image("./reference.jpg")

prompt = "cinematic portrait photo, soft rim light, shallow depth of field"
negative = "low quality, blurry, extra fingers, deformed"

# 4) 조건 강도 튜닝
controlnet_conditioning_scale = 0.85
ip_adapter_scale = 0.60
pipe.set_ip_adapter_scale(ip_adapter_scale)

# ControlNet 적용 구간(start/end)도 버전에 따라 파라미터명이 다를 수 있습니다.
# 보통은 control_guidance_start / control_guidance_end 형태로 제공합니다.
image = pipe(
    prompt=prompt,
    negative_prompt=negative,
    image=control_image,
    ip_adapter_image=ref_image,
    num_inference_steps=35,
    guidance_scale=5.5,
    controlnet_conditioning_scale=controlnet_conditioning_scale,
    control_guidance_start=0.0,
    control_guidance_end=0.6,
).images[0]

image.save("./out.png")

코드 해설 포인트

controlnet_conditioning_scale: 구조 고정 강도. 값이 높을수록 ControlNet을 더 “절대 규칙”으로 취급합니다.
set_ip_adapter_scale: 레퍼런스 특징 주입 강도. 인물 유사도/스타일 유사도에 직접적으로 영향이 큽니다.
control_guidance_end: ControlNet을 언제까지 강하게 적용할지 결정합니다. 후반까지 끌고 가면 디테일이 구조에 과도하게 묶일 수 있습니다.

튜닝 체크리스트: 결과가 이상할 때 어디를 만질까

1) 결과가 레퍼런스를 너무 베낀다

IP-Adapter scale을 0.1~0.2 낮추기
IP-Adapter start를 뒤로 미루기(가능한 API라면 0.4 이후)
레퍼런스 이미지를 단순화(배경 제거, 크롭)

2) 구도가 계속 흐트러진다

ControlNet scale을 올리기
ControlNet을 OpenPose/Depth로 바꾸기(문제 유형에 맞게)
Steps를 늘리고 CFG를 약간 낮추기

3) 전체가 뭉개지고 디테일이 안 선다

조건을 너무 많이 걸었는지 확인(특히 ControlNet 2개 이상 + 높은 CFG)
CFG를 1~2 낮추기
ControlNet end를 더 앞당기기(예: 0.5)

4) 색감이 탁하거나 피부톤이 망가진다

IP-Adapter scale을 낮추고 프롬프트에 색감을 명시
VAE를 교체하거나(사용 환경에 따라) 고정 VAE 사용
레퍼런스의 화이트밸런스를 먼저 보정

멀티 ControlNet + IP-Adapter 조합 팁

ControlNet을 하나 더 추가하면(예: OpenPose + Depth) 포즈와 원근을 동시에 고정할 수 있습니다. 다만 과제약이 쉬우므로 다음 원칙을 권합니다.

“강한 ControlNet 1개 + 약한 ControlNet 1개”로 시작
합산 강도가 너무 세지 않게 각 scale을 낮춤
IP-Adapter는 후반에만 개입하도록 설계

예시 가중치 출발점:

OpenPose: 0.9 (start 0.0, end 0.55)
Depth: 0.4 (start 0.0, end 0.45)
IP-Adapter: 0.55 (start 0.35, end 1.0)

운영 관점: 속도/메모리 최적화 포인트

SDXL은 기본적으로 무겁고, ControlNet과 IP-Adapter까지 붙으면 VRAM 사용량이 급격히 늘어납니다. 제품/서비스에 붙일 계획이라면 아래를 우선 적용하세요.

fp16 또는 bf16 사용
xFormers 또는 SDPA attention 활성화
필요 시 CPU offload(지연은 늘지만 OOM을 피함)
배치 생성은 신중히(동시 요청이 많으면 큐잉 전략 필요)

이미지 생성 API를 Next.js에서 붙일 때는 “서버 컴포넌트에서 무거운 작업을 동기 호출”하는 패턴을 피해야 TTFB가 안정됩니다. 관련해서는 Next.js LCP 개선 - 이미지·폰트·RSC 최적화도 함께 참고하면, 생성 결과를 프론트에 노출하는 체감 성능까지 같이 잡을 수 있습니다.

정리: 역할 분담이 품질을 만든다

SDXL에서 ControlNet과 IP-Adapter를 동시에 적용할 때의 핵심은 간단합니다.

ControlNet은 “초반 큰 구조”를 책임지게 하고
IP-Adapter는 “중후반 스타일/특징”을 책임지게 하며
CFG와 조건 가중치가 서로 싸우지 않도록 균형을 잡는다

이 원칙으로 접근하면, 구도는 흔들리지 않으면서도 레퍼런스 기반의 스타일/인물 유사도를 안정적으로 끌어올릴 수 있습니다. 이후에는 목적에 따라 ControlNet 타입(Canny/Depth/OpenPose)과 IP-Adapter 종류(스타일 특화/얼굴 특화)를 바꿔가며, 가중치와 적용 구간을 체계적으로 기록해 “재현 가능한 레시피”로 만드는 것이 가장 빠른 실력 향상 루트입니다.