IT 새 소식

Stable Diffusion 다음에는 무엇이 나오나요? Stable Cascade는 Stability AI의 미래 텍스트-이미지 생성 AI 모델이 될 수 있습니다.

뉴봇 2024. 2. 16. 03:24

인기 있는 Stable Diffusion 텍스트-이미지 생성 AI 기술을 개발한 회사인 Stability AI 는 이제 Stable Cascade라는 새로운 이미지 생성 모델을 선보이고 있습니다.

새로운 모델은 현재 세대의 Stable Diffusion 모델보다 더 유연하고 효율적인 이미지 생성에 대한 새로운 접근 방식을 입증하는 데 도움을 주기 위한 것입니다. Stability AI는 2022년부터 핵심 Stable Diffusion 모델을 꾸준히 반복해 왔습니다. 2023년 7월 SDXL 1.0 릴리스는 새로운 플래그십 릴리스를 의미하며 2023년 11월 SDXL Turbo 업데이트를 통해 더욱 가속화되었습니다.

Stable Cascade는 SDXL과 다소 다른 아키텍처를 사용하여 Stability AI 연구자들이 더 효율적으로 사용하기를 바라는 이미지를 생성합니다. 새로운 접근 방식은 일련의 혁신적인 기술을 사용하여 성능과 정확성을 향상시키는 Würstchen 아키텍처를 기반으로 합니다.

"우리 작업의 주요 기여는 확산 과정을 안내하는 데 사용되는 상세하지만 매우 컴팩트한 의미 이미지 표현을 학습하는 잠재 확산 기술을 개발하는 것입니다."라고 Würstchen 연구 개요는 말합니다. "이 고도로 압축된 이미지 표현은 언어의 잠재 표현에 비해 훨씬 더 자세한 지침을 제공하며 이는 최첨단 결과를 달성하기 위한 계산 요구 사항을 크게 줄여줍니다."

Stable Cascade는 모듈식 3단계 아키텍처를 갖추고 있습니다.

단일 대형 모델을 사용하는 Stable Diffusion과 달리 Stable Cascade는 A, B, C 단계라는 세 가지 별개의 소형 모델 파이프라인을 활용합니다. 이 모듈식 아키텍처는 교육 효율성과 사용자 정의에 큰 이점을 제공합니다.

첫 번째 단계인 C단계에서는 텍스트 프롬프트를 컴팩트한 24×24픽셀 잠재성으로 변환합니다. 그런 다음 단계 A와 B에서는 이러한 잠재성을 전체 고해상도 이미지로 디코딩합니다. 이미지 디코딩에서 텍스트-이미지 생성을 분리함으로써 초기 텍스트 조건부 모델을 훨씬 더 효율적으로 훈련하고 미세 조정할 수 있습니다. Stability AI에 따르면 Stage C만 미세 조정하면 동일한 크기의 단일 Stable Diffusion 모델을 미세 조정하는 것에 비해 16배의 비용 절감이 가능합니다.

또한 DPO(Direct Preference Optimization )를 통해 이미지 품질을 더욱 향상시킬 수 있는 가능성도 있습니다. 2023년 VentureBeat와의 인터뷰 에서 Stability AI 창립자이자 CEO인 Emad Mostaque는 DPO가 모델을 인간 선호도에 맞게 조정하는 데 사용되는 강화 학습에 대한 대체 접근 방식이라고 설명했습니다.

Mostaque는 X(이전 Twitter) 메시지 에 " #stablecascade 출력은 DPO(3단계 참고)를 사용하면 훨씬 더 좋아질 것입니다. 물론 터보화, 양자화 등도 가능합니다."라고 썼습니다. "이것은 연구 미리보기 벤치마크/바닐라 모델이지만 ComfyUI 흐름으로 개선할 수 있는 뛰어난 이미지와 견고한 텍스트를 즉시 생성합니다."

이미지의 텍스트 생성이 크게 향상되었습니다.

Stability AI의 평가에서 Stable Cascade는 이미지 품질과 신속한 정렬 측면에서 SDXL을 포함한 다른 주요 AI 아트 모델을 능가했습니다.

놀랍게도 SDXL보다 14억 개의 매개변수가 더 많음에도 불구하고 Stable Cascade는 추론 시간이 더 빠릅니다. Stability AI에 따르면 압축된 잠재 공간을 통해 모델은 다단계 접근 방식을 통해 복잡한 이미지를 보다 효율적으로 생성할 수 있습니다.

또한 주목할 만한 점은 이미지 내부에 텍스트를 적절하게 생성하는 Stable Cascade의 타이포그래피 기능인데, 이는 SDXL이 뛰어나지 않은 기능입니다. Ideogram 및 OpenAI의 DALL-E 3 와 같은 다른 텍스트-이미지 생성 AI 기술은 최근 몇 달 동안 텍스트 생성을 개선하기 위해 점점 더 많은 발전을 이루었지만 결과는 엇갈렸습니다. VentureBeat에서 실시한 제한된 테스트에서 Stable Cascade는 프롬프트 요청을 통해 이미지에 적절한 텍스트를 보다 일관되게 생성했지만 아직 완벽하지는 않습니다.

Stable Cascade를 통해 다양성과 일관성이 향상되었습니다.

Stable Cascade는 이미지 변형을 포함한 다른 기능도 지원합니다.

Stable Cascade는 스타일 및 구성과 같은 측면을 유지하면서 특정 이미지의 새로운 변형을 생성할 수 있습니다. 모델은 입력 이미지에 노이즈를 추가하고 그로부터 새 이미지를 생성하여 이미지 간 변환을 수행할 수도 있습니다. ControlNet 지원을 통해 인페인팅 및 초해상도와 같은 고급 기술을 사용할 수 있습니다. Stable Cascade는 현재 연구 미리보기 단계에 있으며 GitHub에서 사용할 수 있는 코드를 통해 비상업적 용도로 사용할 수 있습니다.