본문 바로가기
스마트폰 교육/영상 제작과 관리

[그림 그리는 인공지능] Stable Diffusion

by easyfly 2023. 8. 14.
반응형

그림 그리는 인공지능

그림 그리는 인공지능으로 널리 알려지고 사용되는 것으로 'DALL-E 2'가 있습니다. OpenAI가 개발했으며 마이크로소프트가 자신의 '새 Bing'에 ChatGPT와 함께 적용해 대중화를 이끌고 있습니다. 

 

한편 Stability AI에서 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델로 2022년 8월 22일 출시된 Stable Diffusion도 오픈소스라는 강력한 힘으로 확대 추세에 있습니다. OpenAI의 DALL-E나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서 돌릴 수 있습니다. 더구나 오픈 소슬로 많은 개발자와 일반인들도 사용을 하면서 '그림 그리는 인공지능'을 선도하고 있습니다.

 

Stable Diffusion

Stable Diffusion은 크게 보면 CLIP, UNet, VAE(Variational Auto Encoder)라는 세 가진 인공신경망으로 이루어져 있습니다. 유저가 텍스트를 입력하면 텍스트 인코더(CLIP)가 유저의 텍스트를 토큰(Token)이라는 UNet이 알아들을 수 있는 언어로 변환하고, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하는 방식입니다. 노이즈 제거를 반복하여 이미지 상태가 좋아진 것을 픽셀로 변환하는 것이 VAE의 역할입니다.

 

해상도가 높아질수록 리소스를 기하급수적으로 사용하는 종전의 확산 확률 이미지 생성 모델과 달리, 앞뒤에 오토인코더를 도입하여 이미지 전체가 아닌 훨씬 작은 차원의 잠재공간(latent space)에서 노이즈를 제거하므로 리소스 사용량을 줄여 일반 PC의 그래픽 카드로도 이용이 가능하다는 것이 특징입니다.

 

Stable Diffusion WebUI

Stable Diffusion을 실행하기 위해서는 Stable Diffusion WebUI를 설치해야 합니다. 설치 방법은 다음과 같습니다. Stable Diffusion WebUI를 다운로드하고 cmd 창에서 실행합니다. 이후 웹 브라우저로 새 창이 열리면 Stable Diffusion WebUI가 실행됩니다. Stable Diffusion WebUI를 실행하기 위해서는 파이썬과 git이 설치되어 있어야 합니다. 

제 PC에 설치된 python과 git

Stable Diffusion WebUI 서비스

설치된 Stable Diffusion WebUI 서비스가 실행된 상태에서 브라우저를 통해 이미지를 생성하는 방식으로 운용됩니다.

터미널에서 Stable Diffusion WebUI 실행 중

이 터미널이 꺼지면 Stable Diffusion WebUI 서비스도 종료되기 때문에 터미널을 그대로 두고 웹브라우저에서 'localhost:7860' 또는 '127.0.0.1:7860'을 통해 Stable Diffusion을 사용하게 됩니다. 'localhost'는 자신이 사용하는 컴퓨터이고 그 아이피를 '127.0.0.1'입니다.

웹브라우저에서 접속한 Stable Diffusion

이미지를 생성하는 원리는 DALL-E에서 이미지를 얻는 방법과 비슷하지만 훨씬 더 구체적인 설정이 가능합니다. 

 

정리

Stable Diffusion은 Stable Diffusion WebUI를 설치해서 터미널을 통해 서비스가 계속되도록 하고 웹브라우저를 통해 그림을 생성하는 방법입니다.

 

이어서 Stalbe Diffusion WebUI 설치 과정부터 진행하겠습니다.

반응형

댓글