[AI Generated Art의 사례와 프로그램]
Open AI가 개발한 인공지능 프로그램인 DALL-E 2 , 미드저니, 스테이블 디퓨전 등은 인공지능 기술의 발전과 함께 AI가 창작과 예술 분야에서도 활용될 수 있는 가능성을 보여주고 있다. DALL-E 2, 미드저니, 스테이블은 텍스트로 주어진 설명에 맞는 이미지를 생성할 수 있는 놀라운 기능을 가지고 있다. DALL-E 2 , 미드저니, 스테이블의 구성 요소와 작동 원리, 그리고 사용 방법과 예시를 살펴본다.
DALL-E 2, 미드저니, 스테이블 디퓨전은 Open AI가 개발한 인공지능 프로그램으로, 텍스트로 주어진 설명에 맞는 이미지를 생성할 수 있다. 텍스트와 이미지 사이의 관련성을 측정하는 CLIP(Contrastive Language-Image Pre-training)를 사용하여 DALL-E 2, 미드저니, 스테이블 디퓨전은 두 가지 컴포넌트로 구성되어 있다.
CLIP는 텍스트와 이미지를 동시에 학습하며, 텍스트와 이미지 사이의 상관관계를 파악하는 데 사용된다.
이러한 방식으로, DALL-E 2, 미드저니, 스테이블 디퓨전은 사용자가 입력한 텍스트 설명에 대한 이미지를 생성할 수 있고 이를 활용하여 예술 작품, 디자인, 광고 등에 활용될 수 있으며, 더 나아가 상상할 수 있는 모든 분야에서 창의적인 작업을 지원할 수 있다.
첫 번째는 DALL-E 2 이미지 생성 모델로 DALL-E 2는 GPT-3와 같은 트랜스포머 언어 모델로, 텍스트와 이미지 쌍으로 구성된 데이터셋을 이용해 학습되었다. DALL-E 2는 입력된 문장에 따라 다양한 개념을 자연스럽게 결합하거나 변형하여 새로운 이미지를 생성할 수 있다. '아보카도 모양의 안락의자'라는 문장을 입력하면, 아보카도를 닮은 안락의자를 그려준다.
두 번째는 CLIP이라고 부르는 이미지 분류 모델이다. CLIP은 텍스트와 이미지 쌍으로 구성된 데이터셋을 이용해 학습되었으나, DALL-E 2와 달리 이미지를 생성하는 것이 아니라 이미지와 텍스트 간의 관련성을 평가하는 것이다. 즉, CLIP은 주어진 텍스트에 가장 잘 맞는 이미지를 선택할 수 있다. '고양이'라는 텍스트에 대해 여러 이미지 중에서 실제 고양이 사진을 고르거나, '코끼리가 바이올린을 연주하는 모습'이라는 텍스트에 대해 DALL-E 2가 생성한 여러 이미지 중에서 가장 현실적인 이미지를 고르는 것이다.
DALL-E 2, 미드저니, 스테이블 디퓨전은 이 두 가지 모델을 결합하여 사용한다. 즉, DALL-E 2가 텍스트에 따라 여러 이미지를 생성하고, CLIP이 그중에서 가장 적합한 이미지를 선택하는 과정을 거친다. 이렇게 하면 DALL-E 2가 생성한 이미지 중에서 부적절하거나 오류가 있는 이미지를 걸러낼 수 있다.
스테이블 디퓨전은 크게 DALL-E Mini와 CLIP 두 가지 컴포넌트로 구성되어 있다. DALL-E Mini는 텍스트를 입력받아 해당 설명에 맞는 이미지를 생성하는 기술을 담당한다. 이를 위해 인공신경망을 사용하며, 생성된 이미지는 256x256 픽셀 크기로 제한된다. CLIP은 이미지와 텍스트 사이의 관련성을 측정하는 기술로, 이미지와 텍스트를 함께 입력받아 이미지가 주어진 텍스트와 관련이 있는지를 판별한다.
DALL-E 2, 미드저니, 스테이블디퓨전의 가장 큰 특징은 텍스트와 이미지를 모두 고려하여 이미지를 생성하고 분류하는 것이다. 이를 통해 더욱 정확하고 의미 있는 이미지를 생성할 수 있다. 생성된 이미지는 고화질이며 높은 창의성을 지니기 때문에 예술 작품으로 활용될 수 있다.
스테이블 디퓨전은 텍스트를 입력해 그림을 생성하는 인공지능 프로그램으로 다음과 같은 특징과 장단점을 가지고 있다.
특징: 스테이블은 Stable Diffusion이라는 기술을 사용하여 텍스트를 그림으로 변환한다. Stable Diffusion은 텍스트를 이미지로 인코딩하고, 디코딩하는 과정에서 노이즈를 제거하고, 디퓨전을 반복하여 점차적으로 고화질의 그림을 생성하는 방식이다. 이 방식은 다른 인공지능 그림 프로그램보다 더 자연스럽고 세밀한 그림을 만들 수 있다.
스테이블의 장점은 다음과 같다.
호환성과 범용성이 좋다. 스테이블은 웹 브라우저에서 실행할 수 있으며, 구글 코랩과 같은 클라우드 서비스를 이용하면 컴퓨터의 성능에 상관없이 사용할 수 있다. 텍스트를 입력하는 것만으로 다양한 종류와 스타일의 그림을 생성할 수 있다.
무료로 무제한 생성이 가능하다. 스테이블은 오픈 소스 프로젝트로 개발되었으며, 라이선스에 따라 자유롭게 사용할 수 있다. 별도의 비용을 지불하지 않고도 원하는 만큼 그림을 생성할 수 있다.
실사 그림을 만들 수 있다. 스테이블은 최근 모델 개발이 지속되면서 카메라로 찍은 듯한 실사 그림을 생성하고 있다. 인물의 얼굴이나 몸매, 풍경 등의 실사 그림을 만들 수 있다.
단점: 스테이블의 단점은 다음과 같다.
시간이 오래 걸린다. 스테이블은 텍스트를 그림으로 변환하는 과정에서 디퓨전을 여러 번 반복한다. 이 과정은 고품질의 그림을 만들기 위한 필수적인 단계지만, 시간이 많이 소요된다. 256x256 픽셀의 그림을 생성하는 데에는 약 10분 정도가 걸린다.
결과가 예측하기 어렵다. 스테이블은 텍스트를 입력하는 것만으로 그림을 생성한다. 이는 사용자가 원하는 그림을 쉽게 만들 수 있다는 장점이 있지만, 반대로 결과가 예측하기 어렵다는 단점도 있다. 텍스트에 명확하지 않은 부분이 있거나 모호한 단어가 있으면, 스테이블은 자신의 판단에 따라 그림을 생성한다. 이 때문에, 사용자가 의도한 것과 다른 그림이 생성될 수 있다.
DALL-E Mini란 DALL-E Mini는 OpenAI가 개발한 DALL-E 2라는 인공지능 시스템의 간소화된 버전이다. DALL-E 2는 자연어로 된 설명을 입력하면 그에 맞는 사실적이고 창의적인 이미지를 생성할 수 있는 기술이다. "포토리얼리스틱 스타일로 우주비행사가 말을 타고 있는 모습"이라고 입력하면, DALL-E 2는 그에 해당하는 이미지를 여러 가지로 만들어준다.
DALL-E Mini는 DALL-E 2와 비슷한 기능을 제공하지만, 해상도가 낮고 퀄리티가 떨어진다. 그래도 DALL-E 2를 직접 체험해 볼 수 있는 사이트로서 많은 관심을 받고 있다. DALL-E Mini는 다양한 주제와 스타일의 이미지를 생성할 수 있으며, 사용자의 창의력을 도와준다.
DALL-E Mini의 특징과 장단점에 대해 알아본다.
DALL-E Mini의 특징은 다음과 같다.
자연어로 된 프롬프트를 입력하면 3x3 격자 형태로 9개의 이미지를 생성해 준다.
프롬프트에 개념, 속성, 스타일 등을 조합할 수 있다. "빨간색 고양이가 피자를 먹고 있는 모습"이라고 입력하면, 그에 맞는 이미지를 만들어준다.
생성된 이미지를 클릭하면 원본 크기로 볼 수 있고 이미지를 다운로드하거나 공유할 수 있다.
갤러리에서 다른 사용자들이 만든 이미지를 볼 수 있으며 자신이 만든 이미지도 갤러리에 업로드할 수 있다.
DALL-E Mini의 장점은 다음과 같다.
DALL-E 2와 비슷한 기능을 무료로 이용할 수 있고 창의적인 이미지를 쉽고 빠르게 생성할 수 있으며 다양한 주제와 스타일의 이미지를 만들어볼 수 있다.
DALL-E Mini의 단점은 다음과 같다.
해상도가 낮고 퀄리티가 떨어진다.
트래픽이 많으면 오류 메시지가 나타나거나 시간이 오래 걸릴 수 있다.
부적절하거나 윤리적으로 문제가 있는 프롬프트에 대해서는 이미지를 생성하지 않는다.
DALL-E Mini는 인공지능 시스템의 발전과 가능성을 보여주는 사이트로써 DALL-E 2와 비교해도 충분히 재미있고 유용한 기능을 제공한다. 그러나 DALL-E Mini가 만들어내는 이미지는 항상 정확하거나 사실적인 것은 아니므로, 이 점을 유의해야 한다. DALL-E Mini를 이용할 때에는 적절하고 윤리적인 프롬프트를 입력하는 것이 중요하다.
AI 오픈 소스 Midjourney란 미드저니는 텍스트를 이미지로 바꿔주는 인공지능 화가이다. 인공지능 연구소에서 개발한 생성형 AI로, Open AI에서 만든 DALL-E와 영국의 스타트업 스태빌리티 AI가 무료로 공개한 오픈소스 기반의 스테이블 디퓨전과 비슷하다. 미드저니는 채팅 서비스 디스코드에서 이용할 수 있으며, 원하는 이미지를 글로 입력하면 몇 초 안에 그림을 만들어준다.
미드저니의 특징은 다양한 화풍과 색감을 가진 이미지를 생성할 수 있고 유화나 수묵화, 특정 유파의 기법 등을 지정하면 그에 맞는 이미지를 만들어낼 수 있다. 생성된 이미지를 세부적으로 조정하거나 변형할 수도 있고 U1~4 버튼은 선택한 이미지를 큰 이미지로 저장하고, V1~4 버튼은 해당 이미지와 비슷한 그림을 다시 생성할 수 있다. 미드저니는 프롬프트를 세밀히 조정하는 것에 따라 다양한 결과물을 얻을 수 있다.
미드저니의 장점은 쉽고 빠르게 원하는 이미지를 생성할 수 있다는 점으로 코드를 몰라도 명령어와 글만으로 그림을 그릴 수 있으며, 다른 사람들이 만든 프롬프트를 참고하거나 공유할 수도 있다. 미드저니는 인공지능 화가의 실력이 점차 발전하고 있다는 점으로 달리나 스테이블 디퓨전보다 세련되고 사실적인 이미지를 생성할 수 있다고 평가받고 있다.
미드저니의 단점은 유료 구독제라는 점이다. 25번의 이미지 생성은 무료이나, 그 이상 생성하려면 유료 구독을 해야 한다. 무료로 사용하는 경우에는 디스코드에서 내가 생성하는 이미지와 프롬프트를 다른 사람들도 볼 수 있다. 유료로 전환하면 내 창작물을 타인이 못 보게 할 수 있다. 미드저니가 생성하는 이미지의 저작권은 누구에게 귀속되는지 명확하지 않다는 점이다. 인공지능이 만든 작품의 저작권은 현행 법률에서 인정하지 않는다.
그러나 DALL-E 2, 미드저니, 스테이블 디퓨전은 아직까지도 한계점이 존재한다. 특히, 생성된 이미지가 비현실적이거나 불완전한 경우가 있기 때문에, 보다 발전된 기술의 도입이 필요하며 생성된 이미지에 대한 저작권 문제도 여전히 논의 중에 있다.
종합적으로, DALL-E 2, 미드저니, 스테이블 디퓨전은 창작과 예술 분야에서 인공지능의 활용 가능성을 보여주고 있으며, 보다 발전된 기술의 개발과 저작권 문제의 해결이 필요하다.
'Hot issue' 카테고리의 다른 글
AI 시대의 SNS를 통한 에코챔버, 필터버블, 확증 편향 (1) | 2023.06.06 |
---|---|
AI-아바타 Return of the Warrior Queen (0) | 2023.04.20 |
댓글