Journal of Broadcast Engineering
[ Special Paper ]
JOURNAL OF BROADCAST ENGINEERING - Vol. 29, No. 6, pp.851-865
ISSN: 1226-7953 (Print) 2287-9137 (Online)
Print publication date 30 Nov 2024
Received 04 Sep 2024 Revised 28 Oct 2024 Accepted 29 Oct 2024
DOI: https://doi.org/10.5909/JBE.2024.29.6.851

LoRA 모델 기반 Stable Diffusion을 활용한 언론사 맞춤형 기사 삽화 생성

김시은a) ; 선우가빈a) ; 이용건b) ; 김영길a),
a)서울시립대학교
b)한국방송공사
Customized Article Illustrations for Media Companies with LoRA Model-based Stable Diffusion
Si-Eun Kima) ; Ga-Bhin Seonwooa) ; Yong-Gun Leeb) ; Young-Gil Kima),
a)University of Seoul
b)KBS

Correspondence to: 김영길(Young-Gil Kim) E-mail: ygkim72@uos.ac.kr Tel: +82-2-6490-2340

Copyright © 2024 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”

초록

이 연구는 LoRA(Low-Rank Adaptation) 모델 기반의 Stable Diffusion을 활용해 언론사 맞춤형 기사 삽화를 자동으로 생성하는 시스템을 제안한다. 사용자는 GPT-4 모델을 활용해 기사 제목 및 내용을 기반으로 프롬프트를 자동으로 생성하며 이를 통해 언론사의 아이덴티티를 유지하는 삽화를 제작할 수 있다. 실험 결과, 조선일보와 동아일보 기사에 적용된 LoRA 모델은 각 언론사의 고유한 그래픽 톤을 반영한 일러스트를 생성하는 데 성공했으며 자동 생성된 프롬프트 기반 삽화도 높은 품질을 보여줬다. 이 시스템은 언론사 기사 삽화 제작의 효율성을 크게 향상시킬 수 있다.

Abstract

This study proposes a system that automatically generates customized article illustrations for media companies using a LoRA (Low-Rank Adaptation) model-based Stable Diffusion. The system allows users to automatically generate prompts based on article titles and content using the GPT-4 model, creating illustrations that maintain consistent media outlet styles. Experimental results show that the LoRA model, applied to articles from Chosun Ilbo and Dong-A Ilbo, successfully generated illustrations that reflect each outlet's unique graphic tone. The illustrations generated from the automated prompts were of high quality, indicating that the system significantly improves the efficiency of creating media article illustrations.

Keywords:

Generative AI, LoRA Model, News Illustration Generation, Prompt Generation

Ⅰ. 서 론

인공지능(AI) 기술의 발전은 이미지 생성 분야의 자동화와 효율성 개선에 기여하고 있다. 대규모 데이터에 기반한 딥러닝 모델의 발전은 텍스트를 입력하여 이미지를 생성하는 생성형 AI 모델의 성장을 촉진했다. 2022년 OpenAI가 발표한 DALL-E2[1]와 이후 등장한 Stable Diffusion[2] 등은 이미지 생성의 접근성을 향상시켰으며, 이를 활용한 응용 사례가 증가하고 있다. 현재 패션, 광고, 미디어 등 다양한 산업에서 생성형 AI를 사용해 맞춤형 비주얼 콘텐츠를 제작하고 있으며, 비용 효율성 및 제작 시간 단축을 목표로 하고 있다. 이러한 기술들은 기업의 브랜드 아이덴티티 유지와 콘텐츠 제작 자동화를 동시에 달성하는 수단으로 자리 잡고 있다.

최근 생성형 이미지 AI에 대한 연구는 텍스트 설명을 기반으로 이미지를 생성하는 모델 개발에 중점을 두고 있다. He et al.(2023)은 Generative Adversarial Networks(GANs)를 활용한 이미지 합성 기술을 종합적으로 검토하며, 이 기술이 다양한 응용 사례에 어떻게 적용될 수 있는지를 분석했다[3]. OpenAI의 Ramesh et al.(2022)은 CLIP과 결합된 모델을 통해 텍스트 조건을 기반으로 한 계층적 이미지 생성 방법을 제시했으며[4], 이는 고품질 이미지 생성의 새로운 기준을 마련했다. Saharia et al.(2021)은 Imagen 모델을 통해 텍스트 설명만으로도 사진 품질의 이미지를 생성하는 혁신적인 방법을 선보였다[5]. Rombach et al.(2022)은 Stable Diffusion 모델의 기초가 되는 Latent Diffusion Models(LDMs)을 도입하여 고해상도 이미지 생성의 효율성을 크게 향상시켰다[6]. Zhang et al.(2023)은 LoRA (Low-Rank Adaptation) 기법을 도입해 대규모 생성 모델의 학습 효율성을 높임으로써, 생성형 AI의 활용 가능성을 한층 더 확장하였다[7].

생성형 이미지 AI 기술은 다양한 산업 분야에서 적용되고 있다. Naver의 Clova AI는 텍스트를 기반으로 사용자 맞춤형 이미지를 생성해 쇼핑, 광고, 미디어 등 여러 분야에서 활용하고 있다[8]. 이 기술은 사용자의 요구에 맞춘 이미지를 자동으로 생성하여, 콘텐츠 제작의 효율성을 높이고 있다. 카카오엔터프라이즈는 자사의 AI를 통해 카카오톡 이모티콘과 카카오페이지 삽화와 같은 이미지 콘텐츠를 자동으로 생성하며, 사용자에게 개인화된 경험을 제공하고 있다[9]. SK텔레콤은 광고 및 마케팅 분야에서 AI를 활용해 브랜드의 일관성을 유지하면서도 비용 효율적인 이미지를 생성하는 솔루션을 개발하였다[10]. LG AI Research의 Exaone은 텍스트를 바탕으로 제품 디자인과 마케팅 이미지를 생성하는 데 활용되고 있으며, 이를 통해 제품 개발과 프로모션 전략을 지원하고 있다[11]. 삼성전자는 AI 기반 UX 디자인을 통해 전자기기 인터페이스에 적합한 이미지를 자동으로 생성하고 있으며, 사용자 맞춤형 인터페이스를 제공하는 데 중점을 두고 있다[12]. 이와 같은 사례들은 생성형 이미지 AI 기술이 산업 전반에 걸쳐 콘텐츠 제작의 핵심 도구로 자리 잡고 있음을 보여준다. 그러나 언론 분야에 적용되는 생성형 AI의 경우 딥러닝 모델을 통해 자동 생성된 이미지가 기사 혹은 언론사의 그림 톤과 맞지 않아 독자에게 혼란이나 거부감을 유발하는 경우가 발생할 수 있다. 이는 브랜드 아이덴티티와 미디어의 신뢰성을 훼손하는 요인으로 작용할 수 있기 때문에 보완이 필수적이다.

이러한 문제를 해결하기 위해 Stable Diffusion 모델을 LoRA 파인튜닝하여 기사 삽화의 그래픽 톤을 일관되게 유지하는 방법론과, OpenAI의 ChatGPT API를 활용하여 사용자가 기사 전문을 입력하였을 때, 기사에 어울리는 프롬프트를 자동으로 생성하는 시스템을 제안한다. 언론사는 기사의 시각적 표현을 통해 독자의 관심을 끌고, 정보의 전달력을 높이기 위해 일러스트를 활용하지만, 일러스트 제작 과정은 전문가의 손길이 필요하거나 시간이 많이 소요되는 문제를 갖고 있다. 이로 인해 효율적인 삽화 생성에 대한 필요성이 대두되었으며, 본 연구에서는 생성형 AI와 LLM을 결합한 자동화된 삽화 생성 시스템을 개발하였다. 본 시스템은 프롬프트 생성 모듈, LoRA 학습 모듈, 이미지 생성 모듈로 구성된다. 프롬프트 생성 모듈은 사용자가 입력한 기사 제목과 내용을 기반으로 GPT-4 모델을 활용해 한국어 요약본과 영어 프롬프트를 자동으로 생성한다. 이 과정에서 사용자는 챗봇을 통해 자동 생성된 프롬프트를 검토하고 직접 수정할 수 있으며, 프롬프트 엔지니어링에 대한 전문적인 지식이 없더라도 원하는 삽화를 쉽게 제작할 수 있도록 한다. LoRA 학습 모듈은 특정 언론사의 일러스트 스타일을 학습해 해당 스타일을 반영한 일러스트를 생성할 수 있는 모델을 제공한다. 본 연구에서는 Stable Diffusion의 여러 체크 포인트 중, SDXL 체크포인트와 조선일보 34개, 동아일보 27개의 기사 이미지 톤과 스타일을 학습시킨 LoRA 모델을 사용하였다. 이미지 생성 모듈은 생성된 프롬프트와 학습된 LoRA 모델을 활용하여 실제로 기사의 내용을 반영한 일러스트를 생성한다. Stable Diffusion Web UI를 사용해 파라미터 조정 및 반복적인 생성 과정을 통해 최적의 이미지를 도출할 수 있으며, 여러 체크포인트를 통해 스타일 다양성을 제공한다. 언론사 기사의 일러스트를 학습한 LoRA 모델을 통해 각 언론사의 일러스트 스타일을 유지하면서 기사의 내용을 반영한 이미지를 생성하였고, 사용자가 직접 입력한 프롬프트를 통해 생성한 이미지, ChatGPT API를 통해 자동 생성된 프롬프트를 통해 생성한 이미지를 원본 일러스트와 비교하여 스타일적 유사성을 평가하였다. 결과적으로 생성된 일러스트는 원본 일러스트와 유사한 색상과 텍스처를 유지하며 기사의 내용을 효과적으로 반영하는 것을 확인하였다. GPT 프롬프트 기반으로 생성된 일러스트는 구도와 상황 묘사에서 원본 일러스트와 유사한 결과를 보였으며, 사용자가 직접 작성한 프롬프트와도 유사한 품질을 보였다.

본 연구는 Stable Diffusion 모델을 LoRA 기법으로 파인튜닝하고, CharGPT API를 활용하여 기사 삽화에 적합한 프롬프트를 자동으로 생성하는 시스템을 제안한다. 이를 통해 특정 언론사의 고유한 그래픽 톤을 유지하면서도 효율적인 삽화 생성을 지원한다. 본 연구에서 개발한 시스템은 조선일보와 동아일보 기사를 대상으로 실험되었으며, 프롬프트 자동 생성과 LoRA 기반 이미지 생성의 효용성을 평가한다. 언급된 두 언론사 외 다른 언론사라도 고유의 그래픽 톤 등의 브랜드 아이덴티티를 보유하고 있다면 기존의 일러스트를 학습한 LoRA 모델을 통해 생성형 AI를 통해 일러스트를 생성할 수 있다. 또한, ChatGPT API의 요약 기능을 활용해 기사 작성자가 삽화 생성을 위한 프롬프트를 별도로 작성할 필요 없이, 시스템이 자동으로 적합한 프롬프트를 생성하도록 하였다. 자동으로 생성된 프롬프트를 사용자가 수정할 수 있는 과정을 마련함으로써 사용자가 기사 내용을 기반으로 쉽게 일러스트를 제작할 수 있음과 동시에 프롬프트 작성 과정에서의 어려움을 최소화할 수 있도록 하였다. 이 연구는 기사 삽화 제작의 효율성을 크게 향상시키고, 생성형 AI를 활용한 콘텐츠 제작의 새로운 패러다임을 제시한다.


Ⅱ. 시스템 모델

본 연구에서는 LLM(Large Language Model)을 활용하여 생성형 AI에 사용할 프롬프트 생성 서비스를 제공한다. 이 시스템은 생성형 AI를 통해 특정 언론사의 일러스트 스타일을 반영한 이미지를 생성하는 데 중점을 두고 있다. 그림 1은 전체 시스템의 흐름도를 나타내고 있으며, 사용자가 기사 전문을 입력하면 ChatGPT API를 사용하여 해당 기사에 적합한 삽화를 생성하기 위한 프롬프트를 자동으로 생성하는 시스템을 구현하였다. 특히, 특정 언론사의 기사 이미지 톤과 스타일을 학습한 모델을 활용하여, Stable Diffusion으로 생성된 일러스트가 특정 언론사의 일러스트와 시각적으로 유사하며, 독자가 기사를 보다 잘 이해할 수 있도록 돕는 삽화의 역할을 수행할 수 있도록 제작하였다. 이러한 방식으로 사용자는 직접 그림을 그리지 않아도 기사의 내용을 반영한 프롬프트를 작성할 수 있는 환경을 제공받는다. 또한 GPT-4를 활용하여 프롬프트 엔지니어링에 대한 전문 지식이 없는 사용자도 기사 삽화를 쉽고 빠르게 제작할 수 있도록 프롬프트를 자동으로 생성하는 Chatbot 시스템을 구현하였다.

Fig. 1.

Flowchart of the proposed article illustration prompt generation system

이 시스템은 특정 언론사의 기사를 수집하여 GPT-4에 제공하고, 이를 요약 및 분석하여 영어 프롬프트를 생성한다. GPT-4는 사용자로부터 받은 기사 전문에서 주요 키워드와 문맥을 추출하여 이를 시각적으로 표현할 수 있는 프롬프트로 변환한다. 생성된 프롬프트는 주제에 부합하는 시각적 요소들을 포함하며, 궁극적으로 사용자가 원하는 이미지를 효율적으로 생성할 수 있도록 돕는다. 이후 Stable Diffusion에 LoRA 모델과 프롬프트를 업로드하고 이미지를 생성한다. 필요한 경우, 자동 프롬프트 생성 시스템에서 구체적인 수정 요청을 반영하며, 반복적인 생성과 수정 과정을 통해 최종 이미지에 도달한다. 전체 시스템은 LoRA 모델과 ChatGPT API를 활용하여 프롬프트 작성 과정을 효율적으로 단축하고, 사용자가 기사 삽화를 생성하는 목적을 더욱 효과적으로 달성할 수 있도록 한다. 제안하는 시스템은 크게 프롬프트 생성 모듈, LoRA 학습 모듈, 이미지 생성 모듈로 구성된다. 이하에서는 각 모듈의 구성과 구현에 대해 구체적으로 설명한다.

1. 프롬프트 생성 모듈

프롬프트 생성 모듈은 사용자가 기사 제목 및 전문을 입력하면, 이를 바탕으로 한국어 요약본과 영어 프롬프트를 생성하는 기능을 제공한다. Front-End는 Gradio 인터페이스로 구현되었으며, Back-End는 ChatGPT API를 활용하여 입력된 기사 전문의 핵심을 요약하고 삽화 생성에 적합한 프롬프트를 자동으로 생성한다. 이 과정은 Chatbot 형식으로 설계되어 질문과 답변 내역이 기록되며, 생성된 프롬프트는 Stable Diffusion에 활용되어 기사의 삽화를 효율적으로 생성할 수 있다. API의 system 역할 설정에서 프롬프트 엔지니어링 기법을 제시하고, 실제 사용자와의 대화 예시를 제공하여 GPT-4가 맥락을 기억하도록 하였다. 사용자가 기사 내용을 입력했을 때 GPT는 프롬프트를 생성하고, 이후 사용자가 요청한 수정 사항을 반영하여 재작성하는 과정을 통해 프롬프트 작성 방법과 구성 요소를 학습할 수 있도록 설계하였다. 프롬프트 생성 후 즉시 이미지를 생성할 수 있도록 인터페이스 하단에 Stable Diffusion Web UI 링크를 제공한다.

본 연구에서는 다양한 프롬프트 수정 방법을 제안한다. 사용자는 추가 또는 삭제하고자 하는 부분을 지정하여 요청하거나, 기존에 생성된 프롬프트와 유사한 여러 대안을 추천받을 수 있다. 또한 GPT가 기사를 여러 버전으로 요약하고, 각 버전에 적절한 프롬프트를 생성하는 방식으로 프롬프트를 수정할 수 있다. 이러한 수정 절차를 거쳐 첫 시도에 원하는 프롬프트가 생성되지 않더라도 다양한 방식을 통해 짧은 시간 내에 다양한 이미지를 재생성할 수 있다. 이를 통해 본 연구는 프롬프트 생성에 최적화된 GPT 모델의 가능성을 보여준다.

2. LoRA 학습 모듈

LoRA(Low-Rank Adaptation) 학습 모듈은 특정 언론사의 스타일에 적합한 기사 삽화를 생성하기 위한 모델을 제작한다. LoRA는 미세 조정(fine-tuning) 과정에서 훈련해야 하는 매개변수의 수를 줄이기 위해 사전 훈련된 모델의 가중치를 고정하고, 트랜스포머(Transformer) 아키텍처의 각 계층에 훈련 가능한 저랭크(rank decomposition) 행렬을 삽입하는 방법으로, 이를 통해 다운스트림 작업의 계산 및 메모리 요구 사항을 크게 줄이면서도 모델 성능을 유지하거나 개선할 수 있다[13].

LoRA 학습 과정은 그림 2와 같다. 첫째, 학습하고자 하는 이미지를 수집하며, 이 과정에서 적절한 전처리가 필요하다. 실험에서 사용한 SDXL Checkpoint는 1024x1024 해상도를 기반으로 학습한다는 특징을 갖고 있어, 이에 맞추어 수집한 이미지의 해상도를 통일해야 한다. 둘째, 전처리된 이미지에 대해 Captioning을 수행하여 각 이미지를 설명하는 텍스트를 얻는다. 이후 학습하고자 하는 repeats 수를 이미지에 지정한다. 본 실험에서는 최대로 학습할 수 있는 150을 선택하였다. 셋째, LoRA 학습을 진행한다. captioning 방법, epoch와 step의 변화 등 다양한 조건에서 LoRA 학습을 실시하여 가장 적합한 LoRA 모델을 선택한다.

Fig. 2.

Flowchart of the LoRA learning experiment illustrated by each media outlet

본 실험에서는 학습 프로그램으로 kohya_ss GUI를 사용하여 Stable Diffusion 기반의 LoRA 모델을 학습하였으며, RunPod 클라우드 서비스 환경(Ubuntu 22.04, NVIDIA A5000 GPU x 1, PyTorch 2.0.1)을 활용하였다. 일정한 일러스트 그래픽 톤을 보유한 국내 언론사(조선일보, 동아일보)의 뉴스 기사 일러스트를 수집하였으며, 각 일러스트는 동일한 작가의 작품을 사용하여 그래픽 톤이 비슷한 LoRA를 학습하고자 하였다. 각 언론사별로 구분된 일러스트에 대해 여러 Captioning 기법을 사용하여 이미지 내용을 설명하는 텍스트를 생성하고 이를 LoRA 학습에 적용하여 다양한 LoRA 모델을 생성하였다. 본 연구는 다양한 캡션 생성 방법을 비교 분석하여 최적의 LoRA 모델을 선정하였다. 이는 생성된 이미지가 기사의 주요 내용을 명확히 반영하도록 하는 데 목적이 있다.

3. 이미지 생성 모듈

이미지 생성 모듈은 Stable Diffusion에 생성된 프롬프트와 학습된 LoRA 모델을 적용하여 기사 내용에 적합한 일러스트를 생성한다. 이때 Stable Diffusion의 체크포인트로 SDXL(stable-diffusion-xl-base-1.0)을 사용하며, Hugging Face 플랫폼에서 제공되는 모델을 기반으로 한다. AUTO-MATIC1111의 Stable Diffusion Web UI를 활용하여 SDXL은 총 66억 개의 파라미터를 사용하여 이미지를 생성할 수 있으며 오픈소스로 공개된 모델이다[14]. 이것으로 다양한 파라미터 조정이 가능하며 txt2img 기능을 통해 동일한 프롬프트로 다양한 이미지를 생성하고, img2img 기능을 통해 생성된 이미지를 수정한다. 앞의 과정을 거쳐 사용자가 원하는 이미지의 세부 사항을 더욱 정확하게 반영할 수 있다.


Ⅲ. 실험 및 결과

본 실험에서는 조선일보와 동아일보의 기사를 각각 수집하여 LoRA 모델을 학습하고, 이를 Stable Diffusion에 적용하여 기사에 삽입될 일러스트를 생성하였다. 생성된 일러스트는 기사의 원본 일러스트, 사용자 작성 프롬프트 기반 일러스트, 그리고 GPT 생성 프롬프트 기반 일러스트와 비교하였다. 이를 통해 학습된 LoRA 모델이 기사 삽화 생성에 적합한지를 평가하였으며, 나아가 GPT를 활용한 자동 프롬프트 생성 시스템의 성능을 검증하고, 이를 사용자가 직접 작성한 프롬프트의 결과와 비교하여 본 시스템의 효율성을 보였다. 추가로, 서로 다른 두 언론사의 이미지를 혼합하여 LoRA를 학습시키고, 이를 통해 일러스트를 생성하는 실험을 수행하였다. 이 과정에서 각 언론사의 그래픽 스타일이 학습된 LoRA 모델에 어떻게 반영되는지 비교 분석하였다.

시스템 성능의 평가 기준은 다음과 같다. 첫째, LoRA 모델의 성능을 평가하기 위해 사용자 작성 프롬프트 기반 일러스트와 기사의 원본 일러스트 간의 스타일을 비교하였다. 사용자가 생성한 일러스트가 원본 일러스트와 톤 및 분위기와 같은 스타일적 유사성을 유지하는 경우, 해당 모델이 특정 언론사의 고유한 스타일을 반영하여 이미지를 생성할 수 있는 것으로 판단하였다.

둘째, GPT 프롬프트 생성 시스템의 성능을 평가하기 위해 GPT 생성 프롬프트 기반 일러스트와 원본 일러스트가 표현하고자 하는 내용을 비교하였다. 이전 단계에서 사용자 작성 프롬프트를 통해 원본과 스타일이 유사한 결과를 확인하였다면, GPT가 생성한 프롬프트의 경우에도 동일한 LoRA 모델을 사용하므로 일러스트의 스타일은 유사하다. GPT 기반 프롬프트로 생성된 일러스트가 원본과 유사한 내용을 표현하는 경우, 이는 기사의 내용을 잘 반영하고 있음을 의미한다. 이러한 결과는 사용자가 별도의 프롬프트를 작성하지 않고도, 기사를 수집하여 자동으로 생성된 프롬프트를 통해 기사 삽화를 생성할 수 있는 가능성을 시사한다. GPT 생성 프롬프트 기반 일러스트와 원본 일러스트의 상황 묘사가 다르더라도, 이는 GPT가 기사의 내용을 정확히 반영하지 못했다고 해석할 수는 없다. 묘사 방식의 차이가 존재할 수 있으며, 이러한 차이는 두 일러스트가 기사의 핵심 내용을 다르게 표현한 결과일 가능성이 있다. 따라서 이러한 경우, 기사를 직접 읽어서 GPT 기반 일러스트가 담고 있는 기사의 내용이 존재하는지 확인하였으며, 존재한다면 GPT 기반 프롬프트가 기사 삽화 생성에 적절하다고 결론지었다. 이로써 본 시스템은 사용자가 프롬프트를 직접 작성하는 시간과 노력을 절감하여 간단하게 기사 삽화를 생성할 수 있다는 결론을 도출할 수 있다.

실험에 앞서, 이미지 생성 시 사용할 Sampler, Scheduler, LoRA weight 등의 파라미터 최적 조합을 Grid Search 방법을 통해 탐색하였다. Grid Search는 Stable-Diffusion-webui에서 제공하는 x/y/z plot 기능을 활용하여 수행하였으며, 그 결과 Sampler: DPM++ 3M SDE, Scheduler: Karras, LoRA weight: 1의 조합이 각 언론사의 그래픽 톤을 가장 효과적으로 모방하는 것으로 나타났다. 이 조합을 바탕으로 하위 실험 섹션 1, 2, 3, 4를 진행하였다.

1. Caption 유형별 LoRA 학습

LoRA를 학습시킬 때, 이미지와 연관된 텍스트를 Caption이라고 한다. 이러한 Caption의 유형을 달리했을 때 일러스트 생성에 어떤 영향이 있는지 확인해 보고자 하였다. 실험 결과의 x축은 이미지 생성 시 사용하는 Sampler이고, y축은 LoRA의 weight이다. Caption 유형은 Caption 없음, BLIP으로 생성한 Caption, 일러스트가 삽입된 기사 내용을 직접 발췌하여 생성한 Caption으로 나누었다. 학습 환경과 데이터는 Ⅲ-2, 3과 동일하며, 100 steps * 5 epoch만큼 학습되었다.

그림 3의 결과를 보면, 학습 시 Caption을 작성하지 않고 학습한 경우에는 기존 기사의 톤을 반영하지 못한 그래픽 톤을 나타낸다. BLIP Caption과 기사 전문을 사용한 Caption은 생성된 이미지의 디테일에서 차이가 존재했다. BLIP로 생성한 Caption에서는 농부의 모습이 16개 중 8개 이미지에서 나타났으나, 기사 전문을 Caption으로 사용한 모델에서는 동일한 이미지 중 12개에서 농부의 모습이 포함된 것을 확인하였다. 이는 구체적인 Caption이 이미지 생성의 정확도를 높이는 데 기여할 수 있음을 시사한다.

Fig. 3.

Comparison of generated images by caption type (a) no caption (b) BLIP caption (c) Full text caption

2. Step 수의 변화에 따른 LoRA 학습

LoRA 학습 시 적절한 step 수를 선택하는 것은 model의 성능에 중요한 영향을 미친다. 그러나 적절한 step 수는 고정된 값이 아닌, 학습 data 및 여러 parameter에 따라 달라질 수 있으므로 여러 번의 실험을 통해 최적의 step 수를 찾는 과정이 필요하다.

학습 프로그램 kohya_ss GUI의 경우, ‘total steps = repeats * epochs * images’로 계산한다. 본 실험에서는 약 30개의 이미지를 150 repeats, 3 epochs로 설정하여 약 13,000 ~15,000 steps를 학습하였으며, 매 epoch마다 생성된 LoRA model을 저장하고 테스트하였다. 이때 Tensorboard를 통해 step 수에 따른 loss 그래프를 확인하여 어느 step에서 적절한 LoRA가 생성되는지 확인한 뒤 적절한 LoRA model이라고 판단되는 것을 선택하였으며, 이 중 언론사의 일러스트의 스타일을 잘 표현하는 model을 최종적으로 선택하였다. 테스트 결과, 조선일보와 동아일보의 LoRA 모두 2 epoch에서 언론사의 일러스트 스타일을 잘 표현하는 결과를 얻을 수 있었다.

그림 4는 34개의 조선일보 일러스트로 학습한 LoRA의 step 수에 따른 평균 loss의 변화를 나타내며, 낮은 loss 값은 model의 성능이 높음을 의미한다. 그림 4에서 4,000~5,000 steps일 때와 10,000~11,000 steps일 때 loss가 낮은 것을 확인할 수 있다. 이는 각각 epoch 1과 2에 해당하며, 생성된 두 LoRA model을 비교하여 test하였다.

Fig. 4.

Graph of average loss over training steps

본 실험에서는 한정된 30여 개의 기사 일러스트를 최대한 모아 활용한 것이며, 부족한 데이터셋을 보완하고자 epoch 와 repeats 수를 늘려 학습 강도를 높이고자 하였다. 일반적으로 LoRA 학습 시 20~150장의 이미지가 사용되며, 데이터가 많을수록 강한 학습이 가능하다. 그러나 Few-shot learning 연구에 따르면, 소량의 이미지만으로도 모델 학습이 가능함이 입증되었다. 예를 들어, GAN 기반 연구에서는 32개의 데이터만으로도 특정 얼굴이나 스타일을 재현하는 model을 학습하여 높은 품질의 이미지를 생성한 바 있다[15]. 또한 적은 수의 이미지를 사용하여 특정 주제를 학습시키는 연구에서는 Dreambooth를 사용하여 3-5장의 이미지로도 강력한 개념 학습이 가능함을 보여주었으며, 이는 LoRA와 유사한 접근 방식을 제공한다[16].

3. 조선일보

조선일보 기사 34개에서 각 1장씩 수집된 이미지로 모델을 150 repeats * 2 epochs 학습한 뒤, 원본 일러스트가 삽입된 기사를 참고하여 적절한 프롬프트가 학습된 LoRA에 입력해 일러스트를 생성하였다.

그림 5를 참고하면, 사용자 작성 방식 모두 색상이 원본과 유사한 따뜻한 톤인 점, 단순하고 부드러운 텍스처를 유지하고 있는 점, 배경의 구성이 원본과 유사한 점 등을 고려했을 때 조선일보의 그래픽 톤을 일관되게 유지하며 일러스트를 생성함을 확인할 수 있다. GPT 작성 방식의 결과를 원본과 비교하였을 때 ‘삿포로의 눈, 서울의 눈’의 경우 표현하고자 하는 상황 자체는 다르지만, 배경이 겨울이고 눈이 내리는 풍경이 표현되었다는 점, ‘동짓날 팥죽과 유자 목욕’의 경우 유자가 들어 있는 욕조, 반신욕을 하는 여성이 표현되었다는 점에서 기사의 내용을 포함하고 있음을 확인할 수 있다.

Fig. 5.

Chosun Ilbo illustration creation results

GPT 생성 방식의 경우, 그림 6과 같이 처음 한 번의 답변으로 생성된 프롬프트를 사용하였으며, 한 번의 수정 과정을 거쳐 일러스트를 생성하였다. 그림 5의 ‘삿포로의 눈, 서울의 눈’ 기사 삽화 생성에 사용한 프롬프트는 “The snow in Seoul is grey mixed with fine dust and tiny plastic particles. People are out shoveling, coffee cup in the hand, squinting against the bright reflection of the sun. Concept of pollution, contrasting urban environments, plastic pollution, winter season.”이다. 이는 그림 6의 프롬프트에서 “A side-by-side comparison of a snowy scene in Sapporo and Seoul, the snow in Sapporo is bright and pure white while” 부분을 제외한 것이다. 그림 4의 ‘동짓날 팥죽과 유자 목욕’ 기사 삽화 생성에 사용한 프롬프트는 “A Japanese bath filled with yuzu fruits, steam rising, warm yellow glow, an individual stepping in with a relaxed expression, flickering traditional lanterns providing a gentle illumination, symbolic of ridding the year-long hardship.”이다. 이는 그림 5의 프롬프트에서 “A cozy scene set on the winter solstice, South Korean family sitting around a small traditional dining table making sweet rice balls, warm light pouring through the window, steaming red bean porridge in a Korean clay pot on the table, the strain of laughter and happiness, in contrast,” 부분을 제외한 것이다. 두 프롬프트로 생성된 이미지의 설정 정보는 다음과 같다. 공통으로 Steps: 150, Sampler: DPM++ 3M SDE, Schedule type: Karras, CFG scale: 7, Size: 1024x1024, Model hash: 31e35c80fc, Model: sd_xl_base_1.0, Lora hashes: “chosun_lee_ 8bitAdam: fef016299056”, Version: v1.10.1. 이며, 사용자 작성 방식과 GPT 작성 방식의 Seed는 각각 1531287046과 1305286672이다. 주어진 프롬프트와 파라미터 값을 그대로 Stable diffusion에 적용하여 생성하면 동일한 이미지를 얻을 수 있다.

Fig. 6.

GPT's prompt creation result for Chosun Ilbo (a) Article ‘Snow in Sapporo, Snow in Seoul’ (b) Article ‘Red Bean Soup and Yuja Bath on Dongji Day’

그림 7은 대표적으로 기사 ‘삿포로의 눈, 서울의 눈’에 대해 생성된 프롬프트의 다양한 수정 과정을 보여준다. 최종적으로 사용된 프롬프트는 그림 7 (a)에 해당한다. 단순히 프롬프트 내의 내용을 삭제하는 작업뿐만 아니라, 그림 7의 (b)와 (c)처럼 여러 프롬프트를 동시에 생성하는 방법도 활용할 수 있다. 해당 기사 이외의 다른 모든 기사들도 그림 7 (a)와 유사한 수정 과정을 거쳤으며, 대부분 프롬프트 내용의 삭제 또는 추가 요청만으로도 만족스러운 결과를 얻을 수 있었다.

Fig. 7.

Prompt edit process for the article ‘Snow in Sapporo, Snow in Seoul’ (a) Request for content removal (b) Request for simultaneous generation of multiple prompts (c) Request for simultaneous generation of various summaries and prompts

그림 8은 기사 ‘삿포로의 눈, 서울의 눈’의 프롬프트를 수정하기 전과 후에 생성된 이미지를 대표적으로 두 개씩 비교한 것이다. 수정 전의 프롬프트는 그림 6 (a)에 해당하며, 수정 후의 프롬프트는 그림 7 (a)에 해당한다. 수정 전에도 기사 속 등장하는 ‘눈’을 표현한 것을 확인하였으나, 수정 후의 이미지와 비교했을 때 기사의 핵심 내용을 충분히 반영하지 못하고 있다.

Fig. 8.

Comparison of Images Before and After Prompt Edit

4. 동아일보

동아일보 기사 27개에서 각 1장씩 수집된 이미지로 모델을 150 repeats * 2 epochs 학습하였으며, 이외의 과정은 Ⅲ-2와 동일하다. 그림 9의 사용자 작성 방식 결과, 부드럽고 단조로운 색채, 상황 묘사, 원본과 유사한 만화 스타일을 유지하며 동아일보의 그래픽 톤을 적절히 반영하는 것으로 나타났다. GPT 프롬프트 결과 또한 이미지가 표현하는 상황이 원본 및 인간 프롬프트와 동일하며, 기사를 잘 표현하는 일러스트가 생성되었다. 또한, GPT 작성 방식 역시 표현된 상황이 원본 및 사용자 작성 방식의 결과와 유사하며, 기사를 잘 반영한 일러스트를 생성할 수 있음을 확인하였다.

Fig. 9.

Dong-A Ilbo illustration creation result

GPT 기반 프롬프트의 경우, 처음 한 번의 답변으로 생성된 그림 10의 프롬프트를 사용하였다. 그림 9의 ‘K-모기와의 전쟁’ 기사 삽화 생성에 사용한 프롬프트는 “Angry man, holding an electric mosquito racket, using a fly swatter to catch a mosquito in a modern Korean home, late at night, battling mosquitoes with an mosquito swat, annoyance in his face, symbolizing small war, handheld invention, presence of ‘Korean Forest Mosquito’, motif of war, K-Mosquito Matters sign in background”이다. 이는 그림 6의 프롬프트에서 “holding an electric mosquito racket, using a fly swatter to catch a mosquito” 부분을 추가한 것이다. 그림 5의 ‘동네 구석구석에 숨겨진 보물들’ 기사 삽화 생성에 사용한 프롬프트는 “A small group of people, a mix of Koreans and foreigners, exploring a quiet neighborhood in Seoul on a sunny afternoon. They are wearing casual attire and face masks, and are various ages, from young adults to seniors. They're pacing around historical buildings, museums with the map in their hands. Lush green trees and traditional Korean architecture line the streets, highlighting the city's rich history and culture. The atmosphere is serene but also filled with curiosity and wonder as the group discovers hidden treasures of the neighborhood.”이다. 이는 그림 10의 프롬프트를 그대로 사용하였다. 두 프롬프트로 생성된 설정 정보는 Ⅲ-2와 동일하며, 사용자 작성 방식과 GPT 작성 방식의 Seed는 각각 1531287046과 496455212이다.

Fig. 10.

GPT's prompt creation result for Donga Ilbo (a) Article ‘War with K-Mosquitoes’ (b) Article ‘Hidden Treasures in Every Corner of the Neighborhood’

조선일보의 결과와 비교했을 때, 동아일보의 결과는 원본 일러스트가 표현하고자 하는 상황과 더 유사한 것으로 나타났다. 이는 GPT 기반 자동 프롬프트 생성 시스템이 기사의 핵심 내용을 정확하게 요약하고, 해당 기사에 적합한 프롬프트를 효과적으로 생성할 수 있음을 시사한다. 특히, 이러한 결과는 기사의 내용이 얼마나 구체적이고 일관적인지에 따라 GPT 시스템의 성능이 달라질 수 있음을 의미한다. 즉, 기사가 명확하고 하나의 주제에 대해 구체적으로 작성될수록 GPT가 더욱 적합한 프롬프트를 생성한다고 할 수 있다.

또한, GPT를 거쳐 생성된 일러스트 모두 Batch count를 2, Batch size를 4로 설정하여 총 8장의 이미지를 생성한 후, 이 중 가장 적합한 이미지를 선택하였다. 이 과정에서 프롬프트 생성부터 최종 이미지 선택까지 소요된 시간은 15분도 채 걸리지 않았으며, 이를 통해 GPT를 활용하여 조선일보에 적합한 삽화를 신속하고 간편하게 제작할 수 있음을 확인하였다.

5. 조선일보, 동아일보 혼합

앞서 학습한 두 LoRA 모델에 사용한 데이터셋을 통합하여 하나의 LoRA 모델을 학습하였으며, 이외 과정은 Ⅲ-1과 동일하다.

그림 11의 결과를 보면, 혼합 모델의 첫 번째 생성 결과는 원본 이미지와 유사한 상황을 묘사했으나, 조선일보 모델에 비해 선과 채색이 단조롭고 색감이 차가워진 것으로 나타났다. 이는 두 언론사의 스타일이 혼합되면서 개별 스타일이 약화된 결과로 해석할 수 있다. 두 번째 생성 결과는 상황 묘사 등에서 원본 이미지와 어느 정도의 유사성은 존재하나, 동아일보 모델의 생성 결과에 비해 색감이 조금 더 붉고 어두워진 점, 인물들의 비율이 줄어든 점, 배경이 고층 건물이 된 점, 인물의 얼굴에 모두 홍조와 안경이 생기는 점 등 여러 차이점을 보였다.

Fig. 11.

Chosun Ilbo, Dong-A Ilbo mixed model illustration creation result

6. 기존 방식과 자동화된 삽화 제작 시스템의 성능 비교

본 연구는 기사 삽화 제작 시간을 기존 방식 대비 평균 91.67% 절감하는 결과를 보였다. 기존의 디자이너 작업 방식에서는 삽화 제작에 평균 4-5시간이 소요되었으나, 본 시스템에서는 15-30분 내로 완성할 수 있었다. 또한, 프롬프트 자동 생성 기능을 통해 사용자 피드백을 반영한 반복 작업 횟수가 평균 73.33%, 프롬프트 작성 시간은 기존의 수작업 대비 83.33% 감소하였다. 이와 같은 결과는 조선일보와 동아일보 기사 각각을 대상으로 테스트한 평균값에 기반한다.

7. 이미지 생성 기술의 색상 유사성 평가

원본 이미지, 사용자 작성 방식 이미지, GPT 생성 방식 이미지 간의 색상 유사성을 정량적으로 평가하기 위해 히스토그램 분석 및 상관계수 계산을 수행하였다. MATLAB을 통해 각 이미지의 색상 히스토그램을 계산한 뒤, 히스토그램의 픽셀 밝기 값에 대한 빈도를 측정해 각 이미지 간의 상관계수를 계산해 색상 유사성을 정량적으로 평가하였다.

Comparison of Performance between Traditional Methods and Automated Illustration Production Systems

Correlation coefficients between the original image, user-written image, and GPT-generated image

상관계수는 두 이미지 간의 색상 유사성을 나타내는 중요한 지표이다. 원본 이미지와 사용자 작성 이미지 간의 상관계수는 평균적으로 0.39로, 사용자 작성 이미지가 원본의 색상 분포를 상당 부분 반영하고 있음을 확인할 수 있다. 반면 GPT 생성 이미지와의 상관계수는 평균 0.24인 것으로 계산되었다. 특히 그림 5_삿포로의 경우 GPT 생성 이미지의 상관계수가 0.027025로 이는 사실상 유사성이 없음을 보여준다. 이 값은 이상치로 간주될 수 있으며, 이로 인해 정확한 판단은 어려워졌다. 히스토그램은 단순히 픽셀 밝기 값에 대한 색상 분포를 나타내기 때문에 히스토그램을 통한 상관계수만으로는 언론사의 스타일을 반영하였는지 여부를 단정할 수 없어 평가 기준에 대한 보완이 필요하다는 점을 시사한다.

Fig. 12.

Color similarity histogram analysis of original, user-written, and GPT-generated images from Chosun Ilbo and Dong-A Ilbo


Ⅳ. 결 론

본 연구는 Stable Diffusion과 LoRA 모델을 결합하여 언론사의 고유한 그래픽 톤을 유지하면서 기사 내용을 반영한 삽화를 생성할 수 있음을 실험적으로 입증하였다. 조선일보와 동아일보를 대상으로 한 실험 결과, 생성된 삽화는 각 언론사의 스타일을 충실히 반영했으며, GPT-4를 활용한 자동 프롬프트 생성 기능이 사용자의 작업 시간 절감과 프롬프트 작성 효율성을 높이는 데 기여한 것으로 나타났다. 이때 생성된 일러스트는 사용자가 직접 작성한 프롬프트를 통해 얻은 결과물과 유사한 품질을 나타냈다. 이는 사용자가 기사의 전문을 모두 읽고 프롬프트를 직접 작성할 필요 없으며 특히 프롬프트 엔지니어링에 어려움을 느끼는 초심자를 대상으로 간단하고 편리하게 기사 삽화를 제작할 수 있는 가능성을 제시한다. 삽화 제작의 효율성을 향상시키고, 생성형 AI를 활용한 자동화된 콘텐츠 제작의 가능성을 제시하였다. 또한 본 연구에서 사용된 시스템은 다양한 언론사의 브랜드 정체성 유지와 콘텐츠 일관성을 지원하는 모델로 확장될 가능성이 있다. 이를 통해 디자인 인력이 부족한 기업에서도 일관된 이미지를 효율적으로 생성할 수 있을 것으로 기대된다.

Acknowledgments

이 논문의 연구 결과 중 일부는 한국방송·미디어공학회 2024년 하계학술대회에서 발표한 바 있음.

본 과제(결과물)는 교육부와 한국연구재단의 재원으로 지원을 받아 수행된 첨단분야 혁신융합대학사업(차세대 통신)의 연구결과입니다.

References

  • OpenAI, “DALL·E 2,” Available: https://openai.com/index/dall-e-2/.[Accessed:Sep.1,2024], .
  • Stable Diffusion Web, “Stable Diffusion Online,” Available: https://stablediffusionweb.com.[Accessed:Sep.1,2024], .
  • D. He, A. Smith, J. Zhang, “GANs for Image Synthesis: A Survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023.
  • A. Ramesh, P. Dhariwal, A. Nichol, “Hierarchical Text-Conditional Image Generation with CLIP Latents,” OpenAI, 2022.
  • C. Saharia, W. Chan, H. Saxena, “Imagen: Photorealistic Text-to-Image Diffusion Models,” NeurIPS, 2021. [https://doi.org/10.48550/arXiv.2205.11487]
  • R. Rombach, A. Blattmann, D. Lorenz, “High-Resolution Image Synthesis with Latent Diffusion Models,” CVPR, 2022. [https://doi.org/10.1109/cvpr52688.2022.01042]
  • Z. Zhang, S. Sun, X. Ren, “Low-Rank Adaptation of Large Language Models,” ACL, 2023.
  • Naver, “Clova AI: Revolutionizing Content Creation with AI,” Naver Tech Blog, 10 Jan. 2024, https://tech.naver.com/clova-ai.[Accessed:Oct.24,2024], .
  • Kakao Enterprise, “AI-based Emoticon and Illustration Generation Technology,” Kakao Tech Blog, 5 Apr. 2024, https://tech.kakao.com/ai-emoji-illustration.[Accessed:Oct.24,2024], .
  • SK Telecom, “AI-based Advertising Image Generation Solution,” SK Telecom Newsroom, 12 Feb. 2024, https://news.sktelecom.com/ai-ad-image-generation.[Accessed:Oct.24,2024], .
  • LG AI Research, “Exaone: The Future of AI-Powered Product Design,” LG Newsroom, 15 Mar. 2023, https://lgnewsroom.com/exaone-ai-product-design.[Accessed:Oct.24,2024], .
  • Samsung Electronics, “AI-Driven Innovation in UX Design,” Samsung Newsroom, 22 Feb. 2024, https://news.samsung.com/ux-design-ai-innovation.[Accessed:Oct.24,2024], .
  • Hu, Edward J., et al. “Lora: Low-rank adaptation of large language models.” arXiv preprint, arXiv:2106.09685, , 2021.
  • Lee, Wonjoo, Cho, Youngbok, Choi, Jian, Jeong, Yujin, Jeong, Minsu, Lee, Hyunseong, and Ok, Changhee, “A Design and Implementation of Generative AI-based Advertising Image Production Service Application,” Journal of the Korea Society of Computer and Information, vol. 29, no. 5, pp. 31-38, 2024.
  • E. Zakharov, A. Shysheya, E. Burkov, and V. Lempitsky, “Few-Shot Adversarial Learning of Realistic Neural Talking Head Models,” in *arXiv preprint arXiv:1905.08233, *, Sep. 2019. [https://doi.org/10.1109/iccv.2019.00955]
  • N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, and K. Aberman, “DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation,” *arXiv preprint arXiv:2208.12242, *, Mar. 2023. [https://doi.org/10.1109/cvpr52729.2023.02155]
  • Guru. (n.d.). How much do illustrators charge per image? Retrieved October 27, 2024, from https://www.guru.com/blog/how-much-do-illustrators-charge-per-image/[Accessed:Oct.24,2024], .
김 시 은

- 서울시립대학교 전자전기컴퓨터공학부 학사과정

- ORCID : https://orcid.org/0009-0005-2978-0324

- 주관심분야 : 비디오/영상 처리(컴퓨터비전/인공지능기반 영상처리)

선우가빈

- 서울시립대학교 세무학과 및 전자전기컴퓨터공학부 학사과정 복수전공

- ORCID : https://orcid.org/0009-0000-1949-8214

- 주관심분야 : 리스크 관리, 데이터 분석

이 용 건

- KBS 미디어기술연구소 연구원

- ORCID : https://orcid.org/0009-0007-5955-9203

- 주관심분야 : 비디오/영상 압축

김 영 길

- 서울시립대학교 전자전기컴퓨터공학부 교수

- ORCID : https://orcid.org/0000-0001-7066-0555

- 주관심분야 : 이동통신, 음성/오디오 처리, 비디오/영상 처리(컴퓨터비전/인공지능기반 영상처리)

Fig. 1.

Fig. 1.
Flowchart of the proposed article illustration prompt generation system

Fig. 2.

Fig. 2.
Flowchart of the LoRA learning experiment illustrated by each media outlet

Fig. 3.

Fig. 3.
Comparison of generated images by caption type (a) no caption (b) BLIP caption (c) Full text caption

Fig. 4.

Fig. 4.
Graph of average loss over training steps

Fig. 5.

Fig. 5.
Chosun Ilbo illustration creation results

Fig. 6.

Fig. 6.
GPT's prompt creation result for Chosun Ilbo (a) Article ‘Snow in Sapporo, Snow in Seoul’ (b) Article ‘Red Bean Soup and Yuja Bath on Dongji Day’

Fig. 7.

Fig. 7.
Prompt edit process for the article ‘Snow in Sapporo, Snow in Seoul’ (a) Request for content removal (b) Request for simultaneous generation of multiple prompts (c) Request for simultaneous generation of various summaries and prompts

Fig. 8.

Fig. 8.
Comparison of Images Before and After Prompt Edit

Fig. 9.

Fig. 9.
Dong-A Ilbo illustration creation result

Fig. 10.

Fig. 10.
GPT's prompt creation result for Donga Ilbo (a) Article ‘War with K-Mosquitoes’ (b) Article ‘Hidden Treasures in Every Corner of the Neighborhood’

Fig. 11.

Fig. 11.
Chosun Ilbo, Dong-A Ilbo mixed model illustration creation result

Fig. 12.

Fig. 12.
Color similarity histogram analysis of original, user-written, and GPT-generated images from Chosun Ilbo and Dong-A Ilbo

Table 1.

Comparison of Performance between Traditional Methods and Automated Illustration Production Systems

Traditional Method
(Designer Work)[17]
Proposed Automated System Improvement Rate [%]
Average Illustration Creation Time 4-5 hours 15-30 minutes 91.67
Number of Revisions Average of 3 revisions Average of 0.8 revisions 73.33
Time to Write a Prompt 30 minutes to 1 hour 5-10 minutes 83.33
Efficiency per Illustration Created per Article 1 illustration/4 hours 1 illustration/30 minutes 87.5

Table 2.

Correlation coefficients between the original image, user-written image, and GPT-generated image

Original vs. User-Generated Image Original vs. GPT-Generated Image
Figure 5_ Sapporo 0.386394 0.027025
Figure 5_ Dongji Day 0.319060 0.434271
Figure 9_K-Mosquitoes 0.278564 0.178789
Figure 9_Neighborhood 0.470953 0.429063