Journal of Broadcast Engineering
[ Regular Paper ]
JOURNAL OF BROADCAST ENGINEERING - Vol. 29, No. 2, pp.169-179
ISSN: 1226-7953 (Print) 2287-9137 (Online)
Print publication date 31 Mar 2024
Received 24 Jan 2024 Revised 11 Mar 2024 Accepted 11 Mar 2024
DOI: https://doi.org/10.5909/JBE.2024.29.2.169

버추얼 휴먼 기반의 K-POP 음악 방송 사례로 본 내러티브와 몰입의 관계 분석

조병철a) ; 한선옥a),
a)동아방송예술대학교
Analysis of the Relationship Between Narrative and Immersion as an Example of a Virtual Human-based K-POP Music Show
Byung Chul Choa) ; Sun-Ock Hana),
a)Dong-Ah Institute of Media and Art

Correspondence to: 한선옥(Han Sun-Ock) E-mail : indigohan@dima.ac.kr Tel: +82-31-670-6764

Copyright © 2024 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”

초록

최근 버추얼 휴먼은 K-POP 음악 방송에서 전략적으로 활용되어 왔다. 본 논문은 버추얼 휴먼을 이용한 음악 방송 사례로 본 내러티브와 몰입의 관계분석을 통해 음악 방송의 성공 전략을 제시하고자 한다. 연구 방법으로는 총 4개의 방송 프로그램을 사례로 선정, 칙센트미하이(Csikszentmihalyi)의 ‘흐름(Flow)’에 기반해 음악 방송의 몰입도를 분석하고 향후 정책 제언을 위하여 전문가 심층 인터뷰를 활용하였다. 연구 결과, 버추얼 휴먼에서 활용된 버추얼 휴먼과 내러티브 구성 전략의 시너지 효과는 음악 방송의 성공을 가능하게 한다는 것을 확인하였다. 특히, 이러한 두 요소는 상호 보완적인 관계로서 음악 방송의 발전을 위한 후속 연구와 지속적인 학제 간 논의가 요구되고 있다.

Abstract

In recent times, virtual humans have been strategically employed in K-POP music show. This paper presents an example of music broadcasting using virtual humans and aims to outline a successful strategy for music broadcasting through the analysis of the relationship between narrative and immersion. Employing Csikzentmihalyi's "Flow" as analytical frameworks, this research involves the analysis of four broadcasting programs. In-depth expert interviews were conducted to derive insights for future policy suggestions. The study reveals that the synergistic impact of virtual human and narrative composition strategies enhances the success of music broadcasting. These two elements exhibit a complementary relationship, emphasizing the need for continuous interdisciplinary discussions as a follow-up study to advance the development of music broadcasting.

Keywords:

Virtual Human, Artificial Intelligence, K-POP Music show, Narrative, Immersion

Ⅰ. 서 론

최근, AI(Artificial Intelligence : 인공지능) 기술의 발전으로 버추얼 휴먼(Virtual Human)은 방송 프로그램 제작의 새로운 혁신과 변화를 이끌고 있다. 방송 제작 환경의 급격한 디지털 전환으로 버추얼 휴먼은 시청자들에게 시간과 공간을 초월한 새로운 경험을 제공하고 있다.

본 논문은 버추얼 휴먼을 이용한 방송 프로그램 제작 사례를 분석하여, 버추얼 휴먼이 방송 프로그램 제작과 시청환경에 미치는 요인을 분석하고 음악 방송 프로그램을 중심으로 향후 추진 전략을 제시하고자 한다. 한편, 기존 레거시 미디어(Legacy Media) 기반의 방송 프로그램에서도 가상현실과 증강현실을 활용한 방송 프로그램이 지상파를 중심으로 활발하게 제작되어 왔다. 특히, 버추얼 스튜디오(Virtual Studio)를 활용한 선거 방송 프로그램, 5G 기반의 평창 동계 올림픽 중계 그리고 월드컵 중계와 같은 빅 이벤트 프로그램이 국가의 최신 ICT 기술을 제시하는 대표적인 프로그램이 되고 있다. 이러한 방송 프로그램에서 도입된 개념적 이론은 1994년 발표된 밀그램(Milgram)과 기시노(Kishino)의 이론인 증강 가상(Augmented Virtuality)으로 알려져 왔다[1].

해외 사례로는 2021년 Xsens라는 모션 캡처(Motion Capture) 기술 기반의 버추얼 휴먼을 이용한 Fox TV 노래 경연 대회인 ‘Alter Ego’가 국내 방송 예능 프로그램에 많은 영감을 준 바 있다[2]. 동일한 모션 캡처 기술 기반으로 2022년 5월 런던에서 공연한 존 레젼드(John-Legend)의 버추얼 콘서트와 팝의 전설 4인조 혼성 그룹 아바(ABBA)의 버추얼 콘서트도 대표적인 선진 사례로 꼽을 수 있다[3][4].

국내 사례로는, 1998년 사이버 가수 아담(Adam) 이후 버추얼 휴먼은 침체기를 겪다가 최근 AI 기술과 융합되면서 K-POP의 팬덤(Fandom) 문화로 방송과 엔터테인먼트(Entertainment) 산업을 견인하고 있다. 2020년 2월 6일 방영된 MBC의 버추얼 휴먼(Virtual Human) 기반 다큐멘터리(Human Documentary) ‘너를 만났다’가 대표적인 사례이다. ‘너를 만났다’ 시즌 1은 많은 시청자들의 눈물샘을 자극하며 시즌 2와 3으로 이어졌으며, 2023년에는 시즌 4가 제작되었다[5].

이처럼 다큐멘터리에서 재현된 버추얼 휴먼1)은 근본적으로 컴퓨터 프로그램으로 구성될 수 있다[6]. 즉, 버추얼 휴먼은 컴퓨터 그래픽 기술과 디지털 기술의 발전으로 등장한 인간과 같은 캐릭터이다. 시청자들은 버추얼 휴먼과의 상호작용을 통해 현실 세계와 유사한 경험을 느낄 수 있다. 그들은 말, 몸짓 그리고 움직임과 같은 인간과 같은 행동을 보여주고 감정, 공감, 추론, 동기 그리고 기억의 활용과 같은 인간이 갖고 있는 특징들을 보여줄 수 있기 때문이다.

K-POP 그룹 에스파(Aespa)2)는 데뷔한 이후, 팬들과 소통하며 현실과 가상 세계를 혼합하려는 혁신적인 노력으로 2023년 빌보드(Billboard)에서도 존재감을 드러내며 버추얼 콘서트의 새로운 가능성을 보여주었다[7]. 이러한 현상은 MZ 세대의 적극적인 팬덤 문화가 반영된 대표적인 성공사례로 분석되고 있다. 이처럼 버추얼 휴먼은 부캐 뿐만 아니라 다중 자아라는 의미인 멀티 페르소나(Multi-Persona)로서 메타버스 플랫폼(Metaverse Platform)과 같은 새로운 디지털 미디어를 통해 세상과 소통하며 자신의 정체성과 세계관을 드러내기도 한다. 이러한 멀티 페르소나의 열풍은 현실 세계와 다른 가상 세계에서 적극적인 MZ세대의 심리적인 특징을 반영한 새로운 ‘디지털 자아’로 인식되고 있다.

‘디지털 자아’의 실질적인 구현은 국내 최초의 생성형 AI(Generative Artificial Intelligence) 기반의 11인조 가상 걸 그룹 이터니티(Eternity)가 데뷔하면서 가시화되었다[8]. 이터니티 멤버 중 한 명인 제인은 홈쇼핑 프로그램 쇼 호스트로 출연하고, 에스비에스(SBS) ‘모닝 와이드’에서 다섯 달간 뉴스 프로그램을 진행하기도 했다. 이러한 버추얼 휴먼을 활용한 방송 프로그램은 시청자와 상호작용(Interaction)하며 방송 프로그램의 변화에 영향을 준 것은 자명한 일이지만, 질적 수준을 발전시켰다고 단언하기에는 아직 성급한 판단이 될 수 있다. 최근 일부 방송 프로그램에서 버추얼 휴먼 도입과 관련된 ICT 기술 적용에 대한 다양한 시도가 있었으나 내러티브(Narrative)를 통한 관객과의 소통방식에 대한 고민은 충분하지 못했다. 이와 관련하여 기호학자인 롤랑 바르트(Roland Barthes)는 “내러티브는 의미 생성을 제공하며 세계를 연결하는 중재 역할을 한다.”라고 내러티브의 개념적 원리와 구성 모델의 중요성을 역설한 바 있다[9]. 이후 헤이든 화이트(Hayden White)도 그의 저서에서 내러티브의 역할에 대해 제시한 바 있다[10].

따라서, 본 논문에서는 2022년 종영한 MBN의 방송 예능 프로그램인 ‘아바타 싱어’, TV조선의 ‘아바 드림’, 카카오페이지의 ‘소녀 리버스’ 그리고 TVING의 ‘얼라이브’를 중심으로 내러티브와 물업의 관계 분석을 수행하고자 한다. 더불어 버추얼 휴먼 기반 K-POP 음악 방송 사례에서 극복해야 할 도전 과제를 탐구하고 K-POP 음악 방송의 성공 전략을 제시하고자 한다.


Ⅱ. 버추얼 휴먼을 활용한 K-POP 음악 방송의 특징 분석

버추얼 휴먼은 다양한 미디어를 통해 인류와 소통하며 독특한 세계관을 형성하고 새로운 경제, 사회, 문화적 변동을 예고하고 있다. 또한, 버추얼 휴먼을 활용한 K-POP 음악 방송은 시청자들에게 새로운 경험을 제공하며 다양한 상호작용을 통해 전 세계에 전파되고 있다. II 장에서는 버추얼 휴먼, 출연진 그리고 시청자들과의 소통 방식과 몰입도 향상을 위한 내러티브를 중심으로 K-POP 음악 방송의 특징을 분석하고자 한다.

1. 시청자들과의 소통 방식 분석

시각 언어(Visual Language)를 활용한 소통 방식은 영화, 텔레비전 그리고 뉴미디어 기술의 발전과 함께 엔터테인먼트 산업에 매우 강력하고 효과적인 방법으로 영향력을 행사해 왔다. 미국 로체스터 대학교 디이엔 호프(Diane S. Hope) 교수는 시각 커뮤니케이션의 핵심적 개념으로 첫째는 시각 지각(Visual Perception), 둘째는 시각적 수사학(Visual Rhetoric), 셋째는 상징적 의미(Symbolic Meaning)를 구조화하는 기술로 구분한 바 있다[11]. 이와 같이 시각적 요소에 대한 연구는 디지털 영상 처리 기술이 발전함에 따라 많은 연구가 이루어졌지만, 방송 프로그램에서 개인의 기억, 의미작용 그리고 소통 방식의 연관성에 관한 연구는 거의 이루어지지 않았다[12]. Fox TV의 ‘Alter Ego’ 제작 기술진에 따르면, 버추얼 휴먼은 새로운 페르소나로서의 상징적 의미를 가지지만, 방송된 실제 방송 프로그램에서의 의미 작용과 관객들과의 소통은 명백히 제한적이었다.3) 이러한 맥락에서 데이비드 버든(David Burden)의 논지에 의하면 “버추얼 휴먼은 인간이라는 환영(Illusion)을 심어 주기 위해 설계되었으며 지속적으로 진화하고 있는 코드(Code)와 데이터(Data)이다.”라고 주장한 바 있다[13]. 이러한 기술적인 가변성(Variability)으로 인하여 버추얼 휴먼은 출연 가수와 시청자들과의 상호작용을 촉진하며 다양한 시청 경험을 제공할 잠재적인 가능성도 지니고 있다.

특히, 방송 프로그램에 출연한 가수와 버추얼 휴먼의 상호작용을 위한 실시간 렌더링 기술, 모션 캡처 기술의 상호 운용성(Interoperability)과 안정성(Stability)은 시청자들과의 소통 방식에도 긍정적인 영향을 주는 중요한 기술적 요소로 분석된다. 시청자들의 댓글도 프로그램 진행에 대한 피드백을 제공하며 다른 시청자들의 참여를 독려하고 감성을 공유하며 팬덤의 진화를 견인하고 있다[14]. “디지털 알고리즘에 의해 합성된 영상은 인간의 감성과도 밀접하게 상호작용하고 있다.”라고 역설한 레프 마노비치(Lev Manovich)의 논의에서도 이러한 기술적 특성을 반영하고 있다[15].

한편, AI 기술의 발전으로 딥페이크(Deep fake) 기술은 K-POP 아이돌 그룹에 대한 시청자들의 긍정적·부정적 인식에 영향을 미치고 있다[16][17]. 특히, 방송 프로그램에서 버추얼 휴먼은 여전히 시청자들의 소름 끼치는 불편한 심리인 언캐니 밸리(Uncanny Valley)4)를 유발하고 있음을 시사하고 있다. 더불어 버추얼 휴먼과 상호작용하는 출연진들의 진정성도 음악 방송의 완성도를 위해 극복해야 할 해결과제가 되고 있다.

2. 몰입도 향상을 위한 내러티브 분석

불확실한 미래를 살아가는 기성세대 시청자들은 고인이 된 가수 김광석, 김현식, 유재하, 신해철에 대한 딥러닝(Deep Learning) 기술 기반 음성 인식·복원·합성으로 재탄생한 음악 방송 프로그램임에도 불구하고 그 시절 함께 했던 기억을 떠올리며 감동과 위로를 받고 있다. 이러한 작가와 소비자의 관계(제작자와 시청자의 관계)에서 총체적인 의미작용으로서의 내러티브5)를 강조한 롤랑 바르트에 이어 폴 리쾨르(Paul Ricoeur)는 개인이 어떻게 시간을 구성하고 경험하는지에 관해 개인의 정체성, 시간과 내러티브의 상호작용성을 주목했다[18]. 제임스 올니(James Olney)의 저서 ‘기억과 내러티브’는 우리 삶의 기억이 내러티브를 형성하는 데 어떻게 중요한 역할을 하는지 일깨워 주고 있다[19]. 이러한 논거는 개인의 자아와 정체성을 형성하는데 개인의 기억과 내러티브가 밀접한 관련이 있음을 뒷받침하고 있다. 인류는 다른 인종, 종교, 지적 수준이 다른 사람들을 수용하고 평등을 위해 지속적으로 노력해 왔지만, 다양한 사람들이 갖는 다른 정체성을 이해하기 어렵다는 것이 가장 큰 장벽으로 여겨진다. 라발(La Valle)에 따르면 “가상현실(Virtual Reality)환경에서 ‘1인칭 시점’은 사람들이 다른 사람의 상황에 대해 공감(Empathy)하도록 하는 강력한 도구이다[20].”라고 역설한 바 있다. 즉, 작품의 저자, 버추얼 휴먼의 제작자와 시청자의 공유되는 관점은 특정한 세계관을 형성하는 데 영향을 미친다. 이처럼 방송 프로그램에서 허구적 시간으로 표현된 공감의 내러티브는 개인의 체험된 시간들을 통해 존재의 의미를 반영하며 시청자와 상호작용하고 있음을 함의하고 있다. 따라서, 방송 프로그램에서 몰입도 향상을 위해 버추얼 휴먼의 친밀감과 호감도를 높이는 것도 중요하며 공감의 내러티브를 위한 노력도 절실히 요구되고 있다.


Ⅲ. 사례 연구 : 버추얼 휴먼을 이용한 음악 예능 방송 사례에 관한 연구

AI 기술을 활용한 버추얼 휴먼은 방송 프로그램에 도입된 이후 ‘고인이 된 전설의 스타’의 음성과 영상을 재현하는 기술에서 실제 가수의 부캐의 활약까지, 시공간을 넘나드는 기술로 시청자들의 많은 관심을 받고 있다. 대표적인 사례로는 ‘아바타 싱어’, ‘소녀 리버스’와 같이 버추얼 휴먼의 본체를 추측하거나 서로 경합하는 ‘서바이벌 경쟁 음악 쇼’ 사례가 있다. III 장에서는 음악 예능 프로그램의 내러티브와 포맷을 분석하고, 동시에 칙센트미하이(Csikszentmihalyi)가 제시한 ‘흐름(Flow)’에 기반해 내러티브와 시각적 요소들이 음악쇼의 몰입에 어떤 영향을 미치는지 조사하고자 한다.

1. 음악 예능 방송의 내러티브 분석

MBN의 ‘아바타 싱어’, TV조선의 ‘아바 드림’, 그리고 카카오페이지의 ‘소녀 리버스’ 등 대부분의 프로그램은 ‘음악 경쟁쇼’의 포맷(Format)을 구성하고 있다. 즉, TVING의 ‘얼라이브’를 제외한 3편 모두 ‘음악 경쟁 쇼’ 형식의 시리즈이다. 여기서, 버추얼 휴먼의 역할은 프로그램별마다 다음과 같이 실제 가수들의 욕망을 대리 실현하는 아바타이다. 첫째, ‘아바타 싱어’의 경우, 대한민국 최고의 싱어 10팀이 아바타로 변신하고 서로의 정체를 숨긴 채 아바타의 무대로 승부하는 내러티브를 구성하고 있다. 둘째, ‘아바 드림’은 꿈을 이루고자 하는 실제 가수를 ‘드리머’로 설정하고 그의 아바타를 ‘꿈의 요정’으로 설정하여 경쟁과 탈락의 내러티브이다. 셋째, ‘소녀 리버스’ 역시 현직 아이돌 30인이 모션 캡처(Motion Capture)를 착용하고 최종 5명의 버추얼 아이돌로 선택받기 위한 경쟁의 내러티브로 구성되어 있다.

표 1은 음악 예능 쇼의 포맷과 내러티브 분석을 나타낸 것이다.

Narrative Analysis of Music Entertainment Show

‘아바타 싱어’ 역시 총 10팀의 버추얼 휴먼이 회당 6~8명이 등장해 경연을 펼치는데 출연자의 정체가 미스터리로 남기 때문에 프로그램의 핵심 내러티브는 ‘버추얼 휴먼’의 본체를 추측하는데 집중되어 있다. 이러한 내러티브 전략은 오히려 버추얼 휴먼의 기술적 약점인 언캐니 밸리를 부각시킬 수 있다.

‘아바 드림’의 경우 ‘아바타 싱어’와 유사한 경쟁 포맷을 기본으로 하고 있지만 죽은 고인에 대한 기억과 향수(Nostalgia)를 강조하는 ‘얼라이브’의 비경쟁적 내러티브가 혼용되어 있다. 이러한 특성은 “기억은 단순한 사실적 기억을 넘어 자신의 인생 이야기를 창의적인 방식으로 구성하고 적용하는데 통찰력을 제공한다”6)라고 밝힌 제임스 올리의 주장과도 맞닿아 있다.

이러한 연구 결과는 ‘버추얼 휴먼’에 대한 호감도와 세계관을 미리 확보할 수 있다면 현재의 외형과 움직임에서의 불완전성을 보완할 수 있다는 가능성을 의미한다. 관객은 같은 세계관을 공유하는 참가자들의 반응과 내러티브에 집중하는 경향이 있기 때문이다. 특히, 리버스 사례에서 ‘세계관’ 활용은 ‘아바타 싱어’와 ‘아바 드림’과 비교하여 독특한 세계관을 공유하고 30명의 내러티브를 통해 다양한 영역으로 확장될 수 있다.

2. 몰입도 증대를 위한 관객과의 소통방식 분석

일반 예능방송에서 시청자와의 연결성(Connectivity)은 단순히 시청률과 화제성을 높이기 위해 부수적으로 다루어져 왔다. 본 사례 연구와 같이 ‘버추얼 휴먼’을 주인공으로 다루는 방송 프로그램에서는 콘텐츠 내적 세계관의 확립과 시청자와의 상호작용을 위해 연결성이 필수적인 요소로 다루어지고 있다. 이러한 맥락에서 미디어와 시청자 혹은 참여자와의 상호작용과 연결성은 XR(eXtended Reality) 같은 뉴미디어에서도 매우 중요한 연구주제로 다뤄지고 있다[21]. 먀오(Miao)의 연구에서도 ‘버추얼 휴먼’의 다양한 행위에 관한 소비자들의 감정 변화와 반응이 플랫폼 디자인과 기술 구현 과정에서 더 중요한 요소로 인식되고 있다[22].

표 1표 2의 사례로 제시된 프로그램 대부분이 ‘경쟁 음악쇼’의 포맷을 취하는 특성을 가지고 있으며, 기존 성공한 예능 포맷에 의존하는 경향이 있다. 즉, ‘경쟁 음악쇼’의 포맷은 단순한 음악 경연이 아닌, 기존 경쟁 요소에 블라인드(Blind) 장치를 결합하고 적절한 난이도로 쇼의 재미와 서스펜스(Suspense)를 강화시킨 형식이다.

Analysis of Communication Method with Audience for Immersion

심리학자 칙센트미하이의 저서인 ‘흐름’에 따르면 시청자가 심리적으로 흥미를 느낄 수 있는 ‘몰입 채널(Flow Channel)’ 영역에 머물러 있는지 혹은 이탈했는지가 중요한 변수가 될 수 있다[23]. 실제 스튜디오에서의 실시간 구현에 한계를 보인 ‘아바타 싱어’와 ‘아바 드림’은 ‘미스터리 음악쇼’라는 높은 난이도의 ‘경쟁’ 요소와 결합되어, ‘몰입 채널’에서 벗어나게 되는 결과를 초래하고 있다. 실제 관객들의 댓글 반응도 자연스러운 ‘몰입’보다는 무대 위에 이질적으로 존재하는 ‘버추얼 휴먼’의 특징을 반영하고 있다.

음악 예능 쇼의 난이도를 결정짓는 경쟁의 운영방식에서는 ‘얼라이브’를 제외한 3편 모두 토너먼트(Tournament)와 라운드(Round)제를 혼용한 ‘선택과 탈락’의 서바이벌식 게임이 선택되었다. 이러한 운영방식의 선택 기준은 각 음악 예능 쇼가 출연자의 수와 결합되면서 복잡한 양상으로 나타날 수 있기 때문이다.

3. 버추얼 휴먼 기술의 유형별 시각적 몰입도 분석

버추얼 휴먼 중심의 ‘음악 예능 쇼’ 에서 ‘시각적’ 요소는 ‘포맷’, ‘내러티브’와 함께 핵심 요소라고 할 수 있다. 실제로 제작비의 상당 부분이 이 기술 과제를 해결하기 위해 투입되고 있다. 칙센트미하이의 논점에서도 인간의 오감(五感) 가운데, 몰입의 기술로 가장 활발하게 논의되고 있는 분야가 시각 기술 분야이며 다른 감각에 비해 즉각적으로 반응할 수 있는 감각으로 간주 된다. 버추얼 휴먼의 시각적 몰입도를 높이기 위해 아래 표 3에서와 같이 실사형 캐릭터, 반실사 혹은 비실사적 캐릭터 등 다양한 시각 효과(VFX : Visual Effect)가 적용되었다. 가령, ‘아바타 싱어’와 ‘아바 드림’은 반실사 3D 버추얼 휴먼이, ‘소녀 리버스’의 경우 주요 타겟 시청층인 10, 20대를 고려하여 친숙한 느낌의 2D 애니메이션 캐릭터가 구현되었다. 몰입을 위한 프로그램별 세부적인 기술적 특징분석 결과는 다음과 같다.

Characteristics analysis of virtual human technology for immersion

첫째, ‘아바타 싱어’와 ‘아바 드림’은 본체와 ‘버추얼 휴먼’ 사이의 유사성이 높은데, 모션 캡처 기술을 통해 몸의 움직임을 구현하기 때문에 체형과 몸짓에서는 유사성을 보인다.

둘째, 목소리(Voice)를 분석한 4개의 프로그램 모두 유사성을 보이지만, ‘버추얼 휴먼’의 외모만으로는 본체를 유추하기 어려우므로 목소리의 주파수 변환은 적용되지 않았다. 라운드별 선곡의 경우 기존 가수의 주 장르를 탈피해서 부캐로서 자유로운 장르에 도전하거나 발성법을 변화시키는 시도가 있었다.

셋째, ‘얼라이브’의 경우 3D 실사 이미지, 딥페이크 및 AI 기술을 융합하여 안타깝게도 고인이 된 가수를 재현함으로써 100%에 가까운 유사성을 보이는 특징이 있다.

여기서, AI 기술로 소환된 가수에 관한 기억의 내러티브가 핵심요소이므로 ‘버추얼 휴먼’의 정교성, 친밀감, 혹은 기술의 불완전성에도 불구하고 시청자들은 비교적 긍정적인 평가를 보인다. 한편, ‘얼라이브’를 제외한 대부분 쇼에서 ‘버추얼 휴먼’의 얼굴, 헤어와 의상 등은 본래 가수와 차별화를 시도하기 위해 다소 과장된 모습을 보인다. 특히, ‘아바타 싱어’의 경우 MBC 미스터리 음악 쇼 ‘복면가왕’과 유사하게 ‘추리를 위한 블라인드 장치’로써 ‘버추얼 휴먼’의 얼굴, 헤어, 의상, 그리고 과장된 액션 등이 과도하게 활용되었다.

시청자의 몰입을 높이는 기술의 특징 분석 결과 ‘버추얼 휴먼’의 친밀성을 느끼는 극사실적(Photorealistic) 표현 기술 같은 실시간 컴퓨터 그래픽 기술의 고도화가 요구된다[24]. 칙센트미하이의 ‘몰입 채널’ 이론에 따르면 최적의 몰입 채널에 머무를 수 있도록 유지하는 것이 매우 중요하기 때문이다. 이러한 조절이 실패할 경우, 시청자들은 다소 지루함을 느끼거나 너무 복잡해서 흥미를 느끼지 못할 수 있다. 아래 그림 1은 ‘몰입 채널’ 이론을 적용한 ‘버추얼 휴먼’이 출현하는 음악 예능 쇼의 몰입 정도를 분석한 것이다.

Fig. 1.

Analysis of Immersion in Music Broadcasting Show using 'flow channel'

첫째, ‘얼라이브’의 경우 무대 위에서 AI, XR 기술과 결합된 버추얼 휴먼이 실시간 공연을 하는 프로그램 형식은 다른 쇼의 포맷과 유사하다. 관객들의 감정을 촉진하기 위해 고인이 된 추억의 가수를 무대 위에 소환하는 향수와 비극의 내러티브 측면에서는 쇼의 몰입도가 상대적으로 높다. 특히, 경쟁과 미스터리의 내러티브는 오락성보다는 감정 공감을 강조하기 위해 최대한 배제된다. 따라서, 도전의 Y축이 낮고 연결성의 X축이 높은 ‘얼라이브’는 다소 지루한 상태에 해당한다. 둘째, ‘아바타 싱어’는 버추얼 휴먼이 실시간으로 재현되는 과정에서 친밀도와 연결성은 낮지만, 경쟁과 미스터리의 도전 정도는 높은 ‘불안’ 상태에 있다. 셋째, ‘아바 드림’ 역시 ‘아바타 싱어’에 비교하여 추억의 가수를 소환한 측면에서 ‘얼라이브’와 유사하며 친밀도와 연결성은 다소 상승했다. 하지만 ‘아바 드림’ 은 여전히 경쟁과 미스터리의 도전단계는 높아 여전히 불안한 상태에 있다. 넷째, ‘소녀 리버스’의 경우 2D 애니메이션 캐릭터를 활용하여 차별화된 시각 효과를 이끌어 몰입도를 높였으며, 독특한 세계관과 내러티브 전개를 통해 연결성을 높였다. 여기서, 4개 프로그램 중 경쟁과 미스터리 도전 과제가 비교적 높은 ‘소녀 리버스’가 유일하게 ‘몰입 채널’ 영역 안에 안착한 것으로 나타났다. 특히, ‘소녀 리버스’는 녹화 현황을 SNS로 연결하고 실시간 반응을 유도함으로써 MZ 시청자들의 관심과 몰입도를 높이는 효과를 가져왔다.


Ⅳ. 전문가 심층 인터뷰 결과 분석 : K-POP 음악 방송의 성공 전략 및 도전 과제

본 연구는 버추얼 휴먼을 이용한 방송 예능 프로그램 제작에 관한 실제 사례 분석 연구로, 음악 예능 프로그램의 내러티브와 관련하여 칙센트미하이가 제시한 ‘흐름’에 기반한 몰입도를 높이는 요소에 대해 분석한다. 이러한 분석 결과에 근거하여 Ⅳ장에서는 방송 예능 프로그램의 현업 전문가들을 대상으로 한 심층 인터뷰(In-Depth Interview) 결과를 분석하여 기술적 한계를 극복하기 위한 방안과 도전 과제를 제시한다. 아래 표 4는 전문가 심층 인터뷰 대상자 구성을 나타낸 것이다.

List of in-depth expert interview positioning

본 연구에서 다루는 방송 예능 프로그램 사례로는 ‘아바타 싱어’, ‘아바 드림’, ‘소녀 리버스’, ‘얼라이브’가 포함되며, 세부적인 연구 문제는 다음과 같다.

  • •연구 문제 1 : 다양한 방송 프로그램 장르 중에서 버추얼 휴먼을 적용하기 위한 창의적인 내러티브 전략과 프로그램 효용성을 높이기 위한 특징은 무엇인가?
  • •연구 문제 2 : 버추얼 휴먼을 이용한 방송 제작에서 몰입도를 높일 수 있는 사항은 무엇인가?
  • •연구 문제 3 : 경쟁 음악 쇼 포맷에서 기술적인 한계와 이를 극복하기 위한 성공 전략은 무엇인가?

전문가 심층 인터뷰 분석 결과, 다큐멘터리와 드라마의 경우 버추얼 휴먼의 내러티브를 구축하기에 용이한 장르적 특징이 있고 시각적 몰입도면에서도 시각 효과 혹은 XR 스튜디오 촬영기법을 통해 비교적 완성도 높은 결과를 기대할 수 있었다. ‘경쟁 음악쇼’와 같은 시리즈 혹은 시즌제 예능의 경우, 버추얼 휴먼의 실시간 구현이 관객 또는 시청자의 관점에서 이질감 없이 이루어져야 한다는 점이 도전 과제로 부각되었다. 따라서, 음악 방송의 성공 전략과 도전 과제는 다음과 같다.

1. 창의적인 내러티브 전략

첫째, 시청자의 몰입도를 높일 수 있는 전략으로 ‘버추얼 휴먼’에 관한 ‘감정 표현 기술’을 활용한 ‘공감의 내러티브’를 완성하는 것이다7). 즉, ‘버추얼 휴먼’이 예능 쇼에서 주요 캐릭터로 등장할 때, 시청자들은 이러한 상황을 자연스럽게 몰입할 수 있도록 ‘버추얼 휴먼’에 관한 내러티브가 충분히 제시되어야 할 것이다. 가령, ‘얼라이브’나 ‘아바 드림’에서 전설적인 가수 귀환이나 현존 가수와의 협업 무대가 성공적인 반응을 얻은 것은 이러한 내러티브의 일환으로 볼 수 있다. 이는 내러티브의 일관성과 극적 요소가 충분히 갖춰져 있음을 의미한다.

둘째, ‘버추얼 휴먼’의 존재 이유를 강조하며 인간의 한계를 뛰어넘는 ‘능력’을 강조하는 것이다. 기존의 기획성 다큐멘터리에서 인간과 AI의 대결을 통해 바둑, 골프, 음악, 미술 등 다양한 분야에서 인간의 지능과 신체적 능력, 예술적 영역에서의 다양한 도전과 실험이 다뤄졌다.

셋째, 기존 예능 문법을 벗어나 ‘미스터리 경쟁 음악 쇼’와 같은 게임 방식의 새로운 세계를 창조하는 창의적인 내러티브를 구성하는 것이다8). 이러한 접근은 카카오스토리에서 제작한 ‘이 세계 아이돌’과 이에 연결된 ‘소녀 리버스’와 같은 사례를 통해 확인할 수 있다.

2. 몰입도 향상을 위한 제작 기술 고도화 전략

첫째, 버추얼 휴먼과 버추얼 프로덕션(Virtual Production)의 시너지를 높이기 위한 제작 기술의 고도화가 필요하다. 언리얼 엔진(Unreal Engine)과 유니티(Unity) 등 실시간 엔진9)과 LED Wall을 활용한 버추얼 프로덕션은 시공간을 넘나드는 장면 연출이 가능하므로, 다양한 공간을 실시간으로 구현할 수 있다.

둘째, 제작 기술의 한계를 극복하기 위해 생성형 AI 기술을 활용할 수 있다. 이 기술은 상상 속의 장면을 생성하고 배경을 합성할 수 있으며, 고인 배우의 목소리를 활용하여 새로운 곡을 녹음할 수도 있다[25].

셋째, ‘버추얼 휴먼’의 기획, 라이브 연출 과정에서 치밀한 제작 워크플로우를 구성해야 할 것이다10). 이러한 워크플로우는 기획, 사전 시각화, 캐릭터 디자인, 연출, 실시간 모션 캡처, 생성형 AI 등의 기술을 최적으로 결합하여 시각적 몰입도를 유지하고 결과물의 질을 높일 수 있다.

3. 기술적인 한계를 극복하기 위한 다양한 포맷 개발

첫째, XR 스튜디오에서 실제 인물과 ‘버추얼 휴먼’이 한 프레임에서 공존할 때 시각 효과와 모션의 부자연스러운 이질감을 없애는 것이다. 가령, 유명 가수의 ‘아바타’인데 동시에 ‘본캐’의 정체를 숨겨야 한다는 모순은 ‘버추얼 휴먼’의 정체성을 모호하게 만들고 시청자와의 소통을 저해할 수 있다11).

둘째, 프로그램의 내적인 호감도와 친근감을 높이기 위한 방송 포맷이 요구되고 있다. 시청자와 정서적 연결이 부재한 가운데 시청자들은 그들을 매력적인 존재로 인식하기 어렵기 때문이다.

셋째, 무대 퍼포먼스 외에 ‘버추얼 휴먼’의 일상적인 삶이나 새로운 음악적 도전 등 무대 뒤 활동을 통해 캐릭터의 독창적인 세계관과 매력을 창조해야 할 것이다. 즉, 시청자들의 버추얼 휴먼에 대한 동일시(Identification)와 감정이입을 촉진하기 위해 참여 가수와 ‘버추얼 휴먼’간의 역동적인 상호작용이 필요하다. 이러한 접근은 현실 세계와 가상 세계 사이의 새로운 세계관의 확장과 궤를 같이하고 있다.


Ⅴ. 결 론

버추얼 휴먼은 방송 제작의 디지털화와 K-POP 한류의 성장과 함께 음악 방송 프로그램에서 전략적으로 활용되어 왔다. 본 논문은 버추얼 휴먼을 이용한 K-POP 음악 방송 사례로 본 내러티브 구성과 몰입의 관계 분석을 통해 음악 방송의 성공 전략을 제시하고자 하였다. 분석 결과, 버추얼 휴먼이 주요 배역으로 등장하는 음악 방송 프로그램은 단순한 실감 영상 기술의 시도를 넘어 시리즈 예능물을 통해 지속 가능한 K-POP 음악 방송 생태계를 구축하는 데 긍정적인 영향을 미치고 있다. 그러나 버추얼 휴먼의 실시간 구현시 관객들의 이질감을 최소화하는 것이 가장 시급한 과제이다.

전문가 심층 인터뷰 분석 결과에 따르면, 첫째, 버추얼 휴먼의 특징을 반영한 내러티브의 구성 전략이 음악 프로그램의 성패에 영향을 줄 수 있다. 가령, 게임 기반의 내러티브 전략을 통해 창의적인 세계관을 창조하는 것이 필요하다. 둘째, 관객의 시각적 몰입을 높이기 위해 제작 기술 고도화와 기술 노하우 축적이 필요하다. 이러한 기술적 특성은 몰입 채널을 고려한 최적의 워크플로우 구성의 중요성을 함의한다. 셋째, 기술의 한계를 극복하기 위해 프로그램의 독창적인 세계관이 반영된 다양한 방송 포맷 개발이 요구된다. 이는 음악 방송 프로그램의 특성상 높은 제작비가 요구됨으로 연구개발이 동시에 이루어져야 함을 의미한다. 이러한 방송 제작과 관련한 새로운 도전이 이어질 수 있도록 지속적인 정책 지원 역시 필요할 것이다. 결론적으로, 내러티브 구성 전략과 몰입 채널 활용을 위한 버추얼 휴먼 기반의 제작 기술 고도화는 상호 보완적인 관계로서의 음악 방송의 다양한 포맷 개발을 기대할 수 있다.

본 연구의 가치는 국내 독창적인 음악 방송의 통합적인 조망을 제시하고, 몰입을 위한 버추얼 휴먼 제작 기술과 내러티브 구성 전략의 유기적인 관련성을 밝혔으며 K-POP 한류를 넘어 신한류 발전에도 기여할 수 있다는 점이다.

Notes
1) 자연어 처리를 활용한 대화형 챗봇(Chatbots), AI 스피커(AI Speaker), AI 비서(AI Agent), NPC(Non-player Characters Agent) 캐릭터는 버추얼 휴먼과는 다른 범주로 볼 수 있지만 이들 모두 디지털 세계 혹은 가상환경에서 인간과 상호작용하는 컴퓨터 프로그램이다.
2) 에스파는 'Next Level'과 'Savage'의 대성공으로 제13회 멜론 뮤직 어워드에서 최초로 신인상과 대상을 동시에 수상했으며, 데뷔한 이후 1년 이내 음반이 50만 장 이상 팔렸으며 Black Mamba의 유튜브 뮤직비디오가 데뷔 최단기간 24시간 조회 수, 최단기간 1억 뷰를 기록한 바 있다.
3) ‘Alter Ego’: FOX gives first look at world’s 1st avatar singing competition, 재인용
4) 모리 마사히로는 그의 논문에서 로봇이 인간과 유사한 모습으로 점점 더 가까워지게 개발되면 호감도가 상승하지만 유사성이 높아지는 어느 지점에서 호감도가 급속하게 떨어지는 불쾌한 골짜기인 언캐니 밸리(Uncanny Valley) 곡선 개념을 제시한 바 있다. Karl F. MacDorman, Hiroshi Ishiguro, "The uncanny advantage of using androids in social and cognitive science research", Interaction Studies. 7 (3), pp.297-337, 2006.
5) Roland Barthes, Lionel Duisit, An Introduction to the Structural Analysis of Narrative. New Literary History, Vol. 6, No.2, The Johns Hopkins University Press, pp.81-84, 1975. 재인용
6) James Olney, Memory and Narrative : The Weave of Life-Writing, The University of Chicago Press, pp.8-62, 1998. 재인용
7) 전문가 A는 ‘공감을 끌어낼 수 있는 내러티브 전략’으로 성공한 드라마와 다큐멘터리인 ‘너를 만났다’에서 버추얼 휴먼을 활용한 사례를 강조했다.
8) 전문가 B는 ‘미스터리 경쟁 음악쇼’라는 기존 예능 문법을 벗어나 게임 기반의 내러티브 전략을 통해 창의적인 세계관을 만들어야 한다고 주장했다.
9) G-Y. Kim and B.-K. Lee, “Comparative Analysis of Three-Dimensional Real-Time Rendering Methods,” Journal of The Korea Society of Computer and Information, Vol. 27, No. 1, pp. 23-32, January 2022. 재인용.
10) 실제 본 프로그램의 제작에 참여한 전문가 C는 “현재 기술 수준에서 실제 가수가 노래하는 아바타로서 ‘버추얼 휴먼’이 여전히 한계가 있다.”라고 언급했다.
11) 전문가 D는 ‘미스터리 경쟁 음악쇼’와 같은 프로그램에서 ‘버추얼 휴먼’들 간의 시각적 이질감을 지적하고 있다. 또한, 실제 이들 방송에서 연예인 패널 역시 ‘버추얼 휴먼’의 시각적 완성도 보다는 노래의 음색이나 발성에서 본 캐릭터가 누구인지 추리하고 있다. 이는 ‘버추얼 휴먼’의 매력을 제대로 느끼지 못하고 본캐와의 관계에 집중함으로써 음악 방송의 몰입을 방해할 수 있다는 것을 시사한다.

References

  • P. Milgram, F. Kishino, “A taxonomy of mixed reality visual displays,” IEICE Transactions on Information Systems, E77-D(12), p.1321, 1994.
  • ‘Alter Ego’: FOX gives first look at world’s 1st avatar singing competition, https://www.fox2detroit.com/news/alter-ego-fox-gives-firstlook-at-worlds-1st-avatar-singing-competition, (accessed on June 7, 2023)
  • John-legend Virtual Concert, https://www.xsens.com/blog/virtualjohn-legend-powered-by-xsens, (accessed on June 9, 2023)
  • ABBA Concert, https://abbavoyage.com/, (accessed on June 11, 2023)
  • MBC VR Human Documentary, https://program.imbc.com/meetyou/, (accessed on June 11, 2023)
  • C. Kyrlitsias, D. Michael-Grigoriou, Social Interaction With Agents and Avatars in Immersive Virtual Environments: A Survey, Social Interactions in Virtual Environments, Vol.2, pp.2, 2022. (accessed on January 20, 2024) [https://doi.org/10.3389/frvir.2021.786665]
  • See the First Behind-the-Scenes Look at Aespa’s VR Concert Coming to SXSW 2023 : Exclusive, https://www.billboard.com/music/pop/aespa-vr-concert-sxsw-2023-behind-the-scenes-look-1235283132/, (accessed on June 12, 2023)
  • ‘The only thing we can’t do is sign autographs’: The rise of virtual K-pop bands, https://edition.cnn.com/style/kpop-virtual-bands-ai-intl-hnk/index.html, (accessed on January 11, 2024)
  • R. Barthes, L. Duisit, An Introduction to the Structural Analysis of Narrative : New Literary History, Vol. 6, No.2, The Johns Hopkins University Press, pp. 239-246, 1975. (accessed on June 15, 2023) [https://doi.org/10.2307/468419]
  • H. White, The value of narrativity in the representation of reality, Vol.7, No.1, The University of Chicago, pp.5-27, 1980. (accessed on May 17, 2023) [https://doi.org/10.1086/448086]
  • Diane S. Hope, Visual Communication: Perception, Rhetoric, and Technology, Hampton Press in collaboration with RIT Cary Graphic Arts Press, pp.5-7, 2006.
  • Born. G, Computer software as a medium : textuality, orality and sociality in an artificial intelligence research culture, In Rethinking Visual Anthropology, Yale University Press, pp.139-169, 1997.
  • D. Burden, M. Savin-Baden, Virtual Humans Today and Tomorrow, CRC Press, Taylor & Francis Group, Boca Raton, FL, pp.3-4, 2019. [https://doi.org/10.1201/9781315151199]
  • A. Mandouni, The Social Interaction in Virtual Media, Technium Social Science Journal, Vol.11, pp.417-426, 2020. [https://doi.org/10.47577/tssj.v11i1.1605]
  • Manovich. L, The Language of New Media, Cambridge, MA: The MIT Press, pp.55, 2001.
  • A. M. Almars, “Deepfakes Detection Techniques Using Deep Learning: A Survey,” Journal of Computer and Communications, Vol.9, No.5, pp.20-35, 2021. (accessed on January 3, 2024) [https://doi.org/10.4236/jcc.2021.95003]
  • S. Wang, S. Kim, How Do People Feel about Deepfake Videos of K-Pop Idols? The Journal of Korean Institute of Communications and Information Sciences, Vol.47, No.02, pp.376-379, 2022. (accessed on January 7, 2024) [https://doi.org/10.7840/kics.2022.47.2.375]
  • Ricoeur. P, Translated by K. McLaughlin and D. Pellauer, Time and Narrative, Volume 1, Chicago and London : The University of Chicago Press, pp.174, 1984.
  • Olney. J, Memory and Narrative : The Weave of Life-Writing, The University of Chicago Press, pp.8-62, 1998. [https://doi.org/10.2307/3735730]
  • Steven M. LaValle, Virtual Reality, London : Cambridge University Press, pp.15, 2020.
  • V. Pereira, T. Matos, R. Rodrigues, R. Nóbrega, and J. Jacob, “Extended Reality Framework for Remote Collaborative Interactions in Virtual Environments”, International Conference on Graphics and Interaction (ICGI), Faro, Portugal, Nov. 21-22, 2019. (accessed on January 14, 2024) [https://doi.org/10.1109/ICGI47575.2019.8955025]
  • Miao. F, Kozlenlova. I, Wang. H, Xie. T & Palmatie. R. W, “An emerging theory of avatar marketing,” Journal of Marketing, Vol.86, Issue.1, pp.73-78, 2021. (accessed on January 13, 2024) [https://doi.org/10.1177/0022242921996646]
  • M. Csikszentmihalyi, Flow: The Psychology of Optimal Experience, New York: Harper & Row, pp.74, 1990.
  • G-Y. Kim and B.-K. Lee, “Comparative Analysis of Three- Dimensional Real-Time Rendering Methods,” Journal of The Korea Society of Computer and Information, Vol. 27, No. 1, pp. 23-32, January 2022. [https://doi.org/10.29056/jncist.2022.10.04]
  • G. Cooper, “Examining Science Education in ChatGPT: An Exploratory Study of Generative Artificial Intelligence,” Journal of Science Education and Technology, Vol. 32, pp.444-452, 2023. (accessed on May 31, 2023) [https://doi.org/10.1007/s10956-023-10039-y]
조 병 철

- 2004년 2월 : 광운대학교 전자공학과 공학박사

- 2019년 8월 : 고려대학교 영상문화학과 문학박사

- 2002년 9월 ~ 현재 : 동아방송예술대학교 콘텐츠학부 교수

- 2019년 1월 ~ 현재 : 한국방송·미디어공학회 상임이사

- 2022년 1월 ~ 현재 : 메타버스미래포럼 콘텐츠 분과위원장

- ORCID : https://orcid.org/0000-0002-4552-1534

- 주관심분야 : Realistic Contents, XR, Technology Policy, Philosophy of Technology

한 선 옥

- 2019년 11월 : 영국 웨스트민스터대학 미디어경영학석사

- 2022년 3월 ~ 현재 : 동아방송예술대학교 콘텐츠학부 교수

- 2004년 5월 ~ 2016년 5월 : KBS플러스(사내기업), MBN 등 PD

- ORCID : https://orcid.org/0009-0004-3678-3147

- 주관심분야 : K-Contents Format, Virtual Human,Technology Policy, Narrative, Realistic Contents

Fig. 1.

Fig. 1.
Analysis of Immersion in Music Broadcasting Show using 'flow channel'

Table 1.

Narrative Analysis of Music Entertainment Show

Narrative Analysis Re:VERSE
2023 : 12 Episodes
Kakao Page, Youtube
Avatar Singer
2022 : 15 Episodes
MBN
AVA Dream
2022 : 10 Episodes
TV CHOSUN
ALIVE
2022 : 4 Episodes
TVING
The type
of
Narrative
The Avatar of Human Being 30 idol singers who are trying to re-debut 10 avatars of the best 10 singers "Dreamer" to achieve your dream.
Avatar, the fairy of dreams
The memory of the deceased Partial Restoration of Legendary Singer Restoration of a dead legendary singer with a sad story

Table 2.

Analysis of Communication Method with Audience for Immersion

Analysis of Communication Method Re:VERSE
2023 : 12 Episodes
Kakao Page, Youtube
Avatar Singer
2022 : 15 Episodes
MBN
AVA Dream
2022 : 10 Episodes
TV CHOSUN
ALIVE
2022 : 4 Episodes
TVING
Communication Method of Audience Connectivity with the Field High
(Youtube/SNS)
Low Low Low
Method
of
Competition
Mystery/
Suspense
Tournament
System
-High
Round system
-High
Tournament
System
-High
Competition
-Low

Table 3.

Characteristics analysis of virtual human technology for immersion

Realistic Media Re:VERSE Avatar Singer AVA Dream ALIVE
The type of Virtual
Human
2D Virtual
Human
Non-Photorealistic
Virtual Human
Non-Photorealistic
Virtual Human
Photorealistic
Virtual Human
Similarity Motion Capture
(Body, Gesture, Voice)
Motion Capture
(Body, Gesture, Voice)
Motion Capture
(Body, Gesture, Voice)
Goal for Similarity 100%
Difference Subsidiary characters
-Fashion, Hair, Acting, Cartoon elements
Subsidiary characters
-Fashion, Hair, Acting, Singing Method
Subsidiary characters
-Fashion, Hair, Acting, Singing Method
No Difference
Metaverse
(Real time)
× o o o
eXtended
Reality
× o o Partial
Utilization

Table 4.

List of in-depth expert interview positioning

Experts Expert Career Position Task Content Experience
Expert 01 15-20 years Academics &
Univ. Researcher
Content Researcher -Theoretically: High
-In Practice: Middle
Expert 02 20 years more General Service Program Provider Producer -Theoretically: High
-In Practice: Middle
Expert 03 20 years more Cable Broadcasting
Company
Producer -Theoretically: High
-In Practice: High
Expert 04 20 years more Outsourcing
Production
Director -Theoretically: Middle
-In Practice: High
Expert 05 15-20 years Free-Lancer Director -Theoretically: Middle
-In Practice: High