머신 러닝 기법을 활용한 메타버스 렌터카 가격 예측 방법의 디자인
Copyright © 2024 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”
초록
본 논문은 메타버스에서의 렌터카 가격 예측을 위한 기계 학습 방법을 사용한 방법을 제안한다. 본 논문의 주요 목표는 메타버스 환경에서 렌터카 가격을 예측하는 것으로, 이를 위해 KAFLIX로부터 제공 받은 실제 데이터를 기반으로 예측 방법을 제안한다. 회귀 분석, 앙상블 기법 등 다양한 기계 학습 방법을 활용하여 렌터카 가격에 영향을 미치는 요소를 탐구하고 single-step forecasting, multi-step forecasting, 그리고 좀 더 정확한 렌터카 가격 예측을 위해 최적화 알고리즘 중 하나인 BOHB를 적용한 multi-step forecasting 총 3가지의 실험을 진행하였다. 실험 결과, 이전 렌트 가격과 날짜 정보 등이 렌터카 가격을 예측하는 데에 중요한 역할 한다는 결론과 동시에 렌터카 가격 예측에 효율적임을 보였다. 이를 통해 만일 메타버스에서의 렌터카 사업이 현실과 유사한 발전을 이루게 된다면, 우리의 연구 결과는 해당 환경에서의 렌터카 사업에 유용한 통찰력을 제공할 것으로 기대된다.
Abstract
This paper proposes a method that utilizes machine learning techniques to predict rental car prices in the metaverse. The primary objective of this paper is to predict rental car prices in a metaverse environment. To achieve this goal, we introduce a prediction a method based on actual data provided by KAFLIX. Three experiments were conducted in total, employing various machine learning methods including regression analysis and ensemble techniques. The aim was to investigate factors influencing rental car prices, encompassing single-step forecasting, multi-step forecasting, and multi-step forecasting with application of BOHB, an optimization algorithm, to enhance the accuracy of rental car price predictions. As a result of the experiment, it was concluded that the previous rental car price and date information play crucial roles in predicting rental car prices. Simultaneously, the effectiveness of utilizing this information for rental car price prediction was demonstrated. In the event that the rental car business in the metaverse undergoes a development similar to that in reality, our research results are anticipated to offer valuable insights into the rental car industry within this enviornment.
Keywords:
metaverse, rental car price prediction, machine-learning, prediction modelⅠ. 서 론
메타버스(metaverse) 또는 확장 가상 세계는 가상, 초월을 의미하는 ‘meta’와 세계와 우주를 의미하는 ‘유니버스’를 합성한 신조어이다. 이는 3차원에서 실제 생활과 법적으로 인정한 활동인 직업, 금융, 학습 등의 연결된 가상 세계를 뜻한다. 가상현실, 증강현실의 상위 개념으로서, 현실을 디지털 기반의 가상 세계로 확장해 가상공간에서 모든 활동을 할 수 있게 만드는 시스템이다. 정치와 경제, 사회, 문화 전반적 측면에서 현실과 비현실이 공존하는 생활형, 게임형 가상 세계라는 의미로 폭넓게 사용한다. 실제로 기술 세계에서 빠르게 떠오르고 있고, 사용자에게 물리적 세계의 한계를 뛰어넘는 경험을 제공한다. 메타버스가 발전함에 따라, 이는 삶의 일부분의 요소로 자리 잡을 것이고, 물리적 세계에서 경험하지 못하는 것을 가능하게 해줄 것이라는 전망이 있다[1].
한 자동차 제조 회사는 메타버스와 관련하여 자동차의 시승 테스트와 같은 다양한 비즈니스를 진행하고 있다. 이를 바탕으로 메타버스 플랫폼 내에서 차량을 시험 주행하거나 일정 기간 대여할 수 있는 서비스도 제공될 것으로 기대된다. 이 논문은 메타버스 플랫폼 내에서 렌터카 시장이 발달한다고 가정했을 때, 렌터카 가격을 예측하는 데 도움이 되는 모델을 제안한다. 이러한 예측은 소비자가 렌터카를 대여하기 전, 가격의 변동을 확인 후 소비 의사를 결정할 수 있게 한다. 제안된 모델은 시장 수요, 날짜 및 재고 수준과 같은 요소를 고려하여 메타버스 내에서 시간이 지남에 따라 가격이 어떻게 변동하는지를 예측한다.
예측 모델을 개발하기 위해 렌터카 가격의 과거 기록 및 관련 요소를 다양한 기계 학습 알고리즘을 사용하여 분석하고 테스트를 진행했다. 기계 학습 알고리즘을 사용함으로써, 예측의 정확도를 향상할 수 있기 때문이다. 따라서 이 연구를 통해 얻은 결과는 메타버스 내에서 운영되는 렌터카 회사와 고객 모두에게 가상 세계에서의 차량 대여 경험을 개선하는 방법에 대한 통찰력을 제공할 것이라 기대한다.
이 논문의 구성은 다음과 같다. 1장에서는 메타버스의 개념을 소개하며 메타버스 내 렌트카 서비스 제공에 대한 개념이 나올 수 있었던 원인에 대하여 간략히 설명한다. 2장에서는 메타버스와 예측 모델의 기초 및 연구 배경을 제시한다. 3장에서는 실험에 사용되었던 알고리즘에 대하여 설명한다. 4장에서는 진행된 실험의 방법과 결과, 그리고 결과 분석을 소개한다. 그리고 마지막 5장에서는 결론이 제시된다.
Ⅱ. 배경 및 관련연구
메타버스란, 나를 대리하는 아바타를 통해 일상생활과 경제 활동을 영위할 수 있는 3D 기반의 가상 세계를 뜻한다. 여기서 의미하는 일상생활과 경제생활은 현실과 분리된 것이 아니라 현실의 연장선상에서 일어나는 행위가 포함된다. 메타버스는 현실과 가상이 합쳐진 초월을 의미하는 메타(meta-)와 세계를 뜻하는(-verse)의 합성어로, 1992년 출간된 ‘스노 크래시’ 속의 가상 세계의 명칭인 ‘메타버스’에서 유래한다. 메타 버스 속 아바타는 여러 성격을 가상세계로 투영함과 동시에 현실의 나로부터 책임, 권리, 의무를 받아 행동하는 대리인의 개념이다. 이는 메타버스 속의 아바타의 행위는 실제 나의 행위와 동격으로 인식되어 아바타에게도 가상 세계의 사회적 의무와 책임이 수반될 수 있음을 의미한다.
예측 모델이란, 주어진 입력 데이터 세트에서 패턴을 분석하여, 미래의 사건 또는 결과를 예측하는 수학적 프로세스를 뜻한다. 이 논문에서는 렌터카 대여 가격 얘측을 위한 방법을 연구했다. 이러한 예측 모델은 소비자에게 소비를 결정할 수 있는 도움을 줄 수 있다[2]. 이미 기업들은 메타버스를 통해 다양한 플랫폼을 구성하고 있다. 기업서비스를 제공하거나, 행사를 진행하기도 하며, 회의 진행, 마케팅, 교육 등 다방면으로 이루어지고 있다. 이러한 플랫폼 중 우리가 주목한 부분은 자동차 회사도 이러한 메타버스의 장점을 이용하여 차를 시승할 수 있는 플랫폼을 구성했다는 것이다. 이러한 플랫폼이 발전된다면, 메타버스 내에서도 현실 세계처럼 렌터카 서비스로 이어질 가능성이 충분하며, 우리의 연구는 이러한 플랫폼이 발전했을 때, 사용할 수 있는 예측 방법을 제시한다. 데이터는 KAFLIX 회사로부터 받은 실제 렌터카 데이터를 사용하였다. 이 데이터는 날짜별 차량 재고, 대여 가격 등이 기재되어 있는데, 우리는 이러한 특징을 가진 데이터를 다양한 머신러닝 기법에 적용하여 장기적인 차량 대여 가격과 단기적인 차량 대여 가격을 예측했다. 소비자는 제공되는 결과에 따라 대여 여부를 결정할 수 있을 것이다.
Ⅲ. 머신 러닝 기반 예측 방법
1. 랜덤 포레스트 회귀(random forest regression)
랜덤 포레스트란, 분류와 회기를 위한 앙상블 학습 방법을 사용하는 비지도 학습 기법의 하나다. 배깅 기법이며, 훈련하는 동안 다수의 결정 트리를 구성하고 평균 예측(regression)인 클래스를 출력하여 작동한다. 전통적인 시계열 예측 모델은 연속 변수를 처리해야하므로, 회귀 절차를 기반으로 한다. 랜덤 포레스트는 매우 우수한 성능을 보이는 회귀 기법의 하나며, 회귀 모델 중 가장 기본적인 모델이다. 본 논문은 예측 방법으로 랜덤 포레스트 회귀 모델을 사용하여 렌터카 가격을 예측하였다. 윈도우 사이즈는 14일로 설정하였고, 1일 후의 렌터카 가격을 예측했다[3]. 그림 1은 랜덤 포레스트 회귀에 대한 과정을 정리한 그림이다. 원본 데이터셋에서 여러 부트스트랩 샘플을 생성 후 각 샘플에 대한 결정 트리를 생성한다. 그 다음 개별 트리들이 예측한 결과를 평균화하여 최종 예측 값을 예측하는 과정을 정리한 그림이다.
2. 다층 퍼셉트론(multi-layer perceptron)
다층 퍼셉트론은 여러 층의 퍼셉트론을 순차적으로 붙인 형태이다. 각 계층은 그래프 구조에서 노드처럼 작동한다. 즉, 입력이 들어오면 작업을 수행한 다음 출력을 내보낸다. 신경망의 가장 고전적이며 기본적인 구조이고, 회귀 문제에 적합하므로 다층 퍼셉트론을 예측 방법으로 사용했다. 입력층과 출력층을 포함하여 총 4개의 층으로 구성한 그림 2와 같은 모델을 만들었으며 윈도우 크기는 14일로 설정하고, 1일 후의 렌터카 가격 예측을 시도했다[4].
3. 컨볼루션 뉴럴 네트워크(Convolution neural network)
컨볼루션 뉴럴 네트워크 입력 기능을 따라 이동하고 기능 맵으로 알려진 변환등변 응답을 제공하는 컨볼루션 커널 또는 필터의 공유 가중치 아키텍처를 기반으로 한다. 주로 이미지 및 비디오 인식, 추천 시스템, 이미지 분류, 자연어 처리 및 시계열 분석 등에 사용하며, 2D 공간에서 작동할 뿐만 아니라 3D 공간 그리고 1차원 시계열 데이터에도 적용된다. 우리는 시계열 데이터에 적용할 수 있는 1D CNN을 이용하여, 2개의 컨볼루션층과 출력층으로 구성된 그림 3과 같은 모델을 만들었고 윈도우 크기는 14로 설정하여, 1일 후의 렌트카 가격을 예측하였다[5].
4. 롱 숏 텀 메모리(Long-short term memory)
롱 숏 텀 메모리는 시계열 예측을 시도할 때 가장 널리 쓰이는 전통적인 기법의 하나다. 이 모델은 전통적인 recurrent neural network 기법을 사용했을 때, 발생할 수 있는 기울기 소멸 문제를 처리하기 위해 개발되었다. 롱 숏 텀 메모리는 시계열의 중요한 이벤트 사이에서 알 수 없는 기간의 지연이 있을 수 있으므로 시계열 데이터를 기반으로 분류, 처리 및 예측하는데 적합하다. 롱 숏 텀 메모리의 구성은 다음과 같다[6].
- • Cell state: 정보가 바뀌지 않고 그대로 흐르도록 하는 역할.
- • Forget gate: cell state에서 sigmoid layer를 거쳐 어떤 정보를 버릴 것인지 정함.
- • Input gate: 앞으로 들어오는 새로운 정보 중 어떤 것을 cell state에 저장할 것인지 결정.
- • Output gate: 어떤 정보를 output으로 내보낼지 정하게 됨.
우리는 이런 특성을 가진 롱 숏 텀 메모리를 사용하여 입력 층과 2개의 LSTM 층 그리고 출력층으로 모델을 만들었고 1일 이후, 그리고 7일, 14일, 21일 30일 뒤의 렌터카 가격 예측을 시도하였다. 1일 후 예측을 단일 단계 예측, 그 이후의 예측을 다단계 예측이라고 한다. 각 예측의 과정은 그림 4, 그림 5와 같다.
5. 아리마 모델(Autoregressive Integrated moving average)
아리마 모델은 과거 값과, 과거 예측 오차에 기반을 두어 현재 값을 설명하는 전통적인 대표적 시계열 예측 모델이다. 아리마는 다음과 같이 이루어져 있다.
- • AR: "AR" 구성 요소는 관심 변수가 자체의 과거 값에 회귀 된다는 것을 나타낸다.
- • MA: "MA"는 이동 평균을 의미하며, 다양한 과거 시간에 발생한 오차항들의 선형 조합을 나타낸다. 이러한 오차항들은 통계 용어로 "잔차" 라고도 한다.
- • I: "I"는 차분을 나타내며, 각 값과 이전 값의 차이로 데이터 값이 대체된다. 각각의 기능의 목적은 모델이 가능한 한 데이터에 잘 맞도록 하는 것이다.
아리마 모델을 사용하여 1일 뒤의 렌터카 가격 예측을 시도하였다[7].
Ⅳ. 결과 및 분석
우리는 실제 차량 대여 데이터를 이용하여, 여러 가지 모델을 통해 예측의 정확도를 높이려고 시도하였다. 실제로 단일, 다단계 시계열 예측을 위한 연구는 활발히 진행되고 있다[8]. 따라서 우리는 회귀모델로 사용되는 랜덤 포레스트 회귀, 다층 퍼셉트론, 컨볼루션 뉴럴 네트워크, 롱 숏 텀 메모리, 아리마를 사용하여 단일 예측을 시도하였고, 롱 숏 텀 메모리, 아리마를 사용하여 다단계 예측을 시도했다. 성능 측정은 실험하는 모델이 회귀모델에 가깝기에, 일반적인 회귀 지표인 MAE(Mean Absolute Error)로 측정하였다. MAE란 시계열 예측 모델의 정확도를 측정하는 데 사용되는 일반적인 측정항목이며, Mean Absolute Deviation(MAD)라고도 불린다. 시계열 예측 모델에 대한 MAE 값이 얼마나 적절해야 한다는 수치는 없으나, 일반적으로 MAE가 0에 가까울수록, 즉 값이 낮을수록 좋은 성능을 보인다고 여겨진다. 아래는 MAE 값을 계산하기 위한 식이다.
(1) |
1. 단일 단계 예측
앞서 언급했던 모델들을 통해 원 스텝 예측을 시도하였다. 윈도우 크기는 14로 고정하여 실험하였고, 1일 후의 예측 결과를 살펴보았다. 실험 결과는 그림1에 정리되었으며 순서는 왼쪽부터 랜덤 포레스트 회귀, 다층 퍼셉트론, 컨볼루션 뉴럴 네트워크, 롱 숏 텀 메모리, 아리마 순이다. 또한 성능 측정 결과는 표 1에 정리하였다. 그림 6의 (1)-(5)를 보면 모두 어느 정도 추세를 따라가며 예측이 잘 이루어진다는 것을 확인할 수 있다. 5가지 모델 중 ARIMA가 MAE값이 0.153으로 가장 높은 성능을 보였으며, 두 번째로는 LSTM이 MAE값이 0.411로 좋은 성능을 보였다. 이는 LSTM이 시계열 데이터 예측에 강력한 알고리즘 중 하나임을 다시 한번 확인시켜 준다. 그 외 나머지 알고리즘도 MAE값이 0.475, 0.471, 0.495로 어느 정도 낮은 수치로 좋은 성능을 보여주었으며 이러한 결과는 단일 단계 예측에 머신러닝 알고리즘이 효과적임을 보인다.
2. 다단계 예측
앞서 설명했던 것처럼, 단일 단계 예측 이외에 다단계 예측을 시도하였다. 다단계 예측은 롱 숏 텀 메모리를 사용하여 7일, 14일, 21일, 30일을 예측하였고, 윈도우 사이즈는 20일. 30일, 40일, 50일로 설정하여 실험하였다. 또한 배치사이즈는 1로 고정하였다. 다단계 예측을 시도했을 때 결과는 7일, 14일, 21일, 30일 예측이 MAE값 0.539, 0.439, 0.408, 0.378로 비교적 낮은 수치로 좋은 성능을 보였다. 이러한 결과는 머신러닝 알고리즘의 적용이 다단계 예측에서도 효과적임을 확인시켜준다. 성능 측정은 단일 예측과 같이 MAE로 진행하였고, 실험 결과는 표 2, 그림 2에 정리하였다.
3. BOHB 최적화 기법
우리는 앞서 실험한 다단계 예측의 성능 향상을 위해 BOHB 최적화 기법을 사용하였다. BOHB 최적화 기법이란, 베이지안 최적화와 Hyperband를 조합한 기법인데, 베이지안 최적화에 Tree Parzen Estimation을 사용하여 간결성과 계산 효율을 증가시킨 기법이다[9]. 우리는 7일, 14일, 21일, 30일에 가장 적합한 윈도우 크기와 각 layer의 유닛 크기 그리고 배치 크기를 찾기 위해 BOHB를 사용하여 각 수치를 최적화 시켰다. 적용한 결과는 기존 0.539, 0.439, 0.408, 0.367에서 0.484, 0.432, 0.401, 0.367로 기존 결과보다 성능이 향상된 것을 확인할 수 있었다. 이는 BOHB 파라미터 최적화 기능이 예측 모델의 성능 향상에 기여함을 의미한다. 결과는 그림 3, 표 3에 정리하였다.
Ⅴ. 결 론
우리는 실제 차량 대여 데이터와 기계 학습 알고리즘을 활용하여 렌터카 대여 가격을 예측하는 데에 효과성을 입증했다. 우리의 실험은 MAE값 대부분 일정 수준의 성능을 보여줌으로써 메타버스 내 차량 대여 시장에서 더 나은 의사 결정을 가능하게 할 것이라 기대한다. 실험 결과는 메타버스 내에서의 차량 대여 가격의 추세에 대한 통찰력을 제공할 것이다. 우리의 연구의 특징은 메타버스라는 환경에 초점을 맞춘 점, 그리고 최적화 알고리즘인 BOHB를 적용한 multi step forecasting을 수행한 점이라 할 수 있다. 이러한 접근 방식은 메타버스 내에서 렌터카 사업이 현실과 유사한 발전을 이루게 된다면, 해당 환경에서 렌터카 사업에서의 렌터카 사업에 유용한 통찰력을 제공할 것이라 기대한다. 또한 연구 결과는 현실 세계에서도 동일하게 적용될 수 있을 것으로 보이며, 이 연구는 대여 회사와 소비자 양측에게 가격 결정 시 데이터 주도적인 방법을 제공하는 데 도움이 될 것으로 기대된다. 추가적인 연구에서는 추가 데이터 소스의 활용이나 다른 최적화 기법을 통해 제안한 방법의 성능을 개선할 계획이다.
Acknowledgments
이 성과는 2017년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(NRF-2017R1A5A1015596). 이 작업은 중소기업 기술정보진흥원(TIPA)에서 자금을 지원 받은 기술개발사업(S3280828)의 일환임. 이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(RS-2023-00244176).
References
- Novak, K. “Introducing the Metaverse, Again!”. TechTrends 66, 737–739 August 2022. [https://doi.org/10.1007/s11528-022-00767-0]
- Barrera, Kevin Giang, and Denish Shah, “Marketing in the Metaverse:Conceptual understanding, framework, and research agenda.” Journal of Business Research, Volume 155, Part A, January 2023. [https://doi.org/10.1016/j.jbusres.2022.113420]
- Obata, S, Cieszewski, C.J, Lowe, R.C., Bettinger, P., “Random Forest Regression Model for Estimation of the Growing Stock Volumes in Georgia, USA, Using Dense Landsat Time Series and FIA Dataset.” Remote Sensing 13.2 January (2021):218. [https://doi.org/10.3390/rs13020218]
- Borghi, Pedro Henrique, Oleksandr Zakordonets, and Joao Paulo Teixeira. “A COVID-19 time series forecasting model based on MLP ANN.” Procedia Computer Science Volume 181,February,2021, pp. 940-947. [https://doi.org/10.1016/jprocs.2021.01.250]
- B. Zhao, H. Lu, S. Chen, J. Liu and D. Wu, “Convolutional neural networks for time series classification.” Journal of Systems Engineering and Electronics vol. 28, no. 1, pp. 162-169, Feb. 2017. [https://doi.org/10.21629/JSEE.2017.01.18]
- L. Yunpeng, H. Di, B. Junpeng and Q. Yong, “Multi-step ahead time series forecasting for different data patterns based on LSTM recurrent neural network.” 2017 14th Web Information Systems and Applications Conference (WISA), Liuzhou, China, November 2017, pp. 305-310 [https://doi.org/10.1109/WISA.2017.25]
- Kumar, Raghavendra, Pardeep Kumar, and Yugal Kumar. “Multi-step time series analysis and forecasting strategy using ARIMA and evolutionary algorithms.” International Journal of Information Technology14.1, February 2022: 359-373 [https://doi.org/10.1007/s41870-021-00741-8]
- Hui Hou, Chao Liu, Qing Wang, Xixiu Wu, Jinrui Tang, Ying Shi, Changjun Xie, “Review of load forecasting based on artificial intelligence methodologies, models, and challenges.” Electric Power Systems Research, Volume 210, May 2022. [https://doi.org/10.1016/j.epsr.2022.108067]
- Falkner, Stefan, Aaron Klein, and Frank Hutter. “BOHB: Robust and efficient hyper parameter optimization at scale.” International Conference on Machine Learning. PMLR, 2018.
- 2022년 2월 : 전북대학교 산업정보시스템공학과 학사
- 2022년 8월~ 현재 : 광운대학교 컴퓨터공학과 석사과정
- ORCID : https://orcid.org/0009-0008-4699-9477
- 주관심분야 : 시계열 데이터 분석, 시계열 예측, 데이터 마이닝, 추천 시스템, 생성 AI, LLM
- 2021년 2월 ~ 현재 : 광운대학교 컴퓨터정보공학과 정보공학전공 학사과정
- ORCID : https://orcid.org/0009-0000-6212-6483
- 주관심분야 : 시계열 데이터 분석, 시계열 예측, 데이터 마이닝, 추천 시스템, 생성 AI, LLM
- 2019년 2월 ~ 현재 : 광운대학교 컴퓨터정보공학과 정보공학전공 학사과정
- ORCID : https://orcid.org/0000-0001-5952-4130
- 주관심분야 : 계산 신경 과학, 신호 처리, 생성 AI, 정보이론, 통계 기반 머신러닝
- 2023년 2월 : 광운대학교 컴퓨터정보공학부 정보공학전공 학사
- 2023년 2월 ~ 현재 : 광운대학교 컴퓨터정보공학과 석사과정
- 2023년 9월 ~ 2024년 2월 : Simon Fraser University Graduate Visiting Research Student
- ORCID : https://orcid.org/0009-0001-5536-8481
- 주관심분야 : 인공지능, 머신러닝, 생체 신호처리, 시계열 데이터 분석
- 2004년 2월 : 서강대학교 전자공학과 학사
- 2006년 2월 : 서울대학교 의공학과 석사
- 2007년 : LS Cable 연구원
- 2012년 2월 : 임페리얼 칼리지 런던 대학교 전자공학과 박사
- 2019년 2월 ~ 현재 : 광운대학교 부교수
- ORCID : https://orcid.org/0000-0001-8402-007X
- 주관심분야 : 통계 기반 머신러닝, 계산 신경 과학, 신호 처리, 의공학