스케일러블동적메쉬압축을위한 SHVC 기반텍스처맵부호화방법
Copyright © 2023, The Korean Institute of Broadcast and Media Engineers
This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.
초록
본 논문에서는 동적 메쉬 부/복호화 시 스케일러빌리티 기능을 지원하기 위해 SHVC의 계층적 부호화 방식을 기반으로 텍스처 맵을 압축하는 방법을 제안한다. 제안하는 방법은 고해상도 텍스처 맵을 다운샘플링하여 다해상도의 텍스처 맵을 생성하고 이를 SHVC로 부호화함으로써 효과적으로 다해상도 텍스처 맵들의 중복성을 제거한다. 동적 메쉬 복호화기에서는 수신기 성능, 네트워크 환경 등에 따라 적합한 해상도의 텍스처 맵을 복호화하여 메쉬 데이터의 스케일러빌리티를 지원할 수 있도록 한다. 제안하는 방법의 성능을 검증하기 위해 V-DMC (Video-based Dynamic Mesh Coding) 참조 소프트웨어인 TMMv1.0에 제안하는 방법을 적용하고 본 논문에서 제안하는 스케일러블 부/복호화기와 TMMv1.0 기반의 시뮬캐스트 방식의 성능을 비교하였다. 제안하는 방법은 시뮬캐스트 방법 대비 AI, LD 환경에서 Luma BD-rate (Luma PSNR)가 각각 평균 -7.7%, -5.7%의 향상된 결과를 얻어 제안하는 방법을 통해 효과적으로 동적 메쉬 데이터의 텍스처 맵 스케일러빌리티 지원이 가능함을 확인하였다.
Abstract
In this paper, we propose a texture map compression method based on the hierarchical coding method of SHVC to support the scalability function of dynamic mesh compression. The proposed method effectively eliminates the redundancy of multiple-resolution texture maps by downsampling a high-resolution texture map to generate multiple-resolution texture maps and encoding them with SHVC. The dynamic mesh decoder supports the scalability of mesh data by decoding a texture map having an appropriate resolution according to receiver performance and network environment. To evaluate the performance of the proposed method, the proposed method is applied to V-DMC (Video-based Dynamic Mesh Coding) reference software, TMMv1.0, and the performance of the scalable encoder/decoder proposed in this paper and TMMv1.0-based simulcast method is compared. As a result of experiments, the proposed method effectively improves in performance the average of -7.7% and -5.7% in terms of point cloud-based BD-rate (Luma PSNR) in AI and LD conditions compared to the simulcast method, confirming that it is possible to effectively support the texture map scalability of dynamic mesh data through the proposed method.
Keywords:
V-DMC, SHVC, scalability, mesh compressionⅠ. 서 론
최근 3차원 데이터 모델링 및 렌더링 기술이 발전함에 따라 가상현실 (Virtual Reality; VR), 증강현실 (Augmented Reality; AR), 자율 주행, CAD (Computer-Aided Design)/CAM (Computer-Aided Manufacturing), GIS (Geographic Information System) 등의 다양한 분야에서 3차원 데이터를 생성 및 처리하는 연구가 급증하고 있다[1]. 3차원 데이터는 표현 형식에 따라 포인트 클라우드 (point cloud), 메쉬 (mesh) 등으로 나타낼 수 있다. 이 중 메쉬는 각 정점 별의 좌푯값을 표현하는 기하 정보, 정점 간의 연결 관계를 나타내는 연결 정보, 메쉬 표면의 색상 정보를 2차원 영상 데이터로 표현하는 텍스처 맵, 메쉬의 표면과 텍스처 맵 간의 맵핑 정보를 나타내는 텍스처 좌표 등으로 구성되어 있다. MPEG (Moving Picture Experts Group)에서는 시간의 흐름에 따라 메쉬를 구성하는 요소 중 하나 이상이 변화하는 경우를 동적 메쉬로 정의하고, 변화하지 않는 경우 정적 메쉬로 정의한다.
동적 메쉬 데이터는 2차원 영상 데이터 대비 메쉬를 표현하기 위해 구성하는 요소의 데이터양이 크기 때문에 거대한 양의 메쉬 데이터를 저장 및 전송하기 위해 이를 효율적으로 압축하는 기술이 발전해왔다. 국제 표준화 기구 ISO/IEC (International Organization for Standardization/International Electrotechnical Commission) JTC1 (Joint Technical Committee 1) SC29 (Sub-Committee 29) WG11 (Working Group 11) MPEG-4 3DGC (3D Graphics Coding) 서브 그룹에서는 애니메이션 모델 압축 등을 위한 AFX (Animation Framework eXtension) 표준화를 시작하였고, 2004년 ISO/IEC 14496-16 표준안을 완료하였다[2]. 프레임 단위로 기하 정보가 변하는 동적 메쉬를 압축하는 FAMC (Frame-based Animated Mesh Compression) 표준은 ISO/IEC 14496-16 제2판 (Amendment 2)으로 2009년 2월에 개정판을 발간하였다[3]. 메쉬 압축 표준에서 지원했었던 동적 메쉬는 시간이 변화함에 따라 정점의 기하 정보는 변하지만 연결 정보는 동일하다는 특성이 있었다. 시간상으로 연결 정보가 다른 메쉬에 대해 동적 메쉬 압축 표준을 사용하기 위해서는 연결 정보를 일정하게 유지하도록 변경하는 과정이 추가로 필요했기 때문에 실시간 메쉬 압축을 수행하는 시나리오에 적합하지 않다는 문제점이 있었다[4]. 이와 같은 이유로 시간에 따라 메쉬의 연결 정보, 텍스처 맵 등이 변하는 동적 메쉬를 대상으로 하는 압축 표준에 대한 필요성이 요구되었다[5]. 이에 국제 표준화 기구 ISO/IEC JTC1 SC29 WG7 MPEG의 3DGH (3D Graphics and Haptics Coding) 서브 그룹에서는 3차원 동적 메쉬 데이터 압축을 위한 V-DMC (Video-based Dynamic Mesh Coding)[6] 표준화를 시작하였다. 2022년 4월 제언기술요청에 대한 응답 (Call for Proposals Response) 문서로 제출된 5개 기술 중 세분화 방법 (subdivision method) 기반 메쉬 압축 방법을 기반으로 논의가 되고 있고[7], 2023년 1월 작업 초안 (WD, Working Draft) 단계로 활발히 표준화를 진행하고 있다. 해당 기술은 고해상도 메쉬를 간략화하여 생성한 저해상도 메쉬인 베이스 메쉬 (base mesh)와 이를 부/복호화기 동일한 방법으로 세분화하고, 세분화가 수행된 정점들이 원본 메쉬와 유사해지도록 정점 위치를 보정하기 위한 변위벡터를 압축하는 방법을 기반으로 한다. V-DMC 기술에서 압축 대상은 베이스 메쉬, 변위 벡터 (displacement vector), 움직임 벡터 (motion vector), 텍스처 맵 (texture map) 등이 있다. 변위 벡터는 베이스 메쉬를 세분화한 메쉬와 원본 메쉬의 정점 간 오차를 줄이기 위한 목적으로 계산된 벡터이고, 움직임 벡터는 현재 베이스 메쉬와 참조 베이스 메쉬 간의 정점 개수, 연결 정보 등이 동일하고, 정점 위치 정보만 다른 경우, 참조 베이스 메쉬와 현재 베이스 메쉬의 정점 위치 간 차이를 계산한 벡터로 움직임 벡터가 부호화되는 경우 현재 베이스 메쉬에 대한 부호화를 생략한다.
V-DMC 기술제안요청서 (Call for Proposals)[8] 문서에 따르면 동적 메쉬 압축은 공간적/품질적 스케일러빌리티 (scalability)를 지원해야 한다는 요구 사항이 있지만 표준화가 진행중인 동적 메쉬 압축 구조는 스케일러빌리티 기능을 지원하고 있지 않다. 이에 대해 수신기의 성능, 디스플레이 특성, 네트워크 환경, 저장 공간 등 다양한 조건에서 원활히 동작할 수 있는 동적 메쉬 콘텐츠 서비스를 제공하기 위해 메쉬 압축의 스케일러빌리티 기능을 지원할 필요가 있다. 따라서 본 논문은 메쉬 구성 요소 중 많은 비트량 및 연산량을 차지하는 텍스처 맵의 스케일러블 부호화 및 복호화를 지원하는 방법을 제안한다. 텍스처 맵은 V-DMC 참조 소프트웨어인 TMMv1.0 (V-DMC Test Model v1.0) 기술[9]을 통해 AI (All Intra) 환경에서 메쉬 실험 영상을 압축할 경우, 총 비트스트림 중 텍스처 맵 비트스트림이 약 60~80% 비율을 차지할 정도로 데이터양 비중이 높다. V-DMC 기술에서 고해상도 메쉬를 복원하기 위해 고해상도 텍스처 맵만 생성하여 압축하기 때문에 본 논문에서는 다해상도의 텍스처 맵을 스케일러블 부호화하여 각 환경에 적합한 품질의 텍스처 맵을 복호화할 수 있는 방법을 제안한다. 제안하는 방법은 동적 메쉬의 부호화기에서 고해상도 텍스처 맵을 다운샘플링 (Down-sampling)하여 중간해상도 및 저해상도의 텍스처 맵을 생성한 후, 다해상도의 텍스처 맵을 SHVC (Scalable High Efficiency Video Coding)[10]로 스케일러블 부호화를 수행한다. 동적 메쉬의 복호화기에서는 수신기의 환경에 따라 처리하기 적합한 품질의 텍스처 맵 비트스트림을 선택적으로 전송받아 SHVC로 다중 루프 복호화하여 원하는 품질의 텍스처 맵을 복원할 수 있다.
본 논문의 구성은 다음과 같다. 2장에서는 V-DMC 및 SHVC 기술에 대해 설명하고, 3장에서 제안하는 스케일러블 텍스처 맵 압축 방법에 대해 설명한다. 4장에서는 제안하는 텍스처 맵 압축 방법의 성능을 비교하여 평가하고, 5장에서 결론을 맺는다.
Ⅱ. 관련 기술
1. V-DMC 기술
V-DMC 기술의 주요 개념은 원본 메쉬를 간소화시켜 생성된 베이스 메쉬와 이를 순차적으로 세분화하여 고해상도 메쉬로 생성시키는 과정에서 구해진 세부 정보를 압축하는 방법이다. 먼저 메쉬의 전처리 과정은 크게 베이스 메쉬 간소화, 아틀라스 매개 변수화, 세분화 표면 피팅 과정으로 나뉠 수 있다. 베이스 메쉬 간소화 과정은 입력 메쉬를 목표 비트 전송률에 따라 메쉬 간략화 알고리즘을 통해 저밀도의 베이스 메쉬로 생성하는 방법이다. 그 후, 베이스 메쉬의 텍스처 좌표는 UVAtlas[11]를 사용하여 아틀라스 매개 변수화 (atlas parameterization)를 수행함으로써 베이스 메쉬의 텍스처 좌표를 생성한다. 그 다음, 원본 메쉬와 세분화된 베이스 메쉬의 표면이 유사해지도록 베이스 메쉬의 정점 위치를 조정하는 표면 피팅 과정이 수행된다.
전처리 과정을 통해 생성된 베이스 메쉬와 이 외의 메쉬 구성 요소를 부호화하는 과정은 그림 1과 같다. V-DMC 부호화기 구조는 압축 대상에 따라 크게 베이스 메쉬 부호화기, 변위 벡터 부호화기, 텍스처 맵 부호화기로 구성된다. 베이스 메쉬 부호화기는 베이스 메쉬가 화면 내 모드로 부호화되는지 화면 간 모드로 부호화되는지에 따라 정적 메쉬 부호화기와 움직임 벡터 부호화기로 구성된다. 화면 내 모드로 베이스 메쉬가 부호화될 경우, 정적 메쉬 부호화기로 베이스 메쉬를 부호화하고 화면 간 모드로 베이스 메쉬가 부호화될 경우, 현재 베이스 메쉬를 압축하지 않고, 현재 베이스 메쉬와 참조 베이스 메쉬 간의 움직임 벡터를 부호화한다. 정적 메쉬 부호화기는 현재 베이스 메쉬를 부호화하는 구조로, 베이스 메쉬의 정점 기하 정보, 속성 기하 정보, 정점 연결 정보, 속성 연결 정보 등의 데이터를 부호화한다. 정적 메쉬 부호화기는 베이스 메쉬 데이터에 균등 양자화를 수행한 후, 양자화된 베이스 메쉬를 정적 메쉬 부호화기인 DRACO[12]로 압축하는 과정을 수행한다. 움직임 벡터 부호화기는 현재 베이스 메쉬와 참조 베이스 메쉬 간의 서로 일대일 대응 관계가 성립될 때, 현재 베이스 메쉬를 수신기로 전송하지 않고, 현재 베이스 메쉬와 참조 베이스 메쉬의 움직임 벡터만을 압축하여 복호화기로 전송하는 구조이다. 베이스 메쉬 간의 일대일 대응 관계는 두 베이스 메쉬의 정점 개수, 연결 정보 등이 모두 동일하고 정점의 위치 정보만 다른 경우에 성립한다. 두 베이스 메쉬 간의 움직임 벡터는 연결 정보를 기반으로 인접 정점의 움직임 벡터 평균값으로 예측을 수행한 뒤, 움직임 벡터 잔차값에 엔트로피 부호화를 수행한다. 변위 벡터 부호화기는 세분화된 메쉬가 원본 메쉬와 유사해지도록 두 메쉬의 정점 간차인 변위 벡터를 계산하여 이를 압축하는 구조이다. 변위 벡터는 선형 웨이블릿 기반의 리프팅 변환을 수행한 후, 변환 계수에 양자화를 수행한다. 그 후, 양자화된 변환 계수를 한 프레임에 패킹하여 비디오 부호화를 통해 압축한다. 메쉬 데이터 구성 요소 중 속성 정보에 해당하는 텍스처 맵은 복원된 메쉬에 맞춰 텍스처 전이 (texture transfer)[7] 알고리즘을 통해 텍스처 맵이 재생성된다. 텍스처 전이 알고리즘은 메쉬 데이터가 손실 압축인 경우, 원본 메쉬와 복원 메쉬 간의 관계를 기반으로 원본 텍스처 맵을 복원 메쉬에 맞춰 새로운 텍스처 맵으로 생성하는 방법이다. 텍스처 전이 알고리즘을 통해 생성된 텍스처 맵은 RGB 색상 공간에서 YUV 색상 공간으로 변환한 후, 이를 HEVC (High Efficiency Video Coding)[13], VVC (Versatile Video Coding)[14] 등의 비디오 코덱으로 압축하여 텍스처 맵 비트스트림을 생성한다.
그림 2는 V-DMC의 복호화기 구조도를 나타낸다. 메쉬 비트스트림은 베이스 메쉬 비트스트림, 변위 벡터 비트스트림, 텍스처 맵 비트스트림 등으로 구성되어 있다. 먼저 텍스처 맵 비트스트림은 비디오 복호화기를 통해 복호화를 수행한 후, YUV 색공간을 RGB 색공간으로 변환시켜 텍스처 맵을 복원한다. 베이스 메쉬 비트스트림은 베이스 메쉬가 화면 내 모드로 복호화되는지 화면 간 모드로 복호화되는지에 따라 정적 메쉬 복호화기 또는 움직임 벡터 복호화기로 복호화를 수행한다. 화면 내 모드로 복호화되는 경우, 정적 메쉬 복호화기를 통해 베이스 메쉬를 복호화하고, 화면 간 모드로 복호화되는 경우, 움직임 벡터를 복호화한 후, 복원된 움직임 벡터를 참조 베이스 메쉬에 적용하여 현재 베이스 메쉬를 복원한다. 변위 벡터 비트스트림은 비디오 복호화기를 통해 복호화된 변위 벡터 프레임에 역패킹, 역양자화, 역변환 과정을 순차적으로 진행하여 복원된 변위 벡터를 구할 수 있다. 최종적으로 베이스 메쉬에 세분화를 수행하여 복원된 메쉬에 변위 벡터를 적용하여 메쉬를 복원하는 것이 전반적인 메쉬 복호화 과정이다.
2. SHVC (Scalable High Efficiency Video Coding)
서로 다른 단말기 성능 및 네트워크 환경 등을 고려하여 적절한 품질의 멀티미디어를 제공하는 서비스에 대한 요구가 증가하고 있다. 다양한 품질의 비디오 데이터를 제공하기 위한 방법 중 기존 비디오 표준을 기반으로 전처리를 통해 다양한 해상도의 비디오를 제공할 수 있는 방법으로 시뮬캐스트 (simulcast) 방식이 있다. 시뮬캐스트 방식은 동일한 영상에 대해 각기 다른 부호화 조건을 고려하여 다양한 비트율의 비트스트림을 독립적으로 생성하는 방법으로, 다수의 비트스트림을 저장함에 따라 콘텐츠 서버의 용량을 증가시키는 단점이 있다. 이에 따라 수신기의 성능, 디스플레이 해상도 등 다양한 환경에 따라 적합한 품질의 영상을 제공할 수 있는 영상 압축 기술에 대한 필요성이 대두되었다. 공간, 시간, 화질 등 다양한 측면에서 스케일러빌리티를 제공하기 위해 ISO/IEC의 MPEG과 ITU-T (International Telecommunication Union Telecommunication Standardization Sector)의 VCEG (Video Coding Experts Group)은 JCT-VC (Joint Collaborative Team on Video Coding)를 구성하고, HEVC 확장 표준인 SHVC를 2014년에 제정하였다. SHVC에서 지원하는 스케일러빌리티 기능은 공간적 스케일러빌리티, 시간적 스케일러빌리티, 화질적 스케일러빌리티 측면으로 나뉠 수 있다. 이는 각각 해상도, 프레임률, 화질 등을 계층적 방식으로 부호화하여 다양한 품질의 데이터를 포함한 비트스트림을 생성함으로써 수신기 환경에 유연하게 대응하는 것을 가능하게 하였다. SHVC의 구조는 2개 이상의 계층을 갖는 구조로, 계층은 기본 계층 (base layer)과 향상 계층 (enhancement layer)으로 구성되어 있고, 향상 계층은 1개 이상 존재할 수 있다. SHVC에서는 상위 계층이 하위 계층 정보를 참조하여 부호화하는 계층 간 예측 (inter-layer prediction)을 수행하기 때문에 시뮬캐스 트 방식 대비 부호화 효율이 높다는 장점이 있다.
Ⅲ. 제안하는 동적 메쉬의 텍스처 맵 스케일러블 부/복호화 방법
V-DMC 기술의 텍스처 맵 부호화 과정에서는 단일 해상도의 텍스처 맵만 압축 대상으로 고려하고 있음에 따라 수신되는 비트량 및 복호화기 연산량에 맞춰 적합한 품질의 텍스처 맵을 제공하지 못한다는 문제점이 있다. 따라서 이 문제를 해결하기 위해 본 논문에서는 부호화기에서 다해상도의 텍스처 맵을 생성하여 SHVC를 기반으로 다계층 부호화를 수행함으로써 수신기 내 메쉬 복호화기에서 원하는 해상도의 텍스처 맵 비트스트림을 선택적으로 추출하여 복호화할 수 있는 텍스처 맵 스케일러블 부/복호화 방법을 제안한다. 텍스처 맵의 스케일러빌리티를 지원하기 위해 시뮬캐스트 방식을 기반으로 다해상도 텍스처 맵을 각각 부호화하는 방법 대비 SHVC를 통해 계층 간 예측을 기반으로 스케일러블 부호화하는 방법의 부호화 효율이 상대적으로 높다는 장점을 갖는다. 다해상도의 텍스처 맵을 압축하기 위하여 다양한 해상도의 텍스처 맵을 생성한 후, SHVC 부호화기를 통해 압축하여 하나의 텍스처 맵 비트스트림을 생성하였다. 본 논문에서는 SHVC 구조를 기본 계층, 향상 계층 1, 향상 계층 2로 총 3개 계층으로 구성하였다.
그림 3은 제안하는 메쉬의 스케일러블 부호화 과정을 나타낸 그림이다. 메쉬 부호화기에서 메쉬 전처리 과정을 통해 생성된 베이스 메쉬와 변위 벡터를 각각 부호화한 다음 베이스 메쉬와 변위 벡터를 복호화한 후, 에지의 중심을 기준으로 새로운 정점을 생성하는 중심점 (mid-point) 세분화 알고리즘을 통해 베이스 메쉬를 세분화한 뒤, 복원된 변위 벡터를 적용하여 메쉬를 복원할 수 있다. V-DMC 기술에서 텍스처 맵을 생성하는 과정은 원본 메쉬와 원본 텍스처 맵, 복원된 메쉬를 텍스처 전이 알고리즘의 입력으로 넣어 복원된 고해상도 메쉬에 맞춘 고해상도 텍스처 맵을 생성한다. 제안하는 방법에서는 메쉬 복호화 과정에서 수신기 환경에 적합한 품질의 텍스처 맵을 복호화할 수 있도록 스케일러빌리티 기능을 지원하기 위해 다해상도 텍스처 맵을 생성하여 공간적 스케일러블 부호화를 가능하게 한다. 고해상도 텍스처 맵을 가로, 세로 방향으로 각각 씩 다운샘플링하여 순차적으로 중간해상도 및 저해상도 텍스처 맵을 생성할 수 있고, 다운샘플링은 0.9 π-cutoff 다운샘플링 필터[15]를 기반으로 수행하고, 이는 SHM (SHVC test model)[16]에서 원본 실험 영상을 다운샘플링하여 다해상도의 실험 영상을 생성할 때 사용하는 다운샘플링 방식과 같다. 각 해상도에 따른 텍스처 맵의 너비 및 높이는 각각 수식(1), (2)와 같고, 수식에서 와 는 고해상도 텍스처 맵의 너비와 높이를 의미한다.
Total_Layer와 Target_Layer는 각각 SHVC의 총 계층 수와 SHVC로 부호화할 계층을 의미하고, SHVC의 총 계층 수는 3으로 고정하였다. 부호화할 텍스처 맵의 해상도는 Target_Layer에 따라 결정되고, Target_Layer가 3인 경우, 향상 계층 2로 부호화되는 원본 텍스처 맵 해상도를 갖는다. Target_Layer가 2인 경우, 향상 계층 1로 부호화되는 해상도로, 원본 텍스처 맵 해상도 대비 감소한 해상도를 갖고, 가 1인 경우, 기본 계층으로 부호화되는 해상도로, 원본 텍스처 맵 해상도 대비 감소한 해상도를 갖는다. 다운샘플링을 통해 생성된 다해상도 텍스처 맵은 SHVC를 통해 부호화되고, SHVC 부호화 과정에서 하위 계층을 통해 부호화된 텍스처 맵은 복호화되어 복원 픽처 버퍼 (Decoded Picture Buffer; DPB)에 추가된다. 하위 계층의 복원된 텍스처 맵은 업샘플링 (Up-sampling)하여 상위 계층의 움직임 예측 (Motion Estimation) 및 움직임 보상 (Motion Compensation)을 수행하는 과정에서 사용됨으로써 향상 계층의 부호화 효율을 높인다.
그림 4는 제안하는 메쉬의 스케일러블 복호화 과정을 나타낸 그림이다. 텍스처 맵의 복호화기에서는 네트워크 환경, 단말기 상태 등에 따라 적절한 품질의 미디어 서비스를 제공하기 위한 스트리밍 서비스인 MPEG DASH (Dynamic Adaptive Streaming over HTTP)[17] 등과 같은 시스템 계층의 지원을 받아 사용자 환경에 적합한 해상도의 텍스처 맵 비트스트림만 추출하여 전송된 비트스트림을 SHVC로 복호화할 수 있다.
예를 들어 복호화기에서 저해상도의 메쉬를 복원하고자 하는 경우, 기본 계층에 해당하는 서브 텍스처 맵 비트스트림만 추출하여 저해상도의 텍스처 맵을 복호화할 수 있고, 중간 해상도의 메쉬를 복원하는 경우, 기본 계층, 향상 계층 1에 해당하는 서브 텍스처 맵 비트스트림을 추출하여 중간 해상도의 텍스처 맵을 복호화할 수 있다. 고해상도의 메쉬를 복원하는 경우, 기본 계층, 향상 계층 1, 향상 계층 2의 텍스처 맵 비트스트림을 사용하여 고해상도의 텍스처 맵을 복호화할 수 있다. 메쉬를 복원하는 과정은 베이스 메쉬 비트스트림을 복호화하여 구한 베이스 메쉬에 중심점 세분화 과정을 수행한 후, 변위 벡터를 적용하여 메쉬를 복원할 수 있다.
Ⅳ. 실험 환경 및 결과
1. 실험 환경
본 논문에서 제안하는 방법의 성능을 평가하기 위하여 TMM v1.0 CTC (Common Test Condition)[9]의 AI 및 LD (Low Delay) 조건에서 실험을 진행하였다. V-DMC 표준 실험 영상 전체 프레임에 대하여 실험을 진행하였고, 목표 비트율에 따라 R1~R5 모든 환경에 대해 실험을 진행하였다. 텍스처 맵 압축 과정에서 사용된 SHVC의 양자화 파라미터 (QP, Quantization Parameter)는 CTC 내 HEVC의 텍스처 맵 QP와 동일한 QP를 사용하였다. 실험은 V-DMC 참조 소프트웨어인 TMMv1.0[18]을 기반으로 구현하였다. 텍스처 맵 압축 과정에서 사용된 참조 소프트웨어는 V-DMC 기술과 제안하는 방법 각각 HEVC 참조 소프트웨어인 HM-16.21[19], SHVC 참조 소프트웨어인 SHM-12.4 (HM 16.10)을 사용하였다. 주관적 화질을 비교하기 위하여 mpeg-pcc-renderer[20] 릴리즈 버전 7.0 소프트웨어를 사용하였다. 실험은 IntelⓇ i7-10세대 10700 2.9GHz 프로세서, 64G RAM, Ubuntu 20.04.4 환경에서 진행하였다.
2. 성능 평가 방법
제안하는 방법의 성능을 평가하기 위해 TMMv1.0에서 텍스처 맵 부호화 과정을 시뮬캐스트 방식으로 변경하였다. 텍스처 맵 시뮬캐스트 부호화 과정에서 다해상도 텍스처 맵을 생성하는 과정은 0.9 π-cutoff 다운샘플링 필터를 기반으로 고해상도 텍스처 맵을 가로, 세로 방향으로 각각 씩 다운샘플링하여 순차적으로 중간해상도 텍스처 맵과 저해상도 텍스처 맵을 생성하였다. 고해상도 텍스처 맵 및 다운 샘플링을 통해 생성된 중간해상도 및 저해상도 텍스처 맵은 각각 HEVC로 부호화를 수행하여 각 해상도별로 독립적인 비트스트림을 생성하였다. 텍스처 맵 시뮬캐스트 복호화 과정은 텍스처 맵 복호화기에서 원하는 해상도의 텍스처 맵 비트스트림을 일부 추출하여 HEVC로 복호화하였다. 저해상도 텍스처 맵을 복원하고자 할 경우, 저해상도 텍스처 맵의 비트스트림만 추출하여 복호화를 수행하고, 중간해상도 텍스처 맵을 복원하고자 할 경우, 중간해상도 텍스처 맵의 비트스트림만 추출하여 복호화하고, 고해상도 텍스처 맵을 복원하고자 할 경우, 고해상도 텍스처 맵의 비트스트림만 추출하여 복호화였다.
3. BD-rate를 이용한 객관적 화질 평가 및 부/복호화 시간 비교
표 1은 TMMv1.0 대비 제안하는 방법의 pointcloud-based PSNR과 image-based PSNR 기반 BD-rate[21] 성능을 각각 AI 환경, LD 환경에서 비교한 결과이다. 단일 텍스처 맵을 압축하는 TMMv1.0 대비 제안하는 방법의 경우 3개 계층의 다해상도 텍스처 맵을 압축했을 때 포인트클라우드 기반 휘도 성분의 평균 BD-rate가 각각 AI 환경에서 26.2%, LD 환경에서 29.2%의 증가를 확인할 수 있다. 제안하는 방법을 적용했을 시, 이와 같은 BD-rate 증가를 통해 3개 계층의 텍스처 맵 스케일러블 기능을 지원할 수 있음을 확인하였다. 이때 스케일러빌리티 기능이란 네트워크 환경 및 단말기 성능에 따라 적합한 해상도의 텍스처 맵을 복원할 수 있는 기능을 의미한다.
표 2는 텍스처 맵을 시뮬캐스트 방식으로 부호화한 방법 대비 제안하는 방법의 BD-rate 성능을 AI /LD 환경에서 비교한 결과이다. 표 2를 통해 포인트 클라우드 기반 휘도 성분의 BD-rate는 AI 환경에서 평균 -7.7%, LD 환경에서 평균 -5.7%의 성능 향상을 보임을 확인하였다. 카테고리 별로 AI 환경에서 포인트 클라우드 기반 휘도 성분의 평균 BD-rate는 Category1-A의 경우 -6.8%, Category1-B의 경우 -7.3%, Category1-C의 경우, -8.4%의 성능 향상을 보였다. LD 환경에서 포인트 클라우드 기반 휘도 성분의 평균 BD-rate는 Category1-A의 경우 -3.8%, Category1-B의 경우 -7.2%, Category1-C의 경우 -6.0%의 성능 향상을 보였다. 제안하는 스케일러블 텍스처 맵 압축 방법은 계층 간 예측을 수행함으로써 시뮬캐스트 방식 대비 부호화 효율을 얻은 것으로 보인다.
표 3은 시뮬캐스트 방식 대비 제안하는 방법의 테스트 시퀀스 카테고리 별 부/복호화 시간을 비교한 표이다. 시뮬캐스트 방식은 저해상도, 중간해상도, 고해상도 텍스처 맵을 각각 HEVC로 압축한 과정을 포함하여 고해상도 메쉬 데이터를 부호화한 시간을 측정하였고, 고해상도 메쉬와 고해상도 텍스처 맵을 복호화하는 과정을 포함하여 복호화 시간을 측정하였다. 제안하는 방법은 저해상도, 중간해상도, 고해상도 텍스처 맵을 SHVC로 압축한 과정을 포함하여 고해상도 메쉬 데이터를 부호화한 시간을 측정하였고, 고해상도 메쉬와 고해상도 텍스처 맵을 복호화하는 과정을 포함하여 복호화 시간을 측정하였다. TMMv1.0 방법 대비 제안하는 방법의 복호화 시간이 증가하는 결과를 보였다. 시뮬캐스트 방식은 고해상도 텍스처 맵 비트스트림만 수신 받아 HEVC로 복호화하지만 제안하는 방법은 SHVC 복호화기에서 계층 간 참조 구조로 인해 텍스처 맵 복호화 시간이 증가함에 따라 발생한 결과로 보인다.
4. 메쉬 구성 요소 별 비트스트림 크기 비교
그림 5는 텍스처 맵 압축 방식에 따라 시뮬캐스트 방식 기반 메쉬 비트스트림 크기와 스케일러블 방식 기반 메쉬 비트스트림 크기를 비교하기 위한 그래프로, 베이스 메쉬, 변위 벡터, 텍스처 맵, 움직임 벡터 등 메쉬 구성 요소 별 비트스트림 크기를 누적하여 총 비트스트림 크기를 표현하였다. 막대 그래프는 왼쪽부터 각각 저해상도 텍스처 맵, 중간해상도 텍스처 맵, 고해상도 텍스처 맵이 포함된 총 비트스트림 크기를 표현하였고, 네 번째 막대 그래프는 시뮬 캐스트 방식으로 부호화된 총 비트스트림 크기를, 다섯 번째 막대 그래프는 스케일러블 방식으로 부호화된 총 비트스트림 크기를 표현하였다. 메쉬 텍스처 맵 비트스트림 크기를 비교해보았을 때, 시뮬캐스트 방식 대비 스케일러블 방식의 텍스처 맵 비트스트림 크기가 작은 것을 확인할 수 있는데, 이는 각 해상도 별 텍스처 맵을 각각 HEVC로 압축하여 비트스트림을 구성한 시뮬캐스트 방식 대비 스케일러블 방식이 계층 간 예측을 수행함에 따라 텍스처 맵 비트량이 감소한 결과로 보인다.
5. 원본 메쉬 대비 TMMv1.0 방법과 제안하는 방법의 메쉬 복원 결과 비교
그림 6은 원본 텍스처 맵 대비 시뮬캐스트 방식으로 복호화된 텍스처 맵과 스케일러블 방식으로 복호화된 텍스처맵 간의 화질을 비교하고자 mpeg-pcc-renderer를 통해 메쉬를 렌더링하여 비교한 그림이다. 복원된 메쉬 데이터를 실제 디스플레이 장치에 표현하기 위해서는 메쉬 데이터를 기하학적으로 변환시킨 후, 텍스처 매핑, 투명도 처리 등의 과정을 수행하여 저장된 그래픽 버퍼의 픽셀을 디스플레이 장치에 표현하는 렌더링 과정이 수행된다. 메쉬 표면에 색상, 질감 등을 표현하는 방법은 메쉬 속성 정보의 종류에 따라 정점 당 속성 정보인 경우, 폴리곤 (polygon)을 구성하는 각 정점의 속성 정보를 사용하여 보간한 뒤, 메쉬 표면에 속성 정보를 표현할 수도 있고, 텍스처 맵인 경우, 텍스처 좌표에 따라 텍스처 맵을 3차원의 메쉬 표면으로 매핑시켜 속성 정보를 표현할 수도 있다. 후자와 같이 3차원 객체의 표면을 구성하는 화소에 대해 미리 생성된 텍스처 맵으로 3차원 공간의 물체 표면에 매핑시키는 기법을 텍스처 매핑 (texture mapping)[22] 기법이라고 한다. 3차원 객체의 표면과 텍스처 맵 간의 매핑 관계를 나타내는 텍스처 좌표를 사용하여 3차원 메쉬 표면에 색상, 질감 등을 표현할 수 있다. 텍스처 매핑을 수행할 경우, 적은 기하학적 연산으로 현실감있는 영상을 표현할 수 있다는 장점이 있다. 텍스처 매핑 과정에서는 복원된 텍스처 좌표를 [0,1]로 정규화 시킨 후, 정규화된 텍스처 좌표를 사용하여 텍스처 맵을 3차원의 메쉬 표면에 매핑시킨다. 이에 따라 복원된 텍스처 맵의 해상도에 상관없이 텍스처 매핑을 수행할 수 있다. 텍스처 맵의 해상도별로 시뮬캐스트 방식으로 복원한 메쉬를 렌더링한 결과와 스케일러블 방식으로 복원한 메쉬를 렌더링한 결과 간의 주관적 화질을 비교해보았을 때, 차이가 거의 없음을 확인할 수 있다.
Ⅴ. 결론
본 논문에서는 MPEG의 동적 메쉬 압축 표준이 진행중인 V-DMC 기술을 기반으로 텍스처 맵 스케일러블 부/복호화 방법을 제안하였다. 제안하는 방법은 다해상도의 텍스처 맵을 생성하여 SHVC로 계층적 부호화를 수행함으로써 단말기 상태, 네트워크 환경 등에 적합한 해상도의 텍스처 맵을 복호화할 수 있는 방법을 제안하였다. 본 논문에서 제안하는 방법은 TMM v1.0 대비 3개의 SHVC 계층에 대해 AI, LD 환경에서 각각 평균 26.2%, 29.2% 포인트 클라우드 기반의 BD-rate (Luma PSNR) 정도의 비용으로 스케일러빌리티 기능을 지원할 수 있음을 확인하였다. 또한, V-DMC의 복호화기를 변경하지 않고 시뮬캐스트 방식으로 메쉬를 압축하는 방법 대비 AI, LD 환경에서 각각 평균 -7.7%, -5.7% 포인트 클라우드 기반의 BD-rate (Luma PSNR) 성능 향상을 보였다. 하지만 제안하는 방법은 메쉬의 구성 요소 중 텍스처 맵만 스케일러빌리티 기능을 지원하기 때문에 추후 메쉬의 기하 정보까지 스케일러빌리티 기능을 지원하는 동적 메쉬 데이터 압축 연구를 진행할 예정이다.
Notes
References
- Byeon, J., Choe, H., Sim, D., MPEG G-PCC International Standard Technology, Broadcasting and Media Magazine, (2021, Apr), 26(2), p31-45, http://www.kibme.org/resources/journal/20220617110709684.pdf.
- Information technology — Coding of audio-visual objects — Part 16: Animation Framework eXtension (AFX), ISO/IEC 14496-16, (2004), https://www.iso.org/standard/38569.html.
- Information technology — Coding of audio-visual objects — Part 16: Animation Framework eXtension (AFX) — Amendment 2: Frame-based Animated Mesh Compression (FAMC), ISO/IEC 14496-16:2006/Amd 2, (2009), https://www.iso.org/standard/50471.html.
- Collet, A., Chuang, M., Sweeney, P., Gillett, D., Evseev, D., Calabrese, D., Hoppe, H., Kirk, A., Sullivan, S., High-quality streamable free-viewpoint video, ACM Transaction on Graphics (SIGGRAPH), (2015, July), 34(4), p1-13. [https://doi.org/10.1145/2766945]
- Draft Requirements for Mesh Coding, ISO/IEC JTC1/SC 29/WG7, N007, (2021, Jan.).
- WD 1.0 of V-DMC, ISO/IEC JTC/SC29/WG7, MDS22184, (2022, Oct.).
- Mammou, K., Kim, J., Tourapis, A., Podborski, D., Kolarov, K., [V-CG] Apple’s Dynamic Mesh Coding CfP Response, ISO/IEC JTC1/SC29/WG7 m59281, (2022, Apr.).
- CfP for Dynamic Mesh Coding, ISO/IEC JTC1/SC 29/WG7, N231, (2021, Nov.).
- V-Mesh Test Model v1, ISO/IEC JTC/SC29/WG7, N00404, (2022, July).
- Boyce, J. M., Ye, Y., Chen, J., Ramasubramonian, A. K., Overview of SHVC: Scalable Extensions of the High Efficiency Video Coding Standard, IEEE Transactions on Circuits and Systems for Video Technology, (2016, July), 26(1), p20-34. [https://doi.org/10.1109/TCSVT.2015.2461951]
- UVAtlas, https://github.com/microsoft/UVAtlas.
- Draco, https://github.com/google/draco.
- Sullivan, G., Ohm, J., Han, W., Wiegand, T., Overview of the high efficiency video coding (HEVC) standard, Institute of Electrical and Electronics Engineers (IEEE) Transactions on circuits and systems for video technology, (2012, Dec.), 22(12), p1649-1668. [https://doi.org/10.1109/tcsvt.2012.2221191]
- Bross, B., Chen, J., Liu, S., Wang, Y.-K., Versatile Video Coding (Draft 10), JVET-S2001, (2020, July).
- Dong, J., He, Y., Ye, Y., Downsampling Filters for Anchor Generation for Scalable Extensions of HEVC, ISO/IEC/JTC1/SC29/WG11 MPEG, Geneva, Switzerland, (2012, May), Tech. Rep. M24499.
- Barroux, G., Chen, J., Boyce, J., Ye, Y., Hannuksela, M. M., JCTVC-V1007, SHVC Test Model 11 (SHM 11) Introduction and Encoder Description, (2015, Feb.).
- Information Technology — Dynamic Adaptive Streaming over HTTP (DASH)–Part 1: Media Presentation Description and Segment Format, ISO/IEC 23009-1, (2014), https://www.iso.org/standard/65274.html.
- TMM, http://mpegx.int-evry.fr/software/MPEG/dmc/mpeg-vmesh-tm.
- HM, https://vcgit.hhi.fraunhofer.de/jvet/HM.
- Mpeg-pcc-renderer, http://mpegx.int-evry.fr/software/MPEG/PCC/mpeg-pcc-renderer.
- Bjøntegaard, G., Calculation of average PSNR differences between RDcurves, Video Coding Experts Group (VCEG), (2001), Tech. Rep. VCEGM33.
- Heckbert, Paul S., Survey of texture mapping, IEEE computer graphics and applications, (1986), 6(11), p56-67. [https://doi.org/10.1109/mcg.1986.276672]
권 나 성
- 2022년 2월 : 광운대학교 소프트웨어학부 학사
- 2022년 3월 ~ 현재 : 광운대학교 컴퓨터공학과 석사과정
- 주관심분야 : 3D 데이터 압축, 영상압축, 컴퓨터비젼
변 주 형
- 2019년 2월 : 광운대학교 컴퓨터공학과 학사
- 2021년 2월 : 광운대학교 컴퓨터공학과 석사
- 2021년 3월 ~ 현재 : 광운대학교 컴퓨터공학과 박사과정
- 주관심분야 : 3D 데이터 압축, 영상압축, 컴퓨터비전
최 한 솔
- 2018년 2월 : 광운대학교 컴퓨터공학과 학사
- 2020년 2월 : 광운대학교 컴퓨터공학과 석사
- 2020년 3월 ~ 현재 : 광운대학교 컴퓨터공학과 박사과정
- 주관심분야 : 영상신호처리, 영상압축, 컴퓨터비전
심 동 규
- 1993년 2월 : 서강대학교 전자공학과 공학사
- 1995년 2월 : 서강대학교 전자공학과 공학석사
- 1999년 2월 : 서강대학교 전자공학과 공학박사
- 1999년 3월 ~ 2000년 8월 : 현대전자 선임연구원
- 2000년 9월 ~ 2002년 3월 : 바로비젼 선임연구원
- 2002년 4월 ~ 2005년 2월 : University of Washington Senior research engineer
- 2005년 3월 ~ 현재 : 광운대학교 컴퓨터공학과 교수
- 주관심분야 : 영상신호처리, 영상압축, 컴퓨터비전