HoG 확장을 통한 ECM의 DIMD 개선
Copyright © 2024 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”
초록
JVET은 최신 비디오 부호화 표준인 VVC(Versatile Video Coding) 표준화를 완료한 후, 새로운 표준을 위한 후보 표준기술 탐색을 진행하고 있으며, 이를 위하여 참조 소프트웨어 ECM(Enhanced Compression Model)을 개발하고 있다. ECM에는 복호화가 완료된 주변 참조샘플들의 기울기 분석을 통해 한 개 이상의 화면내 예측모드를 유도하는 DIMD(Decoder-side Intra Mode Derivation)와 DIMD 기법을 활용한 다양한 기술들이 채택되고 있다. 본 논문에서는 기존의 DIMD에서 주변 참조샘플의 복원여부에 따라 HoG(Histogram of Gradient) 구성을 위한 참조샘플 영역을 확장하여 DIMD로 유도되는 모드의 다양성을 높임으로써 DIMD의 부호화 효율을 개선하는 기법을 제안한다. 또한, 색차블록 예측을 위한 DIMD에도 적용하는 HoG 확장 기법을 제안한다. 실험결과 제안기법을 휘도블록의 DIMD에 적용할 경우 ECM-10.0 대비 Y, Cb, Cr 성분에서 각각 0.03%, 0.02%, 0.06% BD-rate 절감의 부호화 이득이 있음을 확인하였다.
Abstract
JVET is currently exploring potential technologies for a new video coding standardization after completion of the Versatile Video Coding (VVC) standardization. For this purpose, JVET has been developing a reference software named Enhanced Compression Model (ECM). ECM incorporates Decoder-side Intra Mode Derivation (DIMD), which derives one or more intra prediction modes by analyzing the gradients of the decoded neighboring reference samples, along with various methods utilizing DIMD. In this paper, we proposes a method to improve the coding efficiency of DIMD by increasing the diversity of modes derived by DIMD, through expanding the reference samples area for the Histogram of Gradients (HoG) construction depending on whether the reconstructed neighboring reference samples are available. Additionally, the proposed method is applied to DIMD for chroma block prediction, and is jointly applied to both luma and chroma blocks. Experimental results show that when the proposed method is applied to the luma block DIMD, it achieves a coding gain with Bjontegaard Delta-rate (BD-rate) saving of 0.03%, 0.02%, and 0.06% on average for Y, Cb, and Cr components, respectively, compared to ECM-10.0.
Keywords:
Intra prediction, ECM (Enhanced Compression Model), DIMD (Decoder-side Intra Mode Derivation), HoG (Histogram of Gradient)Ⅰ. 서 론
ITU-T VCEG(Video Coding Experts Group)과 ISO/IEC MPEG(Moving Picture Experts Group)이 공동으로 구성한 JVET(Joint Video Experts Team)은 2020년 7월 최신 비디오 부호화 국제표준인 VVC(Versatile Video Coding) 표준화를 완료하였다[1]. 이후, 2021년 5월에 JVET은 VVC 다음의 새로운 비디오 부호화 표준을 위한 후보 표준기술들을 탐색하고자 첫 번째 버전의 ECM(Enhanced Compression Model) 참조 소프트웨어를 개발하였다[2]. ECM을 통해 각 기술들의 성능검증 및 탐색실험(EE2: Enhanced Compression beyond VVC Capability)을 진행하고 매 회의 채택된 기술들을 ECM에 통합하여 관리하고 있다[3][4].
ECM은 화면내 예측 부호화를 위한 기술로 VVC 표준화 과정에서 구현 복잡도로 인해 채택되지 않은 기술들, VVC의 화면내 예측 부호화 툴을 확장 개선한 기술들과 함께 새로운 화면내 예측 부호화 기술들을 포함하고 있다. 주요 기술들로는 IntraTMP(Intra Template Matching Prediction), DIMD(Decoder-side Intra Mode Derivation), TIMD (Template-based Intra Mode Derivation), SGPM(Spatial Geometric Partitioning Mode) 등이 있다[5]. 이러한 화면내 예측 기술들은 다수의 예측블록을 융합하거나 블록벡터 기반의 예측블록을 최종 예측블록으로 사용함으로써 예측 정확도를 높인다. 또한, 디코더 기반의 화면내 예측모드를 유도하는 기술을 적용함으로써 부호화 효율을 크게 향상시켰다. ECM-10.0을 기준으로 VTM11.0 대비 All Intra(AI)에서 Y, Cb, Cr 각각 12.49%, 23.52%, 24.63%의 BD-rate (Bjontegaard Delta-rate) 성능이득을 확인하였다[6].
최근 2024년 7월 JVET 회의에서는 다수의 기관이 차세대 비디오 부호화 표준에 대한 표준화 일정과 요구사항에 대해 제안하였으나, 구체적인 표준화 일정은 확정되지 않았다[7]. 다만, 차세대 비디오 부호화 기술에 대한 유스 케이스(use case) 및 요구사항(requirement)을 정의하고 표준화 일정은 차기 회의들에서도 계속 논의될 예정이다. ECM에 채택된 대부분의 기술들이 차세대 비디오 부호화 표준 기술로 채택될 가능성이 높은 만큼 관련 연구가 활발히 진행중이다.
본 논문은 2장에서 ECM의 화면내 예측 부호화 기술 중 하나인 DIMD 기술에 대해 소개하고, 3장에서는 DIMD의 성능향상을 위하여 현재블록 주변의 더 넓은 영역을 통해 HoG(Histogram of Gradient)를 구성하여 보다 다양한 방향성 예측모드를 유도하는 기법을 제안한다. 4장에서는 실험결과 및 성능분석을 제시하고, 마지막으로 5장에서 결론을 맺는다.
Ⅱ. ECM의 DIMD
VVC 표준의 화면내 예측모드는 총 65개의 방향성 모드와 2개의 비방향성 모드로 구성되어 있어 현재블록의 화면내 예측모드를 부호화하는 시그널링(signaling) 오버헤드가 증가하는 단점이 있다. 이러한 오버헤드를 줄이기 위해 디코더 측에서 예측모드를 유도하는 DIMD 기술이 처음으로 제안되었다[8]. 이후, 유도된 화면내 예측블록들과 Planar 예측블록을 융합하는 기술이 제안되었고, ECM에 화면내 부호화 기술 중 하나로 채택되었다[9].
ECM의 DIMD는 복호화가 완료된 영역에서 현재블록에 인접한 샘플들의 기울기(gradient) 값들을 이용하여 HoG를 구성하고 이를 바탕으로 다수개의 화면내 예측모드를 유도한다. 유도된 방향성 모드들로 예측된 예측블록들과 Planar 예측블록을 융합하여 최종 DIMD 예측블록을 생성한다. DIMD는 휘도블록과 색차블록 예측에 모두 적용되고 있다[9]. 또한, DIMD는 TIMD, SGPM 등 다른 기술들의 방향성 모드 후보 구성 시 포함되어 사용되고 있다.
주변 참조샘플들을 이용하여 기울기를 구하고 HoG를 구성하는 방법은 다음과 같다. 식 (1)과 (2)의 3×3 크기의 수평 소벨(Sobel) 필터 Fhor와 수직 소벨 필터 Fver를 그림 1-(a)와 같이 참조영역(reference area)의 샘플들에 적용하여 현재블록에 인접한 두 번째 열과 행의 샘플들의 수평 기울기 Ghor와 수직 기울기 Gver를 각각 구한다. 식 (3)에 따라 각 샘플들의 Gver와 Gver를 통해 각도 θ를 구하고 65개의 방향성 모드 중 가장 유사한 하나의 방향성 모드로 매핑한다. 이때 해당 샘플 각도의 크기(intensity)는 식 (4)와 같이 구한다. 참조영역내 모든 샘플들에 대해 각도와 각도의 크기 값이 계산되면 각도에 따른 크기를 누적하여 HoG를 구성한다. DIMD는 디코더에서 인코더와 동일한 동작을 수행하여 모드를 유도하므로 화면내 예측모드에 대해 명시적으로 시그널링하지 않아도 되는 점에서 부호화 이득을 얻을 수 있다.
(1) |
(2) |
(3) |
(4) |
휘도블록 부호화를 위한 DIMD에 사용되는 참조영역은 그림 1-(b)와 같이 현재블록 주변의 복원된 좌측 및 상측의 인접한 3개 라인의 샘플들로 구성된다. 이때, 상단 참조영역은 현재블록 우-상단(above-right) 영역에서 사용 가능한 샘플이 있을 때 최대 현재블록의 가로 크기(W)까지 확장될 수 있다. 좌측 참조영역도 동일하게 좌-하단(below-left) 영역에 사용 가능한 샘플이 있을 때 최대 현재블록의 세로 크기(H)까지 확장될 수 있다.
휘도블록 예측을 위한 DIMD에서 최종 예측블록을 생성하는 방법은 다음과 같다. 위에서 설명한 방법으로 도출된 HoG에서 가장 높은 누적 값을 갖는 5개의 방향성 예측모드 modei를 유도하고, 식 (5)와 같이 해당 예측블록 predmodei들과 Planar 예측블록 predplanar간의 가중합을 통해 최종 예측블록preddimd 를 생성한다. 이때, 사용되는 가중치 값 wmodei는 각 방향성 모드들의 누적 크기 값에 의해 결정되며, Planar를 위한 가중치 값 wplanar는 16/64으로 고정하여 사용한다. DIMD는 예측블록을 생성하는 기술뿐만 아니라 해당 방법으로 유도된 화면내 예측모드가 PMPM(Primary Most Probable Mode), TIMD, SGPM 등의 방향성 화면내 예측 후보 모드로 포함됨으로, 디코더에서도 MPM 리스트 구성 전 DIMD 과정이 수행된다.
(5) |
색차블록 DIMD의 참조영역은 그림 2와 같이 현재 색차블록과 같은 위치(collocated)의 휘도블록 영역내의 좌측 및 상측의 4개 라인의 참조영역(a)과 색차블록의 주변 복원된 좌측 및 상측의 3개의 라인으로 구성된 참조영역(b, c)으로 구성한다[10][11]. 이때, 색차블록의 상단 참조영역은 현재블록 우-상단 영역에서 사용 가능한 샘플이 있을 때 최대 현재블록의 가로 크기(W)까지 확장될 수 있다. 색차블록의 좌측 참조영역도 동일하게 좌-하단 영역에 사용 가능한 샘플이 있을 때 최대 현재블록의 세로 크기(H)까지 확장될 수 있다. 휘도블록 DIMD와 동일하게 참조영역에 3×3 크기의 소벨필터를 적용하여 해당 샘플들의 각도와 각도의 크기를 구한다. 이후, 세 참조영역의 정보들을 모두 누적하여 HoG를 구성하고 누적된 크기가 가장 큰 모드를 색차블록의 예측모드로 사용한다. 만약 도출된 HoG에서 크기가 가장 큰 모드가 DM(Direct Mode) 모드와 같다면 두 번째로 크기가 큰 방향성 모드가 색차블록 DIMD 모드로 사용되어 최종 예측블록을 생성한다.
III. 제안기법
ECM의 DIMD는 HoG를 구성하기 위하여 현재블록 주변의 복원된 영역으로 참조영역이 구성되며 참조영역은 현재블록 크기와 주변 영역에서 사용 가능한 샘플의 가용 여부에 따라 정해진다. 이때, 우-상단 또는 좌-하단 영역에서 사용 가능한 샘플이 없는 경우 충분하지 않은 기울기 분석 정보들로 히스토그램을 구성하게 되는 문제점이 있다. 예를 들어, 현재블록이 4×4 크기이고 우-상단과 좌-하단 영역에서 모두 사용 가능한 샘플이 없는 경우 전체 9개의 화소 위치에 대해서만 3x3 소벨 필터를 적용하게 되고 해당 정보만을 이용하여 히스토그램을 구한다.
본 장에서는 II장에서 기술한 ECM의 DIMD을 위한 기울기 히스토그램(HoG)을 유도할 때, 기울기 분석을 위한 참조영역을 확장함으로써 보다 정확한 방향성 예측모드를 유도하는 방법을 제안한다. 휘도블록을 예측을 위한 제안기법, 색차블록 예측을 위한 제안기법 순으로 서술한다.
1. 휘도블록 예측을 위한 DIMD 개선기법
ECM의 휘도블록을 예측을 위한 DIMD의 참조영역은 현재블록 주변의 복원된 좌측 및 상측의 3개의 참조샘플 라인으로 구성된다. 이때, 상단 참조영역은 현재블록 우-상측 영역에서 사용 가능한 샘플이 있을 때 현재블록의 가로 크기까지 확장될 수 있다. 좌측 참조영역도 동일하게 적용된다.
본 논문에서는 휘도블록 예측을 위한 DIMD에서 그림 3-(a)과 같이 현재블록의 우-상단과 좌-하단 샘플 모두 사용 가능하지 않을 경우 참조영역의 좌측과 상측 모두 한 라인씩 확장한다. 즉, 현재블록의 우-상측 샘플이 사용 가능하지 않은 경우 상측 참조영역을 확장하고(그림 3-(b)), 좌-하단 샘플이 사용 가능하지 않은 경우 좌측 참조영역을 확장한다(그림 3-(c)). 이후, 그림 4와 같이 확장된 참조영역에 대해 기존 영역에 적용되는 동일한 3×3크기의 소벨 필터를 적용하여 각 샘플의 기울기 값을 도출하고 최종 HoG를 구한다. 제안기법은 기존 방식보다 더 많은 샘플 정보를 활용하여 HoG를 구성하므로, 더욱 다양한 모드를 유도할 수 있을 것으로 예상된다.
2. 색차블록 예측을 위한 DIMD 개선기법
ECM의 색차블록 예측을 위한 DIMD는 현재블록(Cb, Cr)의 주변 참조영역과 함께 현재블록과 동일한 위치의 복원된 휘도블록의 영역내 좌-상단에 인접한 3개의 라인 영역내 샘플들을 이용하여 HoG를 구성한다.
본 논문에서는 색차블록 예측을 위한 DIMD의 참조영역 구성 시, 상단 영역과 하단 영역이 모두 확장 가능할 경우 그림 5와 같이 Cb와 Cr의 참조영역을 상측과 좌측 모두 한 라인씩 확장하도록 한다. 현재블록과 동일한 위치의 휘도블록으로 구성된 참조영역은 기존과 동일하게 사용하였다. 제안기법은 적은 정보로 HoG를 구성하는 단점을 보완할 뿐만 아니라 색차블록 주변영역의 정보를 기존보다 더 반영하여 색차블록 예측의 성능을 향상을 기대할 수 있다.
Ⅳ. 실험결과
본 논문에서 제안하는 HoG 확장을 통한 DIMD 개선기법의 성능검증을 위하여 ECM-10.0에 제안기법을 구현하였다. ECM 성능평가를 위한 JVET CTC(Common Test Conditions)에 기반하여 AI(All Intra) 부호화 환경에서 성능을 비교 분석하였다[12]. 실험시간 복잡도를 고려하여 테스트 시퀀스는 CTC의 Class A, B, C, E의 1초 분량의 프레임을 사용하였다[13]. 표 1은 제안한 HoG 확장을 통한 ECM의 DIMD 개선기법들에 대한 각 실험결과이다. Test 1은 제안기법을 휘도블록 DIMD에 적용한 실험결과이다. Class C 시퀀스에서 휘도성분에 대한 0.06% BD-rate 절감의 부호화 성능향상을 보이며, 평균적으로 Y, Cb, Cr에서 각 0.03%, 0.02%, 0.06% 부호화 성능향상을 보였다. Test 2는 색차블록을 위한 DIMD 제안기법을 적용한 실험결과이며 평균적으로 Y에서 0.02%의 성능향상을 확인하였다. 마지막으로 Test 3은 제안기법을 휘도블록과 색차블록에 모두 적용한 즉, Test 1과 Test 2를 모두 반영한 실험결과로 Y와 Cr에서 0.03%, 0.06% 성능향상을 보였다. Test 3도 Test 1과 유사하게 Class C에서 높은 성능이득을 확인할 수 있다. 세 실험 모두 인코딩 복잡도에 대해서는 큰 변화가 없었으나 디코딩 복잡도는 ECM-10.0 대비 평균 약 0.6%에서 3% 증가함을 확인하였다.
제안기법의 성능분석을 위하여 휘도블록 DIMD에 제안기법을 적용했을 때(Test 1) 제안기법의 참조영역 확장이 적용되는 비율을 분석하였다. 표 2는 상측(Above-only), 좌측(Left-only)과 상측과 좌측(Above-Left) 경우에 대한 참조영역의 확장 비율과 확장되지 않은 비율을 나타낸다. 즉, 현재블록에 대해 DIMD를 수행할 때, 주변 참조샘플이 복호화가 완료되지 않아 제안하는 확장 기법이 적용되어 참조영역이 구성되는 경우가 72.86%로 상당히 큰 비율로 제안기법이 적용되고, 이를 통하여 의미 있는 부호화 이득이 있음을 확인할 수 있다.
Ⅴ. 결 론
본 논문에서는 ECM의 DIMD 화면내 예측에서 기존 보다 확장된 참조영역의 기울기 분석을 통하여 HoG를 구성함으로써 보다 다양한 방향성 예측모드를 유도하는 기법을 제시하고 그 부호화 성능을 분석하였다. 제안하는 HoG 확장을 통한 DIMD 개선기법은 휘도블록에 적용한 경우 ECM-10.0 대비 Y, Cb, Cr에서 각각 0.03%, 0.02%, 0.06%의 BD-rate 절감의 성능향상을 보였고, 색차블록에 적용시 ECM-10.0 대비 Y에서 0.02% 성능향상을 보였다. 또한 휘도블록과 색차블록 모두 적용한 결과 Y, Cr에서 각각 0.03%, 0.01%의 성능향상을 확인하였다. HoG 구성을 위한 기울기 분석에 사용되는 참조영역의 확장으로 DIMD로 유도할 수 있는 모드들의 다양성을 높이고 이를 통한 부호화 성능향상 가능성이 있음을 확인하였다.
Acknowledgments
이 논문의 연구 결과 중 일부는 한국방송·미디어공학회 2024년 하계학술대회에서 발표한 바 있음.
This work was supported by IITP grant funded by the Korea government (MSIT) (No. 2017-0-00072, Development of Audio/Video Coding and Light Field Media Fundamental Technologies for Ultra Realistic Tera-media).
References
- B. Bross, J. Chen, S. Liu, and Y.-K. Wang, “Versatile video coding editorial refinements on draft 10,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-T2001, Oct. 2020.
- ECM-1.0, https://vcgit.hhi.fraunhofer.de/ecm/ECM/-/tree/ECM-1.0
- V. Seregin, J. Chen, S. Esenlik, F. Le Léannec, L. Li, M. Winken, J. Ström, X. Xiu, and K. Zhang, “Exploration Experiment on Enhanced Compression beyond VVC capability,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-U2024, Jan. 2021.
- ECM-10.0, https://vcgit.hhi.fraunhofer.de/ecm/ECM/-/tree/ECM-10.0
- M. Coban, R.-L. Liao, K. Naser, J. Ström, and L. Zhang, “Algorithm description of Enhanced compression Model 10,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-AE2025, Oct. 2023.
- V. Seregin, J. Chen, R. Chernyak, F. Le Léannec, and K. Zhang “JVET AHG report: ECM software development (AHG6),” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-AF0006, Oct. 2023.
- Y. Ye, M. Karczewicz, M.-L. Champel, P. Onno, L. Zhang, X. Wang, D. Wang, Z. Lyu, Y. Huo, A. Luthra, E. Francois, H.-B. Teo, Y. Kidani, and S.-C. Lim, “Proposed timeline and requirements for the next generation video coding standard,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-AI0247, Jul. 2024.
- A. Nasrallah, E. Mora, T. Guionnet and M. Raulet, “Decoder-Side Intra Mode Derivation Based on a Histogram of Gradients in Versatile Video Coding,” In Proc. Data Compression Conference (DCC 2019), Snowbird, UT, USA, Mar. 2019, pp. 597-597. [https://doi.org/10.1109/DCC.2019.00109]
- Y.-J. Chang, C.-C. Chen, J. Chen, J. Dong, H. E. Egilmez, N. Hu, H. Huang, M. Karczewicz, J. Li, B. Ray, K. Reize, V. Seregin, N. Shlyakhov, L. Pham Van, H. Wang, Y. Zhang, and Z. Zhang, “Compression efficiency methods beyond VVC,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-U0100, Jan. 2021.
- X. Li, R.-L. Liao, J. Chen and Y. Ye, “EE2-1.2: On chroma intra prediction,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-Z0051, Oct. 2021.
- X. Li, R. -L. Liao, J. Chen and Y. Ye, “Decoder-side Chroma Intra Mode Derivation in Video Coding,” In Proc. 2023 Data Compression Conference (DCC 2023), Snowbird, UT, USA, Mar. 2023, pp. 22-31. [https://doi.org/10.1109/DCC55655.2023.00010]
- G. Moon, S. Jeon, K. Kim, J, Lee, and J.-G. Kim, “Enhancement of DIMD with Multi-Reference Lines in ECM,” In Proc. KIBME Summer Annual Conf., Jun. 2024.
- M. Karczewicz, and Y. Ye, “Common Test Conditions and evaluation procedures for enhanced compression tool testing,” Joint Video Experts Team of ITU-T and ISO/IEC, JVET-AE2017, Jul. 2023.
- 2021년 2월 : 한국항공대학교 소프트웨어학과 학사
- 2023년 2월 : 한국항공대학교 항공전자정보공학과 석사
- 2023년 4월 ~ 11월 : 한국항공대학교 항공전자연구소 연구원
- 2024년 3월 ~ 현재 : 한국항공대학교 항공전자정보공학과 박사과정
- ORCID : https://orcid.org/0000-0001-6727-7790
- 주관심분야 : 비디오 부호화, 영상 압축, 영상 처리
- 2021년 3월 ~ 현재 : 한국항공대학교 전자및항공전자공학과 학사과정
- ORCID : https://orcid.org/0009-0006-7652-8372
- 주관심분야 : 비디오 부호화
- 2023년 2월 : 한국항공대학교 정보통신학과 학사
- 2023년 3월 ~ 현재 : 한국항공대학교 항공전자정보공학과 석사과정
- ORCID : https://orcid.org/0009-0009-7679-5026
- 주관심분야 : 비디오 신호처리, 비디오 부호화
- 2007년 2월 : 고려대학교 전자 및 정보공학부 학사
- 2009년 2월 : 과학기술연합대학원대학교 이동통신 및 디지털방송공학과 공학석사
- 2024년 8월 : 한밭대학교 지능미디어공학과 박사
- 2009년 ~ 현재 : 한국전자통신연구원 선임연구원
- ORCID : https://orcid.org/0000-0002-7558-5731
- 주관심분야 : 비디오 부호화, 이머시브 비디오, 신경망시각표현
- 1990년 2월 : 경북대학교 전자공학과 학사
- 1992년 2월 : KAIST 전기 및 전자공학과 석사
- 2005년 2월 : KAIST 전자전산학과 박사
- 1992년 3월 ~ 2007년 2월 : 한국전자통신연구원(ETRI) 선임연구원/팀장
- 2001년 9월 ~ 2002년 11월 : Columbia University, NY, 연구원
- 2015년 12월 ~ 2016년 1월 : UC San Diego, Visiting Scholar
- 2007년 9월 ~ 현재 : 한국항공대학교 항공전자정보공학부 교수
- ORCID : https://orcid.org/0000-0003-3686-4786
- 주관심분야 : 비디오 신호처리, 비디오 부호화, 이머시브 비디오