
VVC 기반 위상 홀로그램 압축을 위한 디블록킹 필터 및 샘플 적응적 오프셋 개선
Copyright © 2026 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”
초록
위상 홀로그램은 위상 값의 2π 주기성으로 인해 자연 영상과 다른 신호 특성을 가지므로, 표준 비디오 코덱을 그대로 적용하면 성능이 제한된다. 선행 연구들에서는 최소원형차이(SCD: Shorter Circular Difference)와 원형클리핑(CC: Circular Clipping)을 잔차 신호 및 복원 신호의 클리핑 과정과 율-왜곡 최적화 과정에 도입하여 높은 평균 비트레이트 감소를 이루었으나, 인-루프 필터로의 확장은 이루어지지 않았다. 본 연구에서는 위상 홀로그램 압축을 위해 주기성을 고려한 인-루프 필터링 방법을 제안한다. 특히, (1) SCD 기반 Laplacian 계산, (2) SCD 적용에 따른 임계값 재조정 방법을 바탕으로 위상 홀로그램을 위한 디블록킹 필터와 샘플 적응적 오프셋 방법을 제시한다. 제안한 P-DBF 및 P-EO를 적용한 결과, 선행 연구 대비 BD-rate를 위상과 수치적 복원 도메인에서 각각 9.1%, 12.7% 개선하였다.
Abstract
Phase-only holograms differ from natural images due to 2π periodicity of phase values, limiting coding efficiency when conventional video codecs are directly applied. Previous studies introduced Shorter Circular Difference (SCD) and Circular Clipping (CC) into residual/reconstruction clipping and rate–distortion optimization, achieving significant average bit-rate reductions. Nevertheless, these techniques have not been extended to in-loop filtering. To address this, we propose phase-aware in-loop filters based on SCD-based Laplacian computation and threshold adjustment, namely P-DBF and P-EO, achieving BD-rate gains of 9.1% in the phase domain and 12.7% in the reconstructed domain.
Keywords:
Phase-only Hologram Compression, Versatile Video Coding, In-loop Filter, Deblocking Filter, Sample Adaptive OffsetⅠ. 서 론
디지털 홀로그램은 물체 파면의 진폭 및 위상 정보를 포함하므로 초실감 3D 표현이 가능하나, 고해상도 데이터로 인해 전송 및 저장 비용이 매우 크다. 특히 공간광변조기(Spatial Light Modulator, SLM)가 위상 또는 진폭만을 표시하는 실제 응용을 고려하여 복소 홀로그램을 위상 홀로그램(Phase-only Hologram, PoH)으로 변환하여 취급하는 경우가 많다. 위상 홀로그램은 위상 값이 2π 주기성을 갖는 원형 도메인에서 정의된다는 점에서 자연 영상과 근본적으로 다르며, 이 특성으로 인해 2π 랩어라운드(wrap-around) 경계에서 자연 영상에서와는 달리 선형 도메인에서 정의된 연산이 비효율적으로 동작할 수 있다[1].
위상 홀로그램을 위한 압축 방법은 크게 세 가지로 나눌 수 있다. 딥러닝 기반 압축과, 복소 홀로그램 압축 표준, 동영상 압축 표준 기반 홀로그램 압축이다. NHVC[2], DPRC[3] 등으로 대표되는 딥러닝 기반 압축은 이미지, RGB-D 이미지 등을 입력으로 받아 잠재 표현으로부터 홀로그램을 생성 및 압축하는 방식이다. 하지만 각 깊이별로 따로 학습해야 하는 등 입체감 재현이 어렵고 모델 가중치가 실수 표현으로 표현되어 높은 컴퓨팅 복잡도를 가진다. 복소 홀로그램 이미지 압축 표준인 JPEG pleno holography[4]는 대용량의 복소 홀로그램을 공간 타일 단위로 분할하여 독립적으로 압축 및 전송하는 표준이다. 이는 홀로그램 이미지 압축만을 지원하며, 비디오 압축은 지원하지 않는다.
마지막으로 동영상 압축 표준 기반 홀로그램 압축 방법은 HEVC, VVC 등 동영상 압축 표준을 기반으로 위상 홀로그램을 압축하는 방법으로 위상 주기성을 반영하기 위해 최소원형차이(Shorter Circular Difference, SCD)[1]와 원형클리핑(Circular Clipping, CC)[1]을 RD 최적화와 잔차 신호 및 복원 신호 처리에 도입하였다. 이를 통해 HEVC ext[1]와 VVC ext[5]에서 위상 홀로그램 압축 성능을 개선하였다. 동영상 압축 표준 기반 접근은 비디오 코덱의 효율적인 엔트로피 부호화, 예측, 하드웨어 가속 등을 활용할 수 있어 실용성이 높다.
다만, 기존 동영상 압축 표준 기반 접근에서 인-루프 필터(In-loop Filter, ILF)는 비활성화하는 방식으로 다루어져 왔다. 특히 HEVC ext[1]에서 위상 영상 압축에서 인-루프 필터 비활성화가 유리함을 보였으며, 이는 자연 영상 기반 기존 인-루프 필터가 위상 영상 압축에서의 한계를 보여준다. 본 연구에서는 기존 인-루프 필터의 성능 저하 원인을 규명하고, 단계별 알고리즘 개선을 통해 위상 홀로그램에 최적화된 압축 방안을 제안한다.
Ⅱ. 관련 연구
1. 위상 신호 압축을 위한 HEVC Extension과 VVC Extension
HEVC ext[1]은 위상 주기성으로 인해 발생하는 랩어라운드 문제를 해결하기 위해 잔차 신호 처리, 최적화 과정, 복원 신호 처리에 주기성 기반 연산을 도입하여 위상 및 NR 도메인에서 압축 효율을 크게 향상시켰다. 이후 VVC ext[5]은 동일한 아이디어를 VVC로 확장하여 추가 성능 이득을 보고하였다. <그림 1>은 VVC 부/복호화기의 구조와 VVC ext[5]의 개선 부분을 나타낸 도식도이다.
Schematic diagram of VVC, showing the improved parts (blue) from VVC ext[5] and the improved parts in this paper (red)
위상 신호는 파동의 진행 상태나 위치를 나타내는 2π 주기 신호로서 연속적으로는 [0, 2π) 범위로 표현할 수 있으며, 이산적으로는 비트 깊이(Bit depth) n에 따라 [0, 2n-1] 범위로 양자화하여 표현할 수 있다. 이때 0과 2π(또는 0과 2n)는 동일 위상을 의미하므로 이 경계에서 자연스럽게 랩어라운드가 발생한다. HEVC ext[1]에서는 이러한 주기성을 고려한 원형클리핑(Circular Clipping, CC) 연산과 최소원형차이(Shorter Circular Difference, SCD) 연산을 제안하고, 이 연산을 <그림 1>에 파란색 사각형으로 표시된 (i) 잔차 신호의 차이 및 클리핑 과정, (ⅱ) 율-왜곡 최적화(RDO) 과정, (ⅲ) 복원 신호의 클리핑 과정에 도입하여 높은 압축 성능을 달성하였다.
클리핑은 사전에 정의된 범위를 벗어나는 신호 값을 제한하여 오버플로를 방지한다. 하드 클리핑은 신호 범위를 벗어나는 값을 경계값으로 잘라내며, 위상 신호에서는 정보 손실을 유발할 수 있다. 일반적으로 동영상 압축 표준에서 범위 [0, 2π]에 대한 클리핑 연산은 식 (1)로 정의됨에 반해, 원형클리핑은 주기성을 고려하여 식 (2)와 같이 정의된다. 예를 들어 2.2π는 하드 클리핑 시 2π로 잘리지만, 원형클리핑 시 0.2π로 매핑되어 위상 주기성을 보존한다.
| (1) |
| (2) |
신호 간의 차이를 계산할 때도 위상의 주기성을 고려할 수 있다. 두 신호 x1, x2의 차이는 일반적으로 식 (3)과 같이 선형적으로 정의됨에 반해, 최소원형차이는 주기 2π에서 식 (4)와 같이 정의된다. 원형 도메인에서 두 신호의 차이는 <그림 2>에 보인 바와 같이 항상 두 가지로 발생하는데, 최소원형차이는 이중 더 짧은 거리에 해당하는 차이를 계산하게 된다. 이를 이용하면 신호가 선형 상에서 어디에 위치하는지에 상관없이 일관적인 차이를 계산할 수 있으며 차이값의 유효 범위가 기존 [-2π, 2π)에서 [-π, π)로 제한된다[1]. 이러한 위상 신호의 차이 기반으로 위상 홀로그램 전용 MSE(Mean square error)와 PSNR(peak signal-to-noise ratio) 평가를 재정의할 수 있으며[6], 본 연구의 객관적 화질 평가 메트릭으로 사용하였다.
| (3) |
| (4) |
2. VVC의 인-루프 필터(ILF)
인-루프 필터는 복호화 루프 내에서 복원 신호에 직접 적용되어 블록 기반 부호화와 양자화로 인한 블록킹 아티팩트(blocking artifact)나 변환 및 양자화에 의한 링잉 아티팩트(ringing artifact) 등을 감소시켜 참조 영상의 품질을 높여 예측 효율을 개선하는 역할을 한다[7]. VVC의 인-루프 필터는 <그림 1>의 붉은색 사각형으로 표시한 바와 같이, LMCS(Luma Mapping Chroma with Chroma Scaling), DBF(Deblocking Filter), SAO(Sample Adaptive Offset), ALF(Adaptive Loop Filter)로 구성되어 있다.
디블록킹 필터는 블록 경계 왜곡을 완화하기 위한 필터링 방법으로[7], 경계 강도(boundary strength, bS)와 국소 변화량을 기준으로 필터링 여부 및 필터링 강도(strong/weak)를 결정하여 경계 부분에 대한 보정을 수행한다.
VVC의 DBF는 영상 내의 모든 수직 경계를 먼저 처리한 후, 그 결과값을 입력으로 사용하여 모든 수평 경계를 처리한다. 각 방향에 대해서는 휘도(Luma) 성분에 대해 먼저 처리한 후 색차(Chroma) 성분에 대해 처리한다. 처리 단위는 CTB(Coding Tree Block) 내부의 각 코딩 유닛(CU) 및 코딩 블록(CB) 단위로 수행되며, 휘도의 경우 4 × 4, 색차의 경우 8 × 8 크기의 샘플 그리드 경계에서 적용된다[8]. DBF의 수행 과정은 <그림 3-(a)>와 같이, 필터를 적용할 경계를 구분하고, 경계 양쪽에서 참조 가능한 최대 길이(maxFilterLength)를 결정하는 블록 경계 유도 단계, 각 경계의 위치마다 경계 강도(bS)를 결정하는 필터 강도 계산 단계, β, tc 등 필터 동작 방식 결정에 이용되는 임계값을 결정하는 단계, 경계 근처의 픽셀을 입력으로 필터링 여부 및 필터링 강도를 결정하는 단계, 앞서 결정한 방식에 따라 필터링을 수행하는 단계로 이루어져 있다.
SAO는 링잉 아티팩트를 완화하기 위한 필터링 방법으로, CTU 단위로 샘플을 여러 카테고리로 분류한 뒤, 카테고리별 오프셋을 추정하여 복원 신호의 평균적 편향을 보정한다[7]. SAO는 CTU 내 픽셀의 특징에 따라 에지 오프셋(Edge Offset, EO)과 밴드 오프셋(Band Offset, BO)으로 오프셋 적용 방식이 나눠진다. EO는 CTU별로 클래스(수평, 수직, 135°, 45°)가 결정되며, CTU 내를 순회하며 픽셀과 인접 픽셀값의 관계, 에지패턴(edgeIdx)에 따라 오프셋을 적용한다. BO는 비트 깊이를 32개의 밴드 구간으로 분할했을 때, RDO에 따라 결정되는 연속된 4개의 밴드에 대해 일괄적으로 오프셋을 적용한다.
SAO의 수행 과정은 <그림 3-(b)>와 같이, SAO의 적용 위치를 결정하는 단계, 각 클래스에 대해 복원 신호와 원본 신호의 차이(에러)를 기반으로 EO의 오프셋 후보를 계산하는 단계, 밴드 구간별 픽셀의 개수 및 에러를 기반으로 BO의 오프셋 후보를 계산하는 단계, RDO를 통한 SAO 유형 결정 단계, 결정된 방식으로 오프셋을 적용하는 단계로 이루어져 있다.
Ⅲ. 제안 방법
1. 문제 제기
<표 2>의 실험 결과를 참조하면, 위상 홀로그램에 대해 VVC ext[5]에 원래 VVC의 DBF와 SAO를 적용한 결과(<표 2-(b),(c)>), DBF와 SAO를 사용하지 않은 경우(<표 2-(a)>)보다 오히려 율-왜곡 성능이 저하된다. 따라서, DBF와 SAO에 대해서도 위상 신호의 특성을 적절히 고려하여 성능 향상을 도모할 필요가 있다. 가장 단순한 방법은, HEVC ext[1]와 VVC ext[5]의 방법과 같이, SCD와 CC를 DBF의 출력 클리핑과 SAO의 RDO 왜곡 계산 및 출력 클리핑에 적용하는 것이다. 보다 구체적으로는, SAO의 경우 RDO에 해당하는 SAO 유형 결정 단계에 SCD를 적용하고(Extended SAO), Offset이 적용된 최종 출력에 CC를 적용할 수 있고, DBF의 경우는 RDO가 따로 없으므로 최종 출력에만 CC를 적용할 수 있다(Extended DBF). 그러나 <표 2-(d),(e)>에서 알 수 있듯이, 상기한 바와 같이 Extended SAO와 DBF를 적용한 경우에 DBF와 SAO를 아예 사용하지 않는 VVC ext[5]와 동일한 성능을 보인다. 이는 위상 신호의 특성을 제대로 고려하지 못해 DBF와 SAO가 아예 선택되지 않았기 때문으로 확인되었다.
2. 해결 방법
Extended DBF/SAO가 잘 동작하지 않는 것은, <그림 3>에 나타낸 바와 같이 DBF와 SAO 과정이 여러 세부 과정으로 구성되어 있으므로 이러한 세부 과정을 면밀히 분석하여 수정하지 않고서는 위상 신호에 대한 필터링 결과가 좋지 못할 가능성이 높다는 것을 의미한다. 본 절에서는 Extended DBF/SAO의 한계를 해결하기 위해 본 논문에서 제안하는 두 핵심 기술 P-LAP와 P-THR를 먼저 설명하고, 이를 DBF와 SAO의 EO에 반영한 P-DBF/P-EO를 설명한다.
동영상 압축 코덱에서 라플라시안은 주로 인접 샘플들 간의 2차 차분을 통해 국소 곡률을 측정하는 연산으로 사용된다. DBF와 SAO의 EO는 이러한 원리를 활용하여 경계 및 에지 유형을 분류한다. 즉, DBF에서는 라플라시안을 이용하여 필터 적용 여부 및 강도를 결정하며, SAO의 EO에서는 라플라시안의 차분 구조를 이용해 edgeIdx를 분류한다. VVC에서 사용되는 라플라시안(Δ)은 식 (5)에 보인 바와 같이, 인접한 위치(x-1 및 x+1)의 샘플 값과 중심 위치(x0)의 샘플 값의 가중합으로 계산되며, 이는 식 (7)과 같이 중심 위치와의 각 차이들의 합으로 나타낼 수 있다.
| (5) |
| (6) |
| (7) |
하지만, 위상 신호의 경우 실제로는 인접 샘플들이 동일한 상대적 구조를 가지고 있더라도 중심 샘플 값의 절대적 위치에 따라 서로 다른 라플라시안 값을 생성할 수 있다. 따라서 위상의 주기성을 고려한 라플라시안은 동일한 상대적 위상 관계를 가지는 세 샘플에 대해 일관된 결과를 보장해야 하는 ‘이동 불변성(shift-invariance)’을 가져야 한다.
논문에서 제안하는 P-LAP는 식 (8)과 같다. 이 식은 차이 척도 d를 SCD 로 치환한 것으로, 중심 샘플과 인접 샘플에 대해 이동 불변성을 만족하게 된다. <그림 4>의 예시에 보인 바와 같이 기존 Laplacian은 이동 불변성을 만족하지 못하나 제안된 P-LAP은 샘플들의 위치가 시프팅 되더라도 항상 동일한 Laplacian 값을 결정할 수 있음을 알 수 있다. 즉, P-LAP은 기존 Laplacian 구조를 유지하면서, 이를 구성하는 차분을 위상 공간에서 일관되게 계산 가능하다.
| (8) |
Ⅱ장 1.2절에서 언급한 바와 같이, SCD 기반 차이는 선형 차이에 비해 유효 범위가 [-2π, 2π)에서 [-π, π)로 축소되므로, DBF 필터 on/off 및 강도 결정에 사용되는 임계값(β, tc 등)을 재조정 할 필요가 있다. 따라서 본 논문은 이러한 임계값을 식 (9)와 같이 1 이상의 값으로 나누어 스케일링하여 위상 신호에 맞게 재조정한다. 일반적으로 SCD 적용 시 차이 범위가 절반 수준으로 감소하므로 n≈2가 자연스러운 선택이지만, 실제 구현에서는 비트 깊이, 콘텐츠 특성, 코덱 설정에 따라 n을 선택할 수 있다. 제안 기술은 DBF의 임계값 결정 단계에서 n=2를 선택하였으며, 위상 신호 환경에서 더 합리적인 필터 판단이 수행되도록 한다.
| (9) |
P-DBF는 VVC DBF의 (i) 필터링 수행 여부 결정, (ⅱ) 필터링 방법 결정(strong/weak), (ⅲ) 필터링 수행 및 범위 제한 단계에서 [1]에서 제안된 SCD와 CC 외에도 본 논문에서 제안한 P-LAP 및 P-THR을 적용한다. P-DBF의 임계값 결정은 2.2절에서 설명하였다.
2.3.1 필터링 수행 여부 결정 과정 개선
DBF는 식 (10)과 같이 블록 경계 주변 샘플 p와 q의 변화량을 이용해 블록 내 라플라시안 Δ의 절대값을 계산하고, 임계값 β와 비교하여 필터 적용 여부를 결정한다. P-DBF에서는 라플라시안 Δ의 계산을 본 논문에서 제안한 P-LAP로 치환하여 을 다음과 같이 계산한다(여기서 n은 행/열 인덱스).
| (10) |
| (11) |
| (12) |
P-DBF에서는 이렇게 계산된 변화량 을 P-THR을 통해 재조정한 임계값 (식 (9))와 비교하여 필터 적용 여부(on/off)를 결정한다. 구체적으로 식 (13)을 만족해야 한다.
| (13) |
2.3.2 strong/weak 결정: 주기성 기반 블록 간 변화량 개선
필터가 적용되는 경우, DBF는 strong/weak 여부를 추가 조건으로 결정한다. P-DBF는 블록 간 차이(예: |p0−q0|) 또한 형태로 치환하여 위상 신호를 위한 변화량을 계산한다. strong 필터 조건 및 weak 필터 조건의 구조는 표준과 동일하게 유지하되, 내부 차이 계산과 임계값만 각각 SCD와 P-THR 기반으로 수정한다. 식 (14), 식 (15)는 각각 P-DBF의 strong 필터의 조건과 weak 필터의 조건이다.
| (14) |
| (15) |
2.3.3 필터링 수행 및 클리핑 개선
Weak filtering에서 보정값 , , 는 주변 샘플 차이를 기반으로 계산한다. P-DBF는 이를 계산할 때 식 (16)과 같이 이 계산에서도 차이 척도를 SCD 로 사용하여 보정값을 산출한다. 또한 이러한 보정값은 과도한 보정을 방지하기 위해 식 (17)과 같이 임계값 를 이용한 와 같은 제한을 거친 뒤 적용되며, 최종 출력은 원형클리핑()을 통해 유효 범위를 유지한다.
| (16) |
| (17) |
3. P-EO(Phase-aware EO)
P-EO는 EO의 (i) SAO 유형 결정, (ii) 후보 오프셋 계산 (iii) EO 적용 단계에서 [1]에서 제안된 SCD와 CC 외에도 본 논문에서 제안한 P-LAP을 적용한다. 이때, 밴드 오프셋은 비활성화되며, 자세한 사항은 부록에 제시하였다.
VVC의 EO에서는 식 (18)과 같이 현재 복원 샘플 의 두 인접 복원 샘플 와 간의 차이의 부호(sign)를 통해 를 계산하고, 식 (20)으로 에지패턴(edgeIdx)을 판별한다. EdgeIdx가 1이거나 4일 경우는 각각 국소 최소(local minima)와 국소 최대(local maxima)에 해당되며, 2이거나 3일 경우에는 완만하다가 기울기의 전환이 발생하는 에지(edge)에 해당되며, 0일 경우에는 국소 단조(local monotonic)로 간주되어 EO가 적용되지 않는다[7]. P-EO에서는 식 (18)이 아닌 식 (19)처럼 두 인접 신호 간 차이를 SCD로 계산하여 edgeIdx를 분류한다.
| (18) |
| (19) |
| (20) |
EO는 원본 샘플과 복원 샘플 간 차이의 평균을 이용하여 초기 후보 오프셋을 계산한다. P-EO에서도 후보 오프셋 h0는 에지패턴 p에 해당하는 샘플 위치들의 집합 K(p)에 대해 식 (21)과 같이 원본 샘플 s(k)와 복원 샘플 간의 SCD 평균으로 정의된다. 여기서 , |K(p)|는 K(p)의 크기이다. 이렇게 정의된 h0(p)는 RDO 과정에서 초기 오프셋으로 이용된다.
| (21) |
P-EO는 EO 적용 전후 왜곡을 SCD 기반 제곱 오차로 정의하고, 오프셋 적용 후 값은 원형클리핑을 통해 범위를 제한한다. EO 적용 전후 왜곡과 비용 변화는 다음과 같이 정의된다.
| (22) |
| (23) |
| (24) |
P-EO는 Δj를 최소화하는 오프셋 적용 여부, 클래스, 최종 오프셋 hfinal 등을 선택한다. 이때 R은 CABAC 등의 산술코딩으로 결정되는 비트량이며, λ는 코덱 설정에 의해 결정된다.
최종 결정된 클래스와 오프셋에 따라 복원 픽셀 는 다음과 같이 계산되며, 원형클리핑을 적용한다.
| (25) |
Ⅳ. 실험 조건 및 실험 결과
1. 공통 실험 조건(Common Test Condition)
본 논문은 HEVC ext[1] 및 VVC ext[5]과 동일한 테스트 환경을 사용한다. 본 실험에 사용하는 CGH(Computer Generated Hologram) 비디오로 ETRI(Electronics and Telecommunications Research Institute) database를 사용하였다. 이 데이터베이스는 7개의 PoH 시퀀스로 이루어져 있으며, 회전하는 3D 객체에 대한 RGB-D 시퀀스 데이터로부터 픽셀 피치 8μm, 파장 660nm(R), 532nm(G), 473nm(B), 거리 0.25m에 대해 레이어 기반 프레넬 방식의 CGH 생성 방법으로 생성되었다. 최종 생성 PoH 데이터는 RGB 4:4:4, 1920x1080의 해상도, 30fps를 갖고 있으며, RGB 각각 8비트로 표현된다.
코덱의 Config 공통 조건으로는 Random Access RExt를 사용하며, 부호화 환경은 내부 비트 깊이(Internal Bit-depth) 10, RGB 4:4:4 포맷, 양자화 파라미터(Quantization Parameter, QP)로는 32, 37, 42, 47을 사용한다. 참조 소프트웨어로는 HEVC의 경우 HM16.20[9], VVC의 경우 VTM21.2[10]을 사용하였다.
평가 방법으로는 부/복호화 전후의 PSNR을 위상 및 NR(수치적 복원) 도메인에서 측정한다. NR 도메인 평가는 3개의 depth에서의 PSNR의 평균을 사용한다. BD-rate는 각 QP에서 시퀀스별 bpp(bits per pixel)와 위상 도메인에서는 위상 홀로그램 전용 PSNR[6]을, NR 도메인에서는 일반적인 PSNR을 이용하여 시퀀스에 대한 평균으로 RD 포인트를 구성한 뒤 계산한다. 또한, Encoding time과 decoding time은 QP별로 매우 상이한 점을 반영하여, QP 42를 기준으로 전체 시퀀스에 대한 평균값을 사용하여 측정하였다. 평가 환경의 같은 평가 서버에서 진행하였으며, CPU는 Intel Xeon Gold 6530 dual-socket (64 cores / 128 threads, 2.1 GHz base), memory는 1TB RAM이다.
2. 제안 모델과 비교 모델의 성능 비교
본 절에서는 제안 모델과 기존의 선행 연구 모델을 비교하며, 구체적으로 다음 모델을 비교한다: (i) VVC (VTM21.2), (ⅱ) HEVC ext[1], (ⅲ) VVC ext[5], (ⅳ) VVC ext[5] + P-DBF, (ⅴ) VVC ext[5] + P-EO, (ⅵ) Proposed: VVC ext[5] + P-EO + P-DBF. 모든 실험에서 VVC ext[5]를 anchor로 설정하였으며, 각 모델의 BD-rate 성능을 <표 3>에 제시하였다.
먼저, 제안하는 P-DBF를 단독 적용한 경우 anchor 대비 위상 도메인과 NR 도메인에서 각각 –0.7%, –0.7%의 BD-rate 감소를 달성하였다. 이는 위상 신호의 주기성을 고려한 블록 경계 보정이 압축 효율 향상에 기여함을 의미한다. 다음으로, P-EO를 단독 적용한 경우에는 각각 –8.6%, –12.5%의 BD-rate 감소를 보였으며, 이는 주기성 기반 오프셋 추정 및 보정이 왜곡 감소에 효과적으로 작용함을 보여준다. P-EO와 P-DBF에 대한 분석은 3.2절에서 더 자세히 다루도록 한다.
P-DBF와 P-EO를 동시에 적용한 최종 제안 모델은 anchor 대비 위상/NR 도메인에서 각각 –9.1%, –12.7%의 BD-rate 감소를 달성하였다. 이는 두 기법이 상호 보완적으로 동작하여 추가적인 압축 효율 향상을 제공했음을 확인할 수 있다.
한편, 소요 시간 측면에서 P-DBF는 anchor 대비 인코딩 +0.1%, 디코딩 +0.5%의 미미한 증가에 그쳤다. P-EO의 경우 인코딩 시간이 +27.3% 증가하였는데, 이는 RD 최적화 과정에서 식 (23)에 따른 왜곡을 오프셋 후보마다 개별적으로 산출해야 하므로 기존 SAO 대비 연산량이 증가하기 때문이다. 반면, P-EO의 디코딩 시간은 –1.1%로 오히려 소폭 감소하였다. 최종 제안 모델의 소요 시간은 anchor 대비 인코딩 +29.1%, 디코딩 +24.2% 증가하였으며, 디코딩 시간의 증가는 P-DBF와 P-EO가 동시에 적용됨에 따른 결과라고 해석된다.
<그림 6>과 <그림 7>은 각각 위상 도메인과 NR 도메인에서의 제안 방법과 기존 방법들의 RD-curve를 비교한 결과를 보여준다. 전 비트율 구간에 걸쳐 제안 방법이 anchor 대비 우수한 왜곡–비트율 특성을 나타냄을 확인할 수 있다.
<그림 8>에서는 QP 42에서 cube 시퀀스에 대한 주관적 화질 비교에 대한 결과이다. cube의 노란색 부분을 보면 차이가 두드러지는데, VVC (VTM21.2)에서는 확연히 노란 색감이 줄어들고 전반적인 명도가 낮다. 비교 모델 중 제안 모델이 가장 원본의 노란색을 가장 잘 보존하고 있으면서도, bpp는 적게 사용한 것을 알 수 있다. <그림 9>는 <그림 8>과 동일한 NR 이미지를 이용하여 에러 맵을 표현하였다. 검은색에 가까울수록 에러가 적어짐을 뜻하며, 제안 모델이 비교 모델 대비 객체 영역에서의 에러가 적은 것을 확인할 수 있었다.
3. Ablation Study
본 실험에서는 SAO의 초기 오프셋의 분포를 비교해 보고, 실제로 초기 오프셋이 어떻게 설정되는지 확인해 본다. <그림 10>과 <그림 11>은 각각 위상의 주기성을 고려한 P-LAP 적용 전후에 대해, 인코더 내부에서 생성된 SAO 초기 오프셋의 분포를 전체 시퀀스와 모든 QP에 대해 집계한 히스토그램을 나타낸다. 먼저 <그림 10>의 경우, 오프셋 분포가 큰 값 영역까지 넓게 퍼져 있으며, 특히 최대 클리핑 구간 근처에서 높은 빈도가 관찰된다. 이는 초기 오프셋이 실제 신호 변화량보다 과도하게 추정되는 경우가 존재함을 의미하며, 결과적으로 불필요한 필터링 보정이 발생할 가능성을 시사한다.
반면 <그림 11>에서는 위상의 주기성을 고려한 P-LAP을 적용한 이후, 오프셋 분포가 전반적으로 작은 값 영역으로 이동하며 분포 폭 또한 감소하는 경향을 확인할 수 있다. 특히 큰 오프셋 값의 발생 빈도가 감소하고 중간 이하의 값에 분포가 집중되는 모습을 보이며, 이는 클래스별 보정치가 보다 안정적으로 추정됨을 의미한다. 평균 오프셋 값 또한 감소하는 경향을 보이며, 이러한 결과는 기존 에지패턴 분류가 위상 신호의 주기성을 충분히 반영하지 못할 경우, 실제로는 필터링이 필요하지 않은 영역에서도 과도한 오프셋이 설정될 수 있음을 보여준다.
본 실험에서는 <표 3>에서 P-EO의 BD-rate 개선 폭이 P-DBF에 비해 크게 나타나는 원인을 분석한다. (i) VVC (VTM21.2) (표준 DBF 및 SAO 적용), (ⅱ) VVC ext[5] + P-EO, (ⅲ) VVC ext[5] + P-DBF, (ⅳ) Proposed(P-EO + P-DBF)의 네 가지 구성에 대한, ETRI-database의 7개 시퀀스 × 4 QP 조건의 전체 프레임(총 924 프레임)에 대해 휘도 채널의 필터 적용 통계를 측정하였다. <표 4>는 각 필터의 적용 대상 영역 비율(addr.), 실제 픽셀값 변경 비율(chg.), 그리고 적용 대상 영역 중 실제로 픽셀값이 변경된 비율인 필터 실효율(eff.)을 정리한 것이다. addr.은 각 필터가 보정 대상으로 삼는 영역이 전체 휘도 픽셀에서 차지하는 비율이며, DBF의 경우 boundary strength 판정 대상인 블록 경계 픽셀, SAO의 경우 오프셋 보정이 활성화된 CTU 영역(merge 및 skip 제외)에 해당한다. chg.는 필터 적용 전후로 실제 픽셀값이 변경된 휘도 픽셀의 전체 대비 비율이며, eff.는 addr. 대비 chg.의 비율로서 적용 대상 영역 중 실질적으로 보정이 이루어진 정도를 나타낸다.
VVC (VTM21.2) 기준 DBF의 적용 대상 영역은 전체 휘도 픽셀의 20.79%인 반면, SAO는 80.48%로 약 3.9배에 달한다. 실제 변경 비율도 SAO 31.17% 대 DBF 1.84%, 실효율도 SAO 38.73% 대 DBF 8.87%로, 모든 지표에서 SAO가 DBF를 크게 상회한다. 제안 모델에서도 P-EO 실효율 22.24% 대 P-DBF 4.57%로 동일한 경향이 유지된다. 이는 P-DBF가 P-EO에 비해 BD-rate 개선에 제한적으로 기여하는 것이 블록 경계에만 작용하는 DBF의 적용 범위 한계 때문임을 보여준다.
Ⅴ. 결 론
본 논문은 VVC 기반 위상 홀로그램 압축에서 인-루프 필터(DBF/SAO)가 자연 영상 가정에 기반하여 설계되어, 주기성 기반 RD 최적화/클리핑만을 단순히 적용한 Extended DBF/SAO로는 충분하지 않음을 분석하였다. 특히 ILF 내부의 분류(Classification) 및 임계값(Threshold)이 위상 신호에 맞지 않으면, 불필요하거나 과도한 오프셋이 추정되어 SAO가 RD 과정에서 선택되지 않는 현상이 발생할 수 있다. 이를 해결하기 위해, 본 논문은 (i) SCD 기반 Laplacian(P-LAP)과 (ii) SCD 적용에 따른 차이 범위 축소를 반영한 임계값 재조정(P-THR)을 제안하고, 이를 DBF와 SAO에 반영한 P-DBF 및 P-EO를 설계하였다.
실험 결과 제안 모델은 VVC ext[5](in-loop filter off) 대비 BD-rate를 Phase/NR 도메인에서 각각 9.1%, 12.7% 개선하였다. 향후 연구에서는 본 논문에서 다루지 않은 ALF에 대해서도 P-LAP/P-THR의 일관된 적용을 검토하고, 보간 과정에서의 주기성 반영을 확장할 예정이다.
Acknowledgments
This work was supported by Institute for Information & communications Technology Planning & Evaluation (IITP) grant funded by the Korea government (MSIT) (No. RS-2017-II170072, Development of Audio/Video Coding and Light Field Media Fundamental Technologies for Ultra Realistic Tera-media); Following are results of a study on the “Convergence and Open Sharing System” Project, supported by the Ministry of Education and National Research Foundation of Korea.
References
-
K.-J. Oh, H. Ban, S. Choi, H. Ko, and H. Y. Kim, “HEVC extension for phase hologram compression,” Optics Express, vol. 31, no. 6, pp. 9146-9164, Mar. 2023.
[https://doi.org/10.1364/OE.479281]
-
H. Ban, S. Choi, J. Y. Cha, Y. Kim and H. Y. Kim, “NHVC: Neural Holographic Video Compression with Scalable Architecture,” 2024 IEEE Conference Virtual Reality and 3D User Interfaces (VR), Orlando, FL, USA, 2024, pp. 969-978.
[https://doi.org/10.1109/VR58804.2024.00116]
-
Y. Wang, P. Chakravarthula, Q. Sun, and B. Chen, “Joint neural phase retrieval and compression for energy- and computation-efficient holography on the edge,” ACM Transactions on Graphics, Vol.41, No.4, pp.1-16, July 2022.
[https://doi.org/10.1145/3528223.3530070]
-
P. Schelkens, T. Ebrahimi, A. Gilles, P. Gioia, K.-J. Oh, F. Pereira, C. Perra, and A. M. pinheiro, “Jpeg pleno: Providing representation interoperability for holographic applications and devices,” ETRI Journal, Vol.41, No.1, pp.93-108, Feb 2019.
[https://doi.org/10.4218/etrij.2018-0509]
- T. H. Lee, S. Choi, J. Y. Cha, K.-J. Oh, Y.Lim, and H. Y. Kim, “VVC Extension for Compressing Phase Holograms,” The Korean Institute of Broadcast and Media Engineers Summer Conference, Jeju, South Korea, pp.1051-1053, 2024, Retrieved from https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11849241
-
K.-J. Oh, J. Kim, and H. Y. Kim, “A new objective quality metric for phase hologram processing”, ETRI Journal, Vol.44, No.1, pp.94-104, Feb 2022.
[https://doi.org/10.4218/etrij.2021-0209]
- D. H. Park, Y. U. Yun and J. G. Kim, “In-Loop Filter Technology of VVC,” Broadcasting and Media Magazine, Vol.24, No.4, pp.87-101, Oct 2019, Retrieved from https://koreascience.or.kr/article/JAKO201907963545012.page
-
M. Karczewicz et al., “VVC In-Loop Filters,” IEEE Transactions on Circuits and Systems for Video Technology, Vol.31, No.10, pp.3907-3925, Oct 2021.
[https://doi.org/10.1109/TCSVT.2021.3072297]
- HEVC Test Model (HM 16.20), https://vcgit.hhi.fraunhofer.de/jvet/HM/-/tree/HM-16.20?ref_type=tags, (accessed Feb. 20, 2026)
- VVC Test Model (VTM 21.2), https://vcgit.hhi.fraunhofer.de/jvet/VVCSoftware_VTM/-/tree/VTM-21.2?ref_type=tags, (accessed Feb. 20, 2026)
Appendix
부 록 (Appendix)
A. P-BO
본 논문의 위상 홀로그램을 위한 SAO에서 밴드 오프셋(Band Offset, BO)을 비활성화하여 제안하였다. 본 절에서는 BO를 위상 홀로그램을 위해 수정한 P-BO와 결과적으로 BO를 비활성화한 이유에 대해 설명한다.
BO는 신호 범위를 32개(= Nband)의 밴드 구간으로 분할하고, 인접한 4개(= M)의 밴드를 선택한다. 위상 신호의 주기성으로 인해 밴드 선택이 그림과 같이 랩어라운드될 수 있으므로, P-BO는 밴드 시작 인덱스 탐색 범위를 기존 [0, Nband - M]에서 [0, Nband]로 확장하여 경계 부근에서도 연속 밴드 선택을 허용한다. 이를 ‘band 시작 인덱스 탐색 확장’이라고 한다.
<표 5>를 보면 P-BO를 적용해도 성능에 거의 영향을 주지 않으며, P-EO와 P-BO를 동시에 적용하는 것보다 P-EO만 적용하는 것이 더 좋은 성능을 냄을 알 수 있다. EO는 샘플 값이 국부 최대이거나 최소인 경우에 주변 샘플 값과 유사하게 offset을 더하는 방식인 반면, BO는 특정한 밴드에 속한 샘플 값들에 대해 offset을 더하게 됨으로써 주변 샘플들과는 다른 방식으로 샘플 값이 변동할 가능성이 있다. 한편 위상 신호는 주변 신호와의 차이가 중요한 특성을 가져, BO의 동작 방식이 위상 신호에는 적합하지 않을 수 있으므로 P-BO를 적용했을 때 성능 저하가 발생한 것으로 추정된다. 따라서 본 논문에서는 P-BO는 사용하지 않고 P-EO만을 사용하는 것을 제안하였다.
- 2022년 8월 : 경희대학교 소프트웨어융합학과 학사
- 2021년 3월 ~ 2023년 11월 : (주)펫페오톡 ML/DL Research 팀장
- 2024년 9월 ~ 현재 : 경희대학교 인공지능학과 석사
- ORCID : https://orcid.org/0009-0005-5739-5677
- 주관심분야 : 영상처리, 2D/3D 비디오 부호화, 인공지능, 디지털 홀로그램
- 2022년 8월 : 경희대학교 컴퓨터공학과 학사
- 2024년 2월 : 경희대학교 컴퓨터공학부 석사
- 2024년 2월 ~ 현재 : 경희대학교 컴퓨터공학부 박사
- ORCID : https://orcid.org/0000-0002-6402-7785
- 주관심분야 : 영상처리, 인공지능, 디지털 홀로그램, 비디오 부호화
- 2024년 8월 : 경희대학교 컴퓨터공학과 학사
- 2026년 2월 : 경희대학교 인공지능학과 석사
- 2026년 3월 ~ 현재 : 경희대학교 컴퓨터공학과 박사
- ORCID : https://orcid.org/0009-0006-3829-160X
- 주관심분야 : 영상처리 및 패턴인식, 홀로그래피, 인공지능
- 2002년 ~ 2006년 : ATSC T3/S2 ACAP 데이터방송 표준 에디터
- 2008년 ~ 2013년 : MPEG FTV AhG 그룹 EE 코디네이터
- 2011년 ~ 2012년 : MIT RLE ATSP 그룹 방문 연구원
- 2014년 : 고려대학교 컴퓨터학 박사
- 2022년 ~ 현재 : MPEG GSC AhG 그룹 Co-chair
- 현재 : 한국전자통신연구원 초실감메타버스연구소 표준전문위원/책임연구원
- ORCID : https://orcid.org/0000-0003-4355-599X
- 주관심분야 : 2D/3D 비디오 부호화, 영상처리, 컴퓨터 비전, 인공지능
- 1994년 8월 : KAIST 전기및전자공학과 공학사
- 1998년 2월 : KAIST 전기및전자공학과 공학석사
- 2004년 2월 : KAIST 전기및전자공학과 공학박사
- 2003년 8월 ~ 2005년 10월 : (주)애드팍테크놀러지 멀티미디어팀 팀장
- 2005년 11월 ~ 2019년 8월 : 한국전자통신연구원(ETRI) 실감 AV연구그룹 그룹장
- 2013년 9월 ~ 2014년 8월 : Univ. of Southern Califonia (ISC) Visiting Scholar
- 2019년 9월 ~ 2020년 2월 : 숙명여자대학교 전자공학전공 부교수
- 2020년 3월 ~ 현재 : 경희대학교 컴퓨터공학과 정교수
- ORCID : https://orcid.org/0000-0001-7308-133X
- 주관심분야 : 비디오 부호화, 딥러닝 영상처리, 디지털 홀로그램












