• KCI(Korea Citation Index)
  • DOI(CrossRef)
  • DOI(CrossCheck)

Journal of Broadcast Engineering

ISSN : 1226-7953 (Print) / 2287-9137 (Online)

  • KCI(Korea Citation Index)
  • DOI(CrossRef)
  • DOI(CrossCheck)

ISSN : 1226-7953 (Print) / 2287-9137 (Online)

Current Issue

JOURNAL OF BROADCAST ENGINEERING - Vol. 29 , No. 2

[ Regular Paper ]
JOURNAL OF BROADCAST ENGINEERING - Vol. 29, No. 1, pp. 95-104
Abbreviation: JBE
ISSN: 1226-7953 (Print) 2287-9137 (Online)
Print publication date 31 Jan 2024
Received 19 Dec 2023 Revised 22 Jan 2024 Accepted 22 Jan 2024
DOI: https://doi.org/10.5909/JBE.2024.29.1.95

드론 장착 마이크로폰에 의한 광대역 음향 획득 기술
장대영a), ; 전광명b)
a)한국전자통신연구원
b)인트플로우(주)

On the Technology of Wide-band Audio Acquisition by Microphone attached Drone
Daeyoung Janga), ; Kwang Myung Jeonb)
a)ETRI
b)Intflow Inc.
Correspondence to : 장대영(Daeyoung Jang) E-mail: dyjang@etri.re.kr Tel: +82-42-860-5711


Copyright © 2024 Korean Institute of Broadcast and Media Engineers. All rights reserved.
“This is an Open-Access article distributed under the terms of the Creative Commons BY-NC-ND (http://creativecommons.org/licenses/by-nc-nd/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided the original work is properly cited and not altered.”
Funding Information ▼

초록

드론은 프로펠러 소음, 바람 등 잡음 요인이 많아 장착된 마이크로폰에 의한 음향 획득이 거의 불가능하다고 알려져 있다. 그러나, 드론 음향 획득이 가능하다면, 드론 영상과 함께 현장의 음향을 제공하여 현장감을 극도로 개선할 수 있을 것이다. 본 고에서는 이러한 난제를 극복하는 것이 가능한지 연구 동향과 그 가능성을 시도해본 사례를 소개하고자 한다. 응용 분야는 드론을 활용한 원격관광을 위한 실감미디어를 실시간으로 제공하는 것을 목표로 하고 있으며, 이를 위하여 8kHz 이상의 대역폭을 제공하는 스테레오 음향을 획득하는 것으로 하였다. 광대역 스테레오 음향을 획득하기 위하여 물리적 접근, 마이크로폰 소자적 접근, 신호처리적 접근의 다각적인 방안을 모색하였다. 스테레오 지향성 마이크로폰을 드론 프로펠러와 이격시켜 장착하고, 소음원 차폐 필터 및 윈드스크린을 사용하였으며, 심층신경망 기반 실시간 드론 소음 제거 솔루션을 적용하였다. 실제 드론 비행 중 녹음된 드론의 소음의 특성은 매우 복잡하고 레벨이 생각보다 컸지만, 다양한 접근을 통하여 드론 소음을 극복하고 드론 영상과 함께 제공되는 음향 서비스의 가능성을 확인하였다. 실제로 실험실에서 각 접근 방안에 대해 구분하여 소음 저감 성능을 측정하여 본 결과 대략 24dB의 소음 감소 효과를 확인하였으며, 청취를 통해 드론 소음에 의해 거의 들리지 않던 음악 소리가 음악을 잘 인지할 수 있을 정도로 소음이 감소되는 것을 확인할 수 있었다.

Abstract

It is known that drones have many noise factors such as propeller noise and wind, making it almost impossible to acquire sound using an installed microphone. However, if drone sound acquisition is possible, the sense of presence can be greatly improved by providing real sound along with drone video. In this paper, we would like to introduce research trends and cases where the possibility has been attempted to see if it is possible to overcome these difficulties. The application field aims to provide real-time realistic media for remote tourism using drones, and for this purpose, it was decided to acquire stereo sound that provides a bandwidth of 8 kHz or more. In order to obtain wide-band stereo sound, various methods including physical approach, microphone element approach, and signal processing approach were explored. Stereo directional microphones were mounted at a distance from the drone propeller, noise proof filters and windscreens were used, and a DNN (Deep Neural Network) based real-time drone noise cancellation was applied. Although the characteristics of the drone noise recorded during actual drone flight were very complex and the level was greater than expected, we confirmed the possibility of overcoming drone noise through various approaches and providing sound service along with drone video. In fact, as a result of measuring the noise reduction performance of each approach separately in the laboratory, a noise reduction effect of approximately 24 dB was confirmed, and through listening, the music sound, which was barely audible due to drone noise, was enhanced to a level where the music could be well perceived.


Keywords: Audio, Acquisition, Drone, Source separation, Noise cancellation

Ⅰ. 서 론

드론은 소형의 비행체로서 군사, 경찰, 소방, 방송, 드론 쇼, 완구, 방제, 배송, 유인 드론 등 날로 그 활용도가 넓어지고 있어 장래가 기대되는 기술 분야이다. 용도에 따라 손바닥만 한 소형 드론에서 버스만 한 크기의 대형 드론까지 그 크기가 천차만별이며, 그 형태 또한 헬기 형태, 비행기 형태로 다양한데 다중 프로펠러 형태의 드론이 가장 일반적이다.

드론에는 카메라가 기본적으로 탑재되어 있어, 방송용 영상을 획득하는 분야에 널리 활용되고 있는데, 관광지의 비경을 소개하거나, 현장 소개, 야외 방송 프로그램 촬영 등 다양한 분야에서 드론 영상을 접할 수 있다.

그러나, 드론에서 영상은 촬영하고 있지만, 드론으로 녹음한 음향은 쉽게 접할 수 없는데, 이는 드론의 프로펠러 소음 및 비행할 때 발생하는 바람 소리 등으로 인해 실제로 녹음하고자 하는 대상의 소리가 이들 소음에 묻혀 들리지 않기 때문이다. 드론에서 음향을 획득하는 것은 불가능하다는 판단으로 카메라가 장착된 일반 드론에 어떠한 녹음 장치도 포함되어 있지 않은 것이 현실이다.

대개 드론 영상을 재생할 때는 배경음악을 삽입하여 음향을 대신하고 있으며, 간혹 드론 원격 조종 장치에 있는 마이크를 통해 조종사의 음성 및 주변 음향을 영상과 함께 서비스하는 것이 전부다. 물론 드론 사용자들은 드론으로 음향을 획득하기 위하여 다양한 시도를 해 보았는데, 드론에 마이크를 장착하여 소음 자체가 주된 소리를 녹음하거나 드론으로부터 길게 아래로 늘어뜨린 마이크를 사용하여 조금이라도 소음을 줄이는 방안을 모색해 보기도 했다.

국내에서도 ‘인공지능(AI) 그랜드 챌린지’의 일환으로 드론을 활용한 재난 구조를 목적으로 하는 구조 음성 신호 및 위치 파악을 위한 기술 경연을 통해, 다양한 솔루션들이 소개되었지만, 실재 서비스에 활용된 사례는 찾기 어려운 상황이다[1].

기술적으로는 마이크 어레이를 사용한 초지향성 마이크로폰을 사용하는 방안과 능동소음제어 기술을 사용하는 방안이 주로 사용되고 있으며, 최근에는 심층학습망 기반 음원 분리 기술도 도입되어 활용되기 시작했다. 현재 드론에 마이크 어레이를 장착하여 획득된 음향으로 제공하는 기능은 음원의 위치 파악을 위한 기능이 주이며, 음원 자체를 획득하는 기능은 부차적인 기능이라 할 수 있다. 마이크 어레이에 사용되는 마이크 소자의 개수는 최소 6개에서 16개이며, 드론에 장착하는 방법으로는 원형 어레이, 선형 어레이, T형 어레이 등 다양하며, 마이크 어레이를 장착하는 위치도, 위쪽, 아래쪽, 측면 등 다양한 방법을 시도하고 있다. 이렇게 다양한 방법들이 활용된다는 것은 딱히 적절한 솔루션이 없다는 의미로 해석할 수도 있다[2~7].

한편, 뉴질랜드의 드론 기업 Dotterel에서는 초지향성 마이크로폰과 지향성 스피커를 장착한 드론을 활용하여 조난 구조에 활용하고 있으며, 약 10m의 거리에 있는 조난자의 음성 신호를 획득할 수 있는 기술을 확보하고 프로모션을 진행하고 있다[8].

본 고에서는 방송 서비스를 목적으로 드론에서 촬영하는 영상과 함께 영상 방향에서 발생되는 광대역 음향을 실시간으로 획득하는 솔루션이 어느 정도까지 가능한지 확인하기 위하여 프로토타입 형태로 고안된 솔루션을 소개하며, 향후 해결되어야 할 과제에 대하여 고찰하고자 한다.


Ⅱ. 요구사항 및 접근 방향
1. 요구사항

전술한 바와 같이 드론을 통한 서비스 가능한 광대역 음향신호의 획득은 불가능하다는 것이 통론이다. 이는 드론 대부분이 프로펠러에 의한 추진력으로 움직이므로 프로펠러의 소음이 기본적으로 발생하기 때문이며, 이 소음 레벨은 매우 높은 수준이다. 또한 프로펠러 소음은 드론의 속도 및 바람의 영향으로 일정하지 않은 점이 소음제어에 어려운 요소라고 할 수 있다. 또한 하나의 프로펠러가 아닌 여러 개의 프로펠러를 사용함으로써, 프로펠러 간 간섭이 심하다는 것이 드론에서 음향을 획득하는 데 있어 또 다른 방해요소라고 할 수 있다. 또한, 드론에는 소음뿐만 아니라 진동도 무시할 수 없으며, 비행 중일 때 생성되는 바람의 영향도 무시할 수 없다.

이러한 전제하에 조금이라도 공략할 가능성이 있는지 검토하는 것이 본 조사의 목적이었다. 또한, 드론을 활용한 미디어 서비스에는 360 VR 영상도 포함돼있어 최소한 스테레오 채널의 광대역 음향신호를 획득하여야 하는 것이 요구사항이었다. 현재 실시간 서비스가 가능한 사례가 뉴질랜드 Dotterel사의 모노 4kHz 대역의 음성신호의 획득이라고 할 수 있으며[8], 본 연구에서 추구하는 요구사항은 스테레오의 광대역 (8kHz 이상) 음향신호의 획득이므로 기존의 시스템이 다루는 문제보다 해결하기 어려운 문제이다. 기타 요구사항으로는 드론의 탑재 용량이 적으므로 최대한 가벼운 장비를 활용하여야 하며, 드론의 균형을 흐트러뜨려서는 안 된다는 것이며, 드론의 안전한 비행을 위해서는 센서의 동작을 방해하지 않는 소형의 장비여야 한다는 것이다.

2. 접근 방향

상기의 요구사항을 최대한 만족하기 위하여 마이크로폰은 가벼운 스테레오 초지향성 마이크로폰을 활용하는 것으로 하였다. Sennheiser사의 MKE 440, Comica사의 Traxshot, Zoom사의 H3-VR 마이크로폰을 검토하여 가장 가벼우며, 활용도가 높은 Comica사의 Traxshot을 사용하기로 하였다. Traxshot은 충전용 리튬 배터리가 내장되어 있어, 배터리를 추가하여야 하는 다른 모델에 비해 가벼우면서도, 두 개의 마이크로폰의 각도를 조절할 수 있고, 진동흡수가 가능하여 드론에 장착하기에 가장 적합하다고 판단하였다.

드론의 음향 획득 기술에 있어 위 요구사항들을 만족하면서 드론 소음의 최소화를 위해 다음의 세 가지 접근 방향을 고려하였다.

  • • 물리적 구조 설계
  • • 지향성 마이크로폰
  • • 소음제거 신호처리

우선 물리적 구조 설계에 있어서는 프로펠러 소음원과 1m 정도의 거리 이격을 위하여 막대 구조물을 사용하여 마이크로폰을 설치하는 것을 고려하였고, 바람의 영향을 최소화하기 위한 윈드스크린 부착, 후방 소음차폐를 위한 차음/흡음 구조물을 설치하는 것을 고려하였다. 지향성 마이크로폰은 위에서 선택된 Traxshot 마이크로폰을 사용하여 설치하였으며, 마이크로폰으로 입력된 음향신호는 카메라에 내장된 외부입력 단자를 통해 단말까지 전송하도록 하였다. 마이크로폰의 각도는 30도, 90도, 180도로 조절할 수 있도록 되어 있는데, 지향성과 스테레오 음향 획득을 고려하여 30도로 조절하였다. 이러한 드론 음향 구조물의 개념도는 그림 1과 같다. 마이크로폰의 지향성과 차폐 구조물에 의해 프로펠러 소음 방향이 가려질 수 있도록 구성하는 것이 기본 개념이다.


Fig. 1. 
Concept of Drone Audio Acquisition Assembly

단말에 전송된 스테레오 음향신호는 드론의 소음을 포함한 신호이며, 단말에서 심층학습망 기반 실시간 소음제거/신호분리 처리를 통하여 소음이 제거된 음향신호를 얻도록 하였다. 심층학습망은 기존의 기술 중 적절한 성능의 실시간 구현에 용이한 기술을 도입하였으며, 광대역 신호 및 스테레오 채널 신호처리가 가능하도록 확장 구현 및 실제 녹음한 드론 소음을 통하여 학습하여 적용하였다.


Ⅲ. 사전 분석 및 시사점

드론 음향 획득 솔루션을 실제 구현하기에 앞서 마이크로폰의 지향특성 및 드론 소음의 특성을 분석해 보았다. 그림 2에 이를 위한 목표음 및 드론 소음의 녹음 설정을 나타내고 있다. 드론에 장착된 마이크로폰이 드론 소음과 0.5m 떨어져 있는 상황을 가정하였으며, 목표음은 야외 콘서트(Coldplay) 실황 음원을 사용하였으며, 거리는 1.7m와 3.5m로 설정하였다. 재생된 음원의 레벨은 목표음의 경우 72~76dB SPL이며, 이는 실제 콘서트 현장의 음량 레벨을 약 100dB로 가정하면 약 10%의 음량이며, 실제 거리는 실험 설정의 거리보다 약 10배의 거리라고 할 수 있다. 즉, 그림 2표 1의 드론과 목표음의 거리의 10배를 고려하면, 목표음의 거리는 짧은 거리는 17m이며, 긴 거리는 35m로 간주할 수 있다. 또한, 실험 설정에서 드론 소음은 녹음된 대형 드론의 소음을 사용하여 스피커로 재생하였으며 출력레벨은 86~90dB SPL로 설정하였다. 위에서 선정된 Traxshot 마이크로폰을 사용하여 드론 소음에 대하여 그림 2와 같이 거리 및 방향별로 녹음해 본 결과, 표 1의 다섯 번째와 여섯 번째 행에 나타낸 것과 같이 지향성 방향과 반대 방향의 녹음 레벨 차이가 최대 12 dB가 됨을 확인할 수 있었다. 드론 음 신호의 경우 어느 정도 고조파 특성을 보여 심층신경망 적용에 의한 소음 제거가 어느 정도 의미가 있을 것으로 확인하였다.


Fig. 2. 
Experimental setup for recording drone noise and target sound sources

Table 1. 
Comparison of sound level for recording setup
recording setup target distance sound level sound source
short distance target 1.7m -30.37 dB target sound
long distance target 3.5m -35.90 dB target sound
short distance target + drone noise 1.7m -28.73 dB target + drone sound
long distance target + drone noise 3.5m -34.26 dB target + drone sound
forward directivity - -20.8 dB drone sound
backward directivity - -32.22 dB drone sound

실제 드론 비행 중 소음을 획득하기 위하여 소형 드론에 마이크로폰과 녹음기를 장착한 후, 그림 3과 같이 비행하면서 지상에 설치된 스피커의 목표 음원을 함께 녹음해 보았다.


Fig. 3. 
Drone noise and target sound recording during actual drone flight

소형 드론을 활용한 실험이었기 때문에 추가 구조물 없이 마이크로폰을 드론의 바로 아래 다리에 부착할 수밖에 없었는데, 드론의 바로 아래에는 프로펠러의 바람이 세서 1m의 거리에 있는 목표 음원을 거의 구별할 수 없을 정도로 소음 레벨이 컸다. 추가로 끈을 이용하여 마이크로폰을 드론으로부터 아래로 약 1m 떨어뜨려 녹음하여 확인한 결과 어느 정도 목표 음원을 구별할 수 있었다. 1m가량 이격하였을 경우, 드론의 소음은 약 12dB 정도 적어지는 것을 확인하였고, 1m 막대를 이용한 마이크로폰 이격 설치에 대한 방향 설정이 적절하였음을 확인할 수 있었다. 또한 드론의 아래 방향의 경우, 프로펠러의 소용돌이 바람이 주로 발생하는 영역으로 소음의 영향을 더 많이 받는 것을 알 수 있었으며, 이러한 이유로 드론의 아래보다는 측면 방향으로 떨어져 있는 것이 유리하다고 판단하였다. 대부분 사례에서도 측면 방향 마이크로폰 설치가 많았으며, 아래의 경우 특별한 차폐 구조물을 부가하여야 함을 알 수 있었다.


Ⅳ. 구현 및 검증

검증 시스템은 360VR 영상과 함께 초저지연 네트워크를 통해 원격관광 서비스를 시나리오로 구현되었는데, 전체 구조는 그림 4와 같다. 드론에 장착된 마이크로폰의 신호는 아날로그 신호로 360VR 카메라의 외부 오디오 입력 단자에 접속되어 카메라 자체 인코딩 (음향 : MPEG-2 AAC) 기능을 이용하여 별도 장착한 RF 전송 시스템을 통해 스트리밍 PC에 전송되었다. 이렇게 전송된 AV 비트스트림은 초저지연 네트웍을 통해 원격으로 전송될 수 있으며, 전송된 AV 비트스트림은 렌더링 PC에 의해 디코딩된 후 심층신경망 필터를 통하여 소음이 제거된 음향신호를 출력하도록 하였다.


Fig. 4. 
Verification system for remote tourism using drone

스테레오 지향성 마이크로폰은 가벼운 막대를 이용하여 드론에 장착하였는데, 드론의 페이로드 및 균형에 영향을 미치지 않아야 하므로 적절한 길이로 장착하였을 때, 실제 드론의 프로펠러 경계와는 약 30cm의 거리가 되었다. 또한 비행 실험에서는 차폐 필터의 공기 저항이 비행을 방해할 수 있으므로 장착하지 않고 실험하였다. 마이크로폰 전용 윈드스크린을 사용하였으며, 두 마이크로폰의 각도는 30도로 하였는데, 마이크로폰이 장착된 드론의 실제 사진은 그림 5와 같다.


Fig. 5. 
Drone with directional stereo microphone

드론에서 녹음한 스테레오 음향 신호는 그림 4와 같은 전송 경로를 통하여 대전-부산 간 왕복 거리를 초저지연으로 전송되었으며, 디코딩된 후 심층신경망에 의해 소음을 제거하는 필터링을 수행하였다. 심층신경망은 실시간 재생을 위해 그림 6과 같이 구성된 DTLN (Dual-signal Transformation LSTM (Long Shrot Term Memory) Network) 기술을 활용하였다[9]. 기존에 구현된 코드는 음성대역과 모노 채널의 처리를 위한 것이므로, 48kHz 표본화주파수와 스테레오 채널 음향 신호를 처리할 수 있도록 확장하였고, 실시간 처리를 위한 경량화된 모듈을 추가로 사용하였다. DTLN은 4개의 LSTM 레이어 각각에 128개의 단위를 가지고 있으며, 프레임 크기는 1,536 샘플(32ms)이고, 이동 단위는 384 샘플(8ms)이며, 윈도우는 Hanning window를 사용하였다. 또한, STFT의 FFT 크기는 2048 샘플이며, 1D-Conv의 필터 길이는 참고문헌과 동일하게 사용하였다.


Fig. 6. 
Basic structure of DTLN network[9]

구현된 심층신경망의 학습을 위해 구현된 검증 시스템을 다양한 조건으로 비행 운전하면서 녹음을 하였으며, 학습된 네트워크의 드론 소음 제거 성능을 확인하기 위해 비행 중 별도로 음성을 함께 녹음하였다. 이렇게 확보된 드론 소음은 공개된 다양한 음원 DB의 신호와 믹싱하여 SNR (Signal to Noise Ratio) -15 ~ 5dB 범위의 합성된 신호로 총 30시간 분량의 학습 DB를 생성하여 네트워크의 학습에 사용하였다.

이렇게 구현된 드론 음향 획득 시스템의 성능은 지향성 마이크 성능, 물리적 구조물 성능, 소음제거 네트워크 성능으로 구분하여 검증하였다. 이러한 드론 음향 획득 시스템의 성능은 실시간 녹음된 신호로 구분하여 측정하는 것이 불가능하므로 실험실에서 각 성능 측정 환경을 설정하여 측정하였다. 기본적인 실험실 측정 설정은 그림 7과 같다. 지향성 마이크로폰의 지향성 성능 측정은 순방향 및 역방향으로 녹음된 드론 소음의 스펙트럼 및 레벨 차이로 측정하였으며, 차폐 필터의 유무에 의한 스펙트럼 및 레벨 차이도 함께 측정하였다. 여기서 실험실은 약 12m * 12m의 잔향이 많지 않은 청취실험실이며, 드론 소음은 M-300 드론의 실제 비행 중 녹음된 소리를 사용하였으며, 목표음은 K-POP 가요 ‘이무진의 신호등’을 사용하였다.


Fig. 7. 
Performance measurement setup for directional microphone and physical assembly

이후 드론 소음과 음원이 함께 녹음된 믹싱 음원에 대해, 드론 소음 제거 네트워크를 적용하기 전과 후의 음원 구간에서 드론 소음만 존재하는 구간의 스펙트럼 및 레벨 차이를 비교하는 것으로 소음 제거 네트워크의 성능을 측정하였다. 여기서, 소음 신호의 분석에는 Audacity 응용 프로그램을 활용하였으며, 레벨 측정은 Audacity의 선택된 구간 RMS 레벨 측정 기능을 활용하였다. 이렇게 측정된 지향성 마이크 성능, 차폐 필터 성능이 포함된 물리적 구조물 성능 및 드론 소음 제거 네트워크의 성능은 그림 8그림 9에 결과 파형 및 주파수 특성으로 비교하여 나타내었다. 이때 이격 거리 효과는 실재 이격 거리에 따라서 달라질 수 있으며, 드론의 프로펠러가 다수이며, 이격 거리에 비해 음원의 위치를 특정할 수 없는 영역에 분포하므로 무시하는 것으로 하였다. 실제 드론 음향 설계 시 이격 거리 및 차폐 구조물에 대해서는 드론의 형태에 따라 다양한 방법을 적용할 수 있을 것으로 예상된다.


Fig. 8. 
Drone noise reduction effect by directional microphone and physical structure


Fig. 9. 
Drone noise reduction effect by noise cancellation network

상기와 같이 드론 소음이 있는 상황에서의 현장 음원 획득에 대한 가능성을 알아보기 위하여 마이크로폰 소자에 의한 접근, 물리적 구조 설계의 접근, 심층신경망 기반 소음 제거 네트워크 기반 접근으로 구분하여 검증하여 보았다. 실제 청감적으로는 거의 들리지 않던 음원의 소리가 뚜렷이 들리는 성능을 확인할 수 있었지만, 드론 소음이 여전히 남아 있고, 드론 소음 제거 네트워크에 의해 음원의 특정 성분이 함께 제거되는 영향으로 왜곡이 발생하는 것을 확인할 수 있었다. 주파수 대역에 따라 다르지만, 평균적인 드론 소음 레벨 감소는 대략 지향성 마이크로폰에 의해 9dB, 음향 차폐 필터에 의해 5dB, 심층신경망 소음 제거 네트워크에 의해 10dB로 전체적으로 약 24dB (약 1/16)의 소음 감소 효과를 확인할 수 있었다. 음향 차폐 필터의 효과는 특히 고주파 영역의 드론 소음을 감소시키는 효과를 나타냈다.


Ⅴ. 결 론

드론 영상 촬영에 있어 현장 음향을 획득하는 것은 더욱 체감적인 미디어 제공을 위해 매우 중요한 요소라고 할 수 있다. 본 고를 통하여 불가능의 영역으로 여겨졌던 드론을 통한 광대역 스테레오 음향 획득 솔루션의 가능성을 검증하였고, 드론 제작 업체에서 적극적인 음향 설계와 기술 도입이 선행된다면 충분히 해결될 수 있을 것으로 생각한다.

실제 드론의 규격 및 형상에 따라 적극적인 음향 설계와 심층신경망 설계를 통해 드론 음향 획득 성능은 비약적으로 개선할 수 있을 것이며, 최근 관심과 진화의 중심에 있는 생성형 AI를 적용한 음원 합성 방안을 통해, 장래 드론은 영상과 함께 광대역 현장 음향을 제공하는 것이 충분히 가능할 것으로 기대된다.


Acknowledgments

본 연구는 한국전자통신연구원 내부연구개발사업[21YH2200, 종단간 초저지연 네트워크 기반 원격 관광 서비스 실증 연구개발] 및 한국전자통신연구원 연구운영비지원 사업[23ZH1200, 초실감 입체공간 미디어・콘텐츠 원천기술 연구]의 일환으로 수행되었음.


References
1. J. Go, J. Jang, “Research on voice direction detection to locate rescue seekers using drones in disaster situations,” KICS, Information & Communications Magazine Vol. 37, No. 1, pp. 72–78, Jan. 2020. https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE09300202
2. M. Clayton, L. Wang, A. McPherson, A. Cavallaro, “An Embedded Multichannel Sound Acquisition System for Drone Audition,” IEEE Sensors Journal Vol. 23, Issue 12, pp. 13377–13386, 15 June 2023.
3. Y. Hioka, M. Kingan, G. Schmid, R. McKay, and K. A. Stol, “Design of an unmanned aerial vehicle mounted system for quiet audio recording,” Appl. Acoust., vol. 155, pp. 423-427, Apr. 2019.
4. L. Wang and A. Cavallaro, “Acoustic sensing from a multi-rotor drone,” IEEE Sensors J., vol. 18, no. 11, pp. 4570-4582, Nov. 2018.
5. M. Strauss, P. Mordel, V. Miguet, and A. Deleforge, “DREGON: dataset and methods for UAV-embedded sound source localization,” in Proc. IEEE/RSJ Int. Conf. Intell. Robot. Syst., pp. 5735-5742, Madrid, Spain, 2018.
6. K. Hoshiba, K. Washizaki, M. Wakabayashi, T. Ishiki, M. Kumon, Y. Bando, D. Gabriel, K. Nakadai, and H.G. Okuno, “Design of UAV-Embedded microphone array system for sound source localization in outdoor environments,” Sensors, vol. 17, no. 11, pp. 1-16, Nov. 2017.
7. M. Wakabayashi, H. G. Okuno, and M. Kumon, “Drone audition listening from the sky estimates multiple sound source positions by integrating sound source localization and data association,” Advanced Robotics, pp. 1-12, 2020.
8. Dotterel Technologies. https://www.dotterel.com/ (accessed Mar. 1, 2023)
9. Nils L. Westhausen1 and Bernd T. Meyer, “Dual-Signal Transformation LSTM Network for Real-Time Noise Suppression,” Interspeech 2020, pp. 2477-2481, 15 May 2020.

장 대 영

- 1991년 : 부경대학교 공학사

- 2000년 : 배재대학교 공학석사

- 2008년 : 배재대학교 공학박사

- 2004년 ~ 2005년 : 일본 동경전기대학/dimagic Co. Ltd. 방문연구원

- 2019년 ~ 2020년 : 호주 울런공대학교 방문연구원

- 1991년 ~ 현재 : ETRI 미디어연구본부 미디어부호화연구실 책임연구원

- 주관심분야 : 실감음향, 디지털 방송, 대화형 미디어

- ORCID : https://orcid.org/0000-0003-2572-4374

전 광 명

- 2010년 : 세종대학교 공학사

- 2012년 : 광주과학기술원 공학석사

- 2019년 : 광주과학기술원 공학박사

- 2019년 ~ 2020년 : 광주과학기술원 겸임교수

- 2019년 ~ 현재 : 인트플로우(주) 대표이사

- 주관심분야 : 딥러닝, 엣지컴퓨팅, 음성처리, 영상처리

- ORCID : https://orcid.org/0000-0003-2810-3063