Papers

음성 압축에서의 심층 신경망 기반 장구간 예측

Domestic Conference
2021~
작성자
dsp
작성일
2023-06-28 15:51
조회
383
Authors : Jihyun Lee, Wootaek Lim, Hong-Goo Kang

Year : 2023

Publisher / Conference : 한국방송·미디어공학회 2023년 하계학술대회

Research area : Speech Signal Processing, Coding

Presentation/Publication date : 2023.06.28

Related project : 생성모델 기반 음향압축 기술 연구(4/5)

Presentation : Oral

본 논문에서는 음성 압축 시스템에 사용될 수 있는 심층 신경망 기반 장구간 예측을 제안한다. 최근 신호 처리 기술을 기반으로 한 기존 음성 코덱의 성능을 뛰어넘는 심층 신경망 기반 음성 압축 모델에 관한 연구가 이루어지고 있다. 그러나 음성 샘플 간에는 장구간의 상관성이 존재함에도 불구하고, 현재 대부분의 심층 신경망 기반 음성 압축 모델에서는 과거 샘플의 정보를 거의 활용하지 않고 있다. 본 논문에서는 현재 프레임에서 과거 샘플과의 장구간 상관성을 제거함으로써 여기 신호의 압축 효율을 높이기 위해 심층 신경망을 사용하여 과거 프레임으로부터 현재 프레임을 예측하는 방법을 제안한다. 여기 신호에 스칼라 양자화를 적용할 때 장구간 예측을 사용하지 않은 경우에 비해 전송률-왜곡 성능이 향상되는 것을 실험을 통해 확인하였으며, 여기 신호의 분포를 비교함으로써 제안된 방법의 효과를 검증한다.
전체 360
340 International Conference Woo-Jin Chung, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang "MF-PAM: Accurate Pitch Estimation through Periodicity Analysis and Multi-level Feature Fusion" in INTERSPEECH, 2023
339 International Conference Hyungchan Yoon, Seyun Um, Changhwan Kim, Hong-Goo Kang "Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-Speech" in INTERSPEECH, 2023
338 International Conference Hyungchan Yoon, Changhwan Kim, Eunwoo Song, Hyun-Wook Yoon, Hong-Goo Kang "Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech" in INTERSPEECH, 2023
337 International Conference Doyeon Kim, Soo-Whan Chung, Hyewon Han, Youna Ji, Hong-Goo Kang "HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders" in INTERSPEECH, 2023
336 Domestic Conference Jihyun Lee, Wootaek Lim, Hong-Goo Kang "음성 압축에서의 심층 신경망 기반 장구간 예측" in 한국방송·미디어공학회 2023년 하계학술대회, 2023
335 Domestic Conference Hwayeon Kim, Hong-Goo Kang "Band-Split based Dual-Path Convolution Recurrent Network for Music Source Separation" in 2023년도 한국음향학회 춘계학술발표대회 및 제38회 수중음향학 학술발표회, 2023
334 International Conference Zhenyu Piao, Miseul Kim, Hyungchan Yoon, Hong-Goo Kang "HappyQuokka System for ICASSP 2023 Auditory EEG Challenge" in ICASSP, 2023
333 International Conference Byeong Hyeon Kim, Hyungseob Lim, Jihyun Lee, Inseon Jang, Hong-Goo Kang "Progressive Multi-Stage Neural Audio Codec with Psychoacoustic Loss and Discriminator" in ICASSP, 2023
332 International Conference Hyungseob Lim, Jihyun Lee, Byeong Hyeon Kim, Inseon Jang, Hong-Goo Kang "End-to-End Neural Audio Coding in the MDCT Domain" in ICASSP, 2023
331 International Conference Miseul Kim, Zhenyu Piao, Jihyun Lee, Hong-Goo Kang "Style Modeling for Multi-Speaker Articulation-to-Speech" in ICASSP, 2023