Papers

음성 압축에서의 심층 신경망 기반 장구간 예측

Domestic Conference
2021~
작성자
dsp
작성일
2023-06-28 15:51
조회
1183
Authors : Jihyun Lee, Wootaek Lim, Hong-Goo Kang

Year : 2023

Publisher / Conference : 한국방송·미디어공학회 2023년 하계학술대회

Research area : Speech Signal Processing, Coding

Presentation/Publication date : 2023.06.28

Related project : 생성모델 기반 음향압축 기술 연구(4/5)

Presentation : Oral

본 논문에서는 음성 압축 시스템에 사용될 수 있는 심층 신경망 기반 장구간 예측을 제안한다. 최근 신호 처리 기술을 기반으로 한 기존 음성 코덱의 성능을 뛰어넘는 심층 신경망 기반 음성 압축 모델에 관한 연구가 이루어지고 있다. 그러나 음성 샘플 간에는 장구간의 상관성이 존재함에도 불구하고, 현재 대부분의 심층 신경망 기반 음성 압축 모델에서는 과거 샘플의 정보를 거의 활용하지 않고 있다. 본 논문에서는 현재 프레임에서 과거 샘플과의 장구간 상관성을 제거함으로써 여기 신호의 압축 효율을 높이기 위해 심층 신경망을 사용하여 과거 프레임으로부터 현재 프레임을 예측하는 방법을 제안한다. 여기 신호에 스칼라 양자화를 적용할 때 장구간 예측을 사용하지 않은 경우에 비해 전송률-왜곡 성능이 향상되는 것을 실험을 통해 확인하였으며, 여기 신호의 분포를 비교함으로써 제안된 방법의 효과를 검증한다.
전체 365
335 Domestic Conference Hwayeon Kim, Hong-Goo Kang "Band-Split based Dual-Path Convolution Recurrent Network for Music Source Separation" in 2023년도 한국음향학회 춘계학술발표대회 및 제38회 수중음향학 학술발표회, 2023
334 International Conference Zhenyu Piao, Miseul Kim, Hyungchan Yoon, Hong-Goo Kang "HappyQuokka System for ICASSP 2023 Auditory EEG Challenge" in ICASSP, 2023
333 International Conference Byeong Hyeon Kim, Hyungseob Lim, Jihyun Lee, Inseon Jang, Hong-Goo Kang "Progressive Multi-Stage Neural Audio Codec with Psychoacoustic Loss and Discriminator" in ICASSP, 2023
332 International Conference Hyungseob Lim, Jihyun Lee, Byeong Hyeon Kim, Inseon Jang, Hong-Goo Kang "End-to-End Neural Audio Coding in the MDCT Domain" in ICASSP, 2023
331 International Conference Miseul Kim, Zhenyu Piao, Jihyun Lee, Hong-Goo Kang "Style Modeling for Multi-Speaker Articulation-to-Speech" in ICASSP, 2023
330 International Journal Jinyoung Lee, Hong-Goo Kang "Real-Time Neural Speech Enhancement Based on Temporal Refinement Network and Channel-Wise Gating Methods" in Digital Signal Processing, vol.133, 2023
329 International Journal Taemin Kim, Yejee Shin, Kyowon Kang, Kiho Kim, Gwanho Kim, Yunsu Byeon, Hwayeon Kim, Yuyan Gao, Jeong Ryong Lee, Geonhui Son, Taeseong Kim, Yohan Jun, Jihyun Kim, Jinyoung Lee, Seyun Um, Yoohwan Kwon, Byung Gwan Son, Myeongki Cho, Mingyu Sang, Jongwoon Shin, Kyubeen Kim, Jungmin Suh, Heekyeong Choi, Seokjun Hong, Huanyu Cheng, Hong-Goo Kang, Dosik Hwang & Ki Jun Yu "Ultrathin crystalline-silicon-based strain gauges with deep learning algorithms for silent speech interfaces" in Nature Communications, vol.13, 2022
328 International Journal Jinyoung Lee, Hong-Goo Kang "Two-Stage Refinement of Magnitude and Complex Spectra for Real-Time Speech Enhancement" in IEEE Signal Processing Letters, vol.29, pp.2188-2192, 2022
327 Domestic Conference Hyungseob Lim, Hong-Goo Kang, Inseon Jang "엔트로피 모델을 활용한 심층 신경망 기반 오디오 압축 모델 최적화" in 한국방송·미디어공학회 2022년 하계학술대회, 2022
326 International Conference Hyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang "Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting" in INTERSPEECH (*Best Student Paper Finalist), 2022