Papers

음성 압축에서의 심층 신경망 기반 장구간 예측

Domestic Conference
2021~
작성자
dsp
작성일
2023-06-28 15:51
조회
272
Authors : Jihyun Lee, Wootaek Lim, Hong-Goo Kang

Year : 2023

Publisher / Conference : 한국방송·미디어공학회 2023년 하계학술대회

Research area : Speech Signal Processing, Coding

Presentation/Publication date : 2023.06.28

Related project : 생성모델 기반 음향압축 기술 연구(4/5)

Presentation : Oral

본 논문에서는 음성 압축 시스템에 사용될 수 있는 심층 신경망 기반 장구간 예측을 제안한다. 최근 신호 처리 기술을 기반으로 한 기존 음성 코덱의 성능을 뛰어넘는 심층 신경망 기반 음성 압축 모델에 관한 연구가 이루어지고 있다. 그러나 음성 샘플 간에는 장구간의 상관성이 존재함에도 불구하고, 현재 대부분의 심층 신경망 기반 음성 압축 모델에서는 과거 샘플의 정보를 거의 활용하지 않고 있다. 본 논문에서는 현재 프레임에서 과거 샘플과의 장구간 상관성을 제거함으로써 여기 신호의 압축 효율을 높이기 위해 심층 신경망을 사용하여 과거 프레임으로부터 현재 프레임을 예측하는 방법을 제안한다. 여기 신호에 스칼라 양자화를 적용할 때 장구간 예측을 사용하지 않은 경우에 비해 전송률-왜곡 성능이 향상되는 것을 실험을 통해 확인하였으며, 여기 신호의 분포를 비교함으로써 제안된 방법의 효과를 검증한다.
전체 355
355 International Conference Hyewon Han, Naveen Kumar "A cross-talk robust multichannel VAD model for multiparty agent interactions trained using synthetic re-recordings" in Hands-free Speech Communication and Microphone Arrays (HSCMA, Satellite workshop in ICASSP), 2024
354 International Conference Yanjue Song, Doyeon Kim, Nilesh Madhu, Hong-Goo Kang "On the Disentanglement and Robustness of Self-Supervised Speech Representations" in International Conference on Electronics, Information, and Communication (ICEIC) (*awarded Best Paper), 2024
353 International Conference Yeona Hong, Miseul Kim, Woo-Jin Chung, Hong-Goo Kang "Contextual Learning for Missing Speech Automatic Speech Recognition" in International Conference on Electronics, Information, and Communication (ICEIC), 2024
352 International Conference Juhwan Yoon, Seyun Um, Woo-Jin Chung, Hong-Goo Kang "SC-ERM: Speaker-Centric Learning for Speech Emotion Recognition" in International Conference on Electronics, Information, and Communication (ICEIC), 2024
351 International Conference Hejung Yang, Hong-Goo Kang "On Fine-Tuning Pre-Trained Speech Models With EMA-Target Self-Supervised Loss" in ICASSP, 2024
350 International Journal Zainab Alhakeem, Se-In Jang, Hong-Goo Kang "Disentangled Representations in Local-Global Contexts for Arabic Dialect Identification" in Transactions on Audio, Speech, and Language Processing, 2024
349 International Conference Hong-Goo Kang, W. Bastiaan Kleijn, Jan Skoglund, Michael Chinen "Convolutional Transformer for Neural Speech Coding" in Audio Engineering Society Convention, 2023
348 International Conference Hong-Goo Kang, Jan Skoglund, W. Bastiaan Kleijn, Andrew Storus, Hengchin Yeh "A High-Rate Extension to Soundstream" in IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2023
347 International Conference Zhenyu Piao, Hyungseob Lim, Miseul Kim, Hong-goo Kang "PDF-NET: Pitch-adaptive Dynamic Filter Network for Intra-gender Speaker Verification" in APSIPA ASC, 2023
346 International Conference WooSeok Ko, Seyun Um, Zhenyu Piao, Hong-goo Kang "Consideration of Varying Training Lengths for Short-Duration Speaker Verification" in APSIPA ASC, 2023