음성·오디오
Audio & Speech
ASR, TTS, 음악 생성, 오디오 이해 연구
10개 논문
20233편
arXiv1,000+
Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
신경 코덱 언어 모델은 제로샷 텍스트 음성 합성기이다
Chengyi Wang, Sanyuan Chen, Yu Wu et al. (2023)
arXiv1,000+
MusicLM: Generating Music From Text
MusicLM: 텍스트로부터 음악 생성
Andrea Agostinelli, Timo I. Denk, Zalán Borsos et al. (2023)
GitHub / Suno AI500+
Bark: Text-Prompted Generative Audio Model
Bark: 텍스트 프롬프트 기반 생성 오디오 모델
Suno AI (2023)
20223편
ICML 20235,000+
Robust Speech Recognition via Large-Scale Weak Supervision
대규모 약한 감독을 통한 강건한 음성 인식
Alec Radford, Jong Wook Kim, Tao Xu et al. (2022)
IEEE/ACM TASLP 20231,000+
AudioLM: a Language Modeling Approach to Audio Generation
AudioLM: 오디오 생성을 위한 언어 모델링 접근법
Zalán Borsos, Raphaël Marinier, Damien Vincent et al. (2022)
arXiv1,500+
High Fidelity Neural Audio Compression
고충실도 신경 오디오 압축
Alexandre Défossez, Jade Copet, Gabriel Synnaeve et al. (2022)
20212편
IEEE/ACM TASLP 20213,000+
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
HuBERT: 은닉 유닛의 마스크 예측을 통한 자기지도 음성 표현 학습
Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai et al. (2021)
IEEE/ACM TASLP 20221,500+
SoundStream: An End-to-End Neural Audio Codec
SoundStream: 엔드투엔드 신경 오디오 코덱
Neil Zeghidour, Alejandro Luebs, Ahmed Omran et al. (2021)