음성·오디오

Audio & Speech

ASR, TTS, 음악 생성, 오디오 이해 연구

10개 논문

20233편

arXiv1,000+

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

신경 코덱 언어 모델은 제로샷 텍스트 음성 합성기이다

Chengyi Wang, Sanyuan Chen, Yu Wu et al. (2023)

arXiv1,000+

MusicLM: Generating Music From Text

MusicLM: 텍스트로부터 음악 생성

Andrea Agostinelli, Timo I. Denk, Zalán Borsos et al. (2023)

GitHub / Suno AI500+

Bark: Text-Prompted Generative Audio Model

Bark: 텍스트 프롬프트 기반 생성 오디오 모델

Suno AI (2023)

20223편

ICML 20235,000+

Robust Speech Recognition via Large-Scale Weak Supervision

대규모 약한 감독을 통한 강건한 음성 인식

Alec Radford, Jong Wook Kim, Tao Xu et al. (2022)

IEEE/ACM TASLP 20231,000+

AudioLM: a Language Modeling Approach to Audio Generation

AudioLM: 오디오 생성을 위한 언어 모델링 접근법

Zalán Borsos, Raphaël Marinier, Damien Vincent et al. (2022)

arXiv1,500+

High Fidelity Neural Audio Compression

고충실도 신경 오디오 압축

Alexandre Défossez, Jade Copet, Gabriel Synnaeve et al. (2022)

20212편

IEEE/ACM TASLP 20213,000+

HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

HuBERT: 은닉 유닛의 마스크 예측을 통한 자기지도 음성 표현 학습

Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai et al. (2021)

IEEE/ACM TASLP 20221,500+

SoundStream: An End-to-End Neural Audio Codec

SoundStream: 엔드투엔드 신경 오디오 코덱

Neil Zeghidour, Alejandro Luebs, Ahmed Omran et al. (2021)

20181편

ICASSP 20185,000+

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

멜 스펙트로그램 예측 기반 WaveNet 조건부 자연 TTS 합성

Jonathan Shen, Ruoming Pang, Ron J. Weiss et al. (2018)

20161편

arXiv10,000+

WaveNet: A Generative Model for Raw Audio

WaveNet: 원시 오디오를 위한 생성 모델

Aäron van den Oord, Sander Dieleman, Heiga Zen et al. (2016)

← 전체 분야 목록으로