스터디/논문 (2) 썸네일형 리스트형 "Robust Speech Recognition via Large-Scale Weak Supervision", OpenAI ChatGPT를 공개해서 엄청난 관심을 받은 OpenAI에서 내놓은 multi-task, multi-language 음성인식 기술. https://openai.com/blog/whisper/ Introducing Whisper We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Read Paper View Code View Model Card Whisper examples: Reveal Transcript Whisper is an automatic speech rec openai.com 전체 구조.. "STREAMING, FAST AND ACCURATE ON-DEVICE INVERSE TEXT NORMALIZATION FOR AUTOMATIC SPEECH RECOGNITION", Microsoft 내용 요약 on-device streaming에서도 사용가능한 가벼운 ITN 방법 제안. tagging : streaming 인식결과들을 chunk-based transformer tagger로 실시간 태깅 ITN 카테고리가 뭔지만 태깅 chunk size가 작으면 latency가 적은 대신 정확도가 떨어질 수 있음 transduction : 문장에서 태깅된 부분만 ITN-category-specific WFST로 변환 실험 모델구조 ASR: Transformer transducer(transformer 24 blocks) Tagger: Transformer tagger(transformer 6 blocks) cross entropy loss 이용해서 19개의 tag 중 하나를 예측 학습데이터는 다양한 .. 이전 1 다음