职位描述
1、负责构建音频基座大模型,实现音频大模型的算法框架的设计与研发,构建高质量音频数据并建立数据治理体系;
2、负责在音频基座大模型下,探索行业音频大模型定制算法,应用预训练、SFT、强化学习等技术提升模型理解能力、推理能力;
3、负责音频大模型在多任务、多语种识别等方向上创新及应用;
职位要求
1、计算机相关专业硕士及以上学历,具备2年以上智能语音算法/分布式大模型训练工作经验;
2、熟练掌握Python、C、C++等一门以上的编程语言,熟悉掌握TensorFlow、Pytorch、Espnet等深度学习框架,具备分布式训练相关的工程实现能力;
3、对语音识别、音频检测主流预训练模型有深入的了解(hubert/wavlm/wav2vec2.0/USM/whisper/AudioLM);
4、良好的逻辑思维能力,扎实的机器学习基础,深厚音频分析功底和疑难问题解决能力,拥有高效的工程落地能力;
5、在ICASSP、INTERSPEECH等会议期刊以第一作者发表过文章的优先,有音频大模型训练经验者优先(参数>1B,数据量>20万小时);