【技术讨论】基于神经网络的语音翻译系统实现难点在哪里

长久以来，音声和艾薇的汉化工作大多是人工翻译完成的，这种工程极其耗费人力物力，而且效率不高。那么有没有可能，在原有的通用语音翻译系统的框架基础上，生成一个新的神经网络并用现在已知的流放音声和带字幕艾薇去训练他，得到一个效果很好，甚至于几乎不需要后期润色的翻译结果呢。这构思起来似乎并不是很难，但是直觉告诉我，整个过程种一定有某种技术难题是很难攻克的，希望大家能予以指导

顶端

ninesd

B1F 2022-02-11 15:44

全看 | | 小中大

路子确实走得通啊，就是一个没人做，第二不知道效果能有多好。语音识别是比较成熟了，翻译还不行。数据集打算怎么整？汉化组质量参差不齐，翻译习惯也不一样。然后音声里的拟声词语气词打算怎么处理？正常数据集可不会有这玩意儿，一般的模型和训练步骤在设计的时候也不会考虑这个。最后就是成本，其实3070不一定够，主要是语音模型和bert的训练都需要大量显存，一般单卡至少10G以上吧。总结一下就是能做，但是效果能有多好不知道，而且可以预见肯定会有很多工程上的问题

顶端

南+ South Plus 茶馆

[-- 查看移动版 --]

漫区特设

蜜柑计划

综合交流

人民囧府

【技术讨论】基于神经网络的语音翻译系统实现难点在哪里