【技术讨论】基于神经网络的语音翻译系统实现难点在哪里

长久以来，音声和艾薇的汉化工作大多是人工翻译完成的，这种工程极其耗费人力物力，而且效率不高。那么有没有可能，在原有的通用语音翻译系统的框架基础上，生成一个新的神经网络并用现在已知的流放音声和带字幕艾薇去训练他，得到一个效果很好，甚至于几乎不需要后期润色的翻译结果呢。这构思起来似乎并不是很难，但是直觉告诉我，整个过程种一定有某种技术难题是很难攻克的，希望大家能予以指导

顶端

c343de47

B1F 2022-02-11 20:35

全看 | | 小中大

如果你有编程基础的话，做一个能用的东西还是比较容易的，虽然end to end没什么人做过，但其中各个环节都有比较成熟的解决方案。先做语音识别，再做机器翻译，在做语音合成，第一个和最后一个都比较准确，机器翻译方面目前SOTA可以做到让人看得懂，但是仍然明显不如人工翻译。
这个idea不大可能养活一个创业公司，毕竟字幕组本身都是灰色地带，但是可以作为开源项目来做。举一个比较类似的 https://github.com/project-yuki/YUKI，目前已经有把日文游戏自动汉化的项目，原理是抓取游戏内文本，调用web翻译API（Google翻译，百度翻译等，翻译质量的话，能让人看得懂但是明显比人工翻译差）。基本上刚出的游戏（例如illusion近年的作品，基本人工翻译出来前大家都是这样按个插件自动机翻）或者没汉化的老游戏都用这种方法啃。

顶端

南+ South Plus 茶馆

[-- 查看移动版 --]

漫区特设

蜜柑计划

综合交流

人民囧府

【技术讨论】基于神经网络的语音翻译系统实现难点在哪里