【技术讨论】基于神经网络的语音翻译系统实现难点在哪里

长久以来，音声和艾薇的汉化工作大多是人工翻译完成的，这种工程极其耗费人力物力，而且效率不高。那么有没有可能，在原有的通用语音翻译系统的框架基础上，生成一个新的神经网络并用现在已知的流放音声和带字幕艾薇去训练他，得到一个效果很好，甚至于几乎不需要后期润色的翻译结果呢。这构思起来似乎并不是很难，但是直觉告诉我，整个过程种一定有某种技术难题是很难攻克的，希望大家能予以指导

顶端

好想要六花啊

B1F 2022-02-11 19:37

（人之初性本善）

全看 | | 小中大

楼主的思路，我有用av实战过
具体思路是这样
音频使用第三方的语音识别api进行识别--得到字幕和时间
使用脚本来剪辑视频--按照时间打上中文字幕
这难点就是，
A-日文的情色语句，第三方api基本不准，只有前面开场白自我介绍的时候可以，
后面那些喜欢什么癖好，能不能接受口爆，喜欢扣b吗，这类的情色话语根本不能识别
B-女主角在实战中会有，呃呃呃，啊啊啊这类词，反而准，但是看片突然出现这个字幕，反而无语
C-就是费用，第三方的日语api收费还是贵，准确率低，不过我没找过开源的
D-到后面的时候，我想到一个思路，用机器识别一遍，然后导入字幕，在手动调整，但是后来一想，这跟人肉汉化有什么区别，放弃

顶端

好想要六花啊

B2F 2022-02-11 20:52

（人之初性本善）

全看 | | 小中大

回 18楼(yugebing) 的帖子

讲实话，这个训练极难，以我对目前训练的了解，这需要海量的音频样本
标注的，
拿网易和百度的语音api举例，它们早期的时候是用人海战术进行语音采集和标注的，
类似一句话让不同的兼职人员录音，
或者不同的音频，让大量的兼职人员标注好
同理，你想要同样的效果来进行就得海量标注
如果是免费的标注法，我就有个思路

A-采集海量的淫语音频
B-根据词汇进行音频切割得到标准样本
B的难点在于，我目前只见过语义识别，
如“你好”-名词-单组词
“打他”-动词-单组词
“上海”-名词-单组词
如果是文本当然可以这样切割，但是音频的语义识别就没见过了

顶端

南+ South Plus 茶馆

[-- 查看移动版 --]

漫区特设

蜜柑计划

综合交流

人民囧府

【技术讨论】基于神经网络的语音翻译系统实现难点在哪里

回 18楼(yugebing) 的帖子