楼主的思路,我有用av实战过
具体思路是这样
音频使用第三方的语音识别api进行识别--得到字幕和时间
使用脚本来剪辑视频--按照时间打上中文字幕
这难点就是,
A-日文的情色语句,第三方api基本不准,只有前面开场白自我介绍的时候可以,
后面那些喜欢什么癖好,能不能接受口爆,喜欢扣b吗,这类的情色话语根本不能识别
B-女主角在实战中会有,呃呃呃,啊啊啊这类词,反而准,但是看片突然出现这个字幕,反而无语
C-就是费用,第三方的日语api收费还是贵,准确率低,不过我没找过开源的
D-到后面的时候,我想到一个思路,用机器识别一遍,然后导入字幕,在手动调整,但是后来一想,这跟人肉汉化有什么区别,放弃