yugebing

GF 2022-02-11 15:22

只看GF | | 小中大

【技术讨论】基于神经网络的语音翻译系统实现难点在哪里

长久以来，音声和艾薇的汉化工作大多是人工翻译完成的，这种工程极其耗费人力物力，而且效率不高。那么有没有可能，在原有的通用语音翻译系统的框架基础上，生成一个新的神经网络并用现在已知的流放音声和带字幕艾薇去训练他，得到一个效果很好，甚至于几乎不需要后期润色的翻译结果呢。这构思起来似乎并不是很难，但是直觉告诉我，整个过程种一定有某种技术难题是很难攻克的，希望大家能予以指导

顶端

夕弦耶俱矢

B1F 2022-02-11 15:27

只看该作者 | | 小中大

我觉技术首先不会是难题
难的是回报呢
如果你这技术做成后日进斗金不愁没有高端技术人才争先去搞
但你说就这音声艾薇甚至是更近一步的同声翻译对现在来说这些的收益并不足以抵上用人的成本
甚至你说的这些需求也都不是必需品
以后要是人工成本不断变高还有相应的必须需求自然会有人去作这一块

顶端

yugebing

B2F 2022-02-11 15:37

只看该作者 | | 小中大

回 1楼(夕弦耶俱矢) 的帖子

这个倒是其次，首先，模型成熟后的成本是很低的，也就是接到订单后一个小时以内就ok了，我们参考风花雪月汉化组（不知道就这么提人家是不是不好），他们的定价也不是很低，而这个过程用计算机来做的话只收汉化组三分之一的佣金就有得赚。搞一块3070的显卡，搭建好模型后每天早上出门前打开程序跑计算就ok了，最大的问题就是我对神经网络知之甚少，而且需要对相应音声数据进行处理，这个周期可能要持续1年左右。

顶端

RyuZU

B3F 2022-02-11 15:42

只看该作者 | | 小中大

阿里百度腾讯都有多语言的识别模块，并且我知道可以通过导入视频，然后利用这些模块生成字幕的软件，主要难点还是翻译这一块

顶端

5+7

B4F 2022-02-11 15:43

（闭关中...不要私信我了）

只看该作者 | | 小中大

真要实现了还轮得到我搞黄色？外网的论文著作全他妈给我汉化

顶端

ninesd

B5F 2022-02-11 15:44

只看该作者 | | 小中大

路子确实走得通啊，就是一个没人做，第二不知道效果能有多好。语音识别是比较成熟了，翻译还不行。数据集打算怎么整？汉化组质量参差不齐，翻译习惯也不一样。然后音声里的拟声词语气词打算怎么处理？正常数据集可不会有这玩意儿，一般的模型和训练步骤在设计的时候也不会考虑这个。最后就是成本，其实3070不一定够，主要是语音模型和bert的训练都需要大量显存，一般单卡至少10G以上吧。总结一下就是能做，但是效果能有多好不知道，而且可以预见肯定会有很多工程上的问题

顶端

yugebing

B6F 2022-02-11 15:46

只看该作者 | | 小中大

回 3楼(6a440cbd) 的帖子

那我们是否可以通过这个api来做基础翻译呢，比如我做一部汉化音声，他翻译api翻译出来是一个版本，然后和人工翻译的版本放在一起训练，让计算机学会如何润色第三方翻译的结果，请问这个思路可行吗

顶端

yugebing

B7F 2022-02-11 15:51

只看该作者 | | 小中大

回 5楼(ninesd) 的帖子

这个那天我和同学讨论来着，讨论的问题是moaning是否要做标记，就是说我们可以直接把moaning的部分直接标注为无用的语段，之后计算机遇到类似部分直接选择不翻译，也可以人工进行标注，让计算机学会什么声音是在moaning。至于翻译质量问题，我觉得我们不能期望模型最后的成果是非常优秀的，但是至少要比现在的翻译要强就ok，我想以让我们能无障碍阅读并理解意思作为最后的目标，这样其实就可以满足大多数应用场景了

顶端

yugebing

B8F 2022-02-11 15:52

只看该作者 | | 小中大

回 4楼(5+7) 的帖子

可是这个模型应该都是用比较色气的语言去训练的，如果真的开发出稳定版本的话，你可以思考一下你翻译的论文会变成什么样吧

顶端

Nin

B9F 2022-02-11 16:10

（无）

只看该作者 | | 小中大

理论上可行，但是为什么要去做呢，为爱发电吗，我是搞语音的，我总不能拿这个来写论文啊，毕竟这肯定需要大量人工标注等工作，费时费力，类似应用场景的研究肯定有很多，但专门ghs这只能是属于闲的没事干去做的事情，可以搜搜看，当然还得是日语转化的翻译

顶端

yugebing

B10F 2022-02-11 16:28

只看该作者 | | 小中大

回 9楼(NieR) 的帖子

这个。。。。首先标注的问题我考虑交给脚本，根据对应的lrc字幕文件和MP3音频文件，用程序把他们分成一个一个语段，倒是不费事，主要考虑的是第一，训练集会比较少，第二，我在这方面的知识比较浅薄。另外关于盈利模式的问题，完全可以做一个平民属性的汉化组，用当前市场上汉化组三分之一的价格（随便举个例子）来接委托，这样其实也有得赚，最主要我考虑这玩意没有更新成本，所以后期交给宣发人员就好，研究人员等着吃红利就ok了，也许会很方便

顶端

Yaki

B11F 2022-02-11 17:18

只看该作者 | | 小中大

首先基础投入过大，这样的投入一般不是个人能提供的了，况且可能还会有版权和法律问题
再者而言，如果解决了版权和法律问题，还有人工智能啥事，原出版商做一个翻译不是更简单吗？

顶端

离水的鱼

B12F 2022-02-11 17:30

只看该作者 | | 小中大

问题不大，很简单。只是圈子小没人愿意搞，而且准确度不高，音声市场太小了

顶端

yldhgs

B13F 2022-02-11 18:20

只看该作者 | | 小中大

识别率太低了用过几个api 好多语句识别不下来

顶端

Upsy-Daisy

B14F 2022-02-11 18:46

（偷Q欧赛文斯希思塔司）

只看该作者 | | 小中大

主要是如何量化翻译的优劣，没有可量化手段根本实现不了神经网络路径自优化，深度学习什么不存在的

顶端

Angelina Jolie

B15F 2022-02-11 19:23

（珍妮--[sell=0][/sell]）

只看该作者 | | 小中大

...

顶端

chain-1

B16F 2022-02-11 19:27

只看该作者 | | 小中大

投入产出不一定成正比

顶端

好想要六花啊

B17F 2022-02-11 19:37

（人之初性本善）

只看该作者 | | 小中大

楼主的思路，我有用av实战过
具体思路是这样
音频使用第三方的语音识别api进行识别--得到字幕和时间
使用脚本来剪辑视频--按照时间打上中文字幕
这难点就是，
A-日文的情色语句，第三方api基本不准，只有前面开场白自我介绍的时候可以，
后面那些喜欢什么癖好，能不能接受口爆，喜欢扣b吗，这类的情色话语根本不能识别
B-女主角在实战中会有，呃呃呃，啊啊啊这类词，反而准，但是看片突然出现这个字幕，反而无语
C-就是费用，第三方的日语api收费还是贵，准确率低，不过我没找过开源的
D-到后面的时候，我想到一个思路，用机器识别一遍，然后导入字幕，在手动调整，但是后来一想，这跟人肉汉化有什么区别，放弃

顶端

yugebing

B18F 2022-02-11 20:02

只看该作者 | | 小中大

回 17楼(好想要六花啊) 的帖子

啊啊啊我有考虑过这个问题，首先是翻译的问题，因为翻译软件里淫语词库是比较匮乏的，所以想想也知道，很难直接翻译出来，所以我第一步想做的是文字提取，因为我们知道日语是一字一译的，所以原则上可以把文字转成日语，第二步就是翻译，这里的问题就是没有一个量化的标准，就像楼上说的那样，所以我考虑用开源汉化的音声作为训练集，用脚本把音频和语段进行切割，然后扔进去训练，想把神经网络做成特别擅长翻译色情语句的神经网络。
以上，我打算先做一做，如果后边您有缘在看到我的技术讨论，并且我取得了一定的阶段性进展，希望您能加入我的项目。

顶端

yldhgs

B19F 2022-02-11 20:23

只看该作者 | | 小中大

回 18楼(yugebing) 的帖子

支持持续关注

顶端

衔尾蛇

B20F 2022-02-11 20:32

只看该作者 | | 小中大

实现不难, 就是成本比不上回报, 大概率你花时间做出效果后发现, 还不如走百度的语音识别+翻译api的路子, 百度终究是有整个百度社区体系的训练样本的, 目前用百度的付费接口, 其实已经有能将就看的效果, 就是没什么必要=-=

最后, 关于你认为的盈利模式问题, 你可能忘了行业中以前有类似的存在, 心愿屋, 你再想想他的名声和下场

顶端

c343de47

B21F 2022-02-11 20:35

只看该作者 | | 小中大

如果你有编程基础的话，做一个能用的东西还是比较容易的，虽然end to end没什么人做过，但其中各个环节都有比较成熟的解决方案。先做语音识别，再做机器翻译，在做语音合成，第一个和最后一个都比较准确，机器翻译方面目前SOTA可以做到让人看得懂，但是仍然明显不如人工翻译。
这个idea不大可能养活一个创业公司，毕竟字幕组本身都是灰色地带，但是可以作为开源项目来做。举一个比较类似的 https://github.com/project-yuki/YUKI，目前已经有把日文游戏自动汉化的项目，原理是抓取游戏内文本，调用web翻译API（Google翻译，百度翻译等，翻译质量的话，能让人看得懂但是明显比人工翻译差）。基本上刚出的游戏（例如illusion近年的作品，基本人工翻译出来前大家都是这样按个插件自动机翻）或者没汉化的老游戏都用这种方法啃。

顶端

好想要六花啊

B22F 2022-02-11 20:52

（人之初性本善）

只看该作者 | | 小中大

回 18楼(yugebing) 的帖子

讲实话，这个训练极难，以我对目前训练的了解，这需要海量的音频样本
标注的，
拿网易和百度的语音api举例，它们早期的时候是用人海战术进行语音采集和标注的，
类似一句话让不同的兼职人员录音，
或者不同的音频，让大量的兼职人员标注好
同理，你想要同样的效果来进行就得海量标注
如果是免费的标注法，我就有个思路

A-采集海量的淫语音频
B-根据词汇进行音频切割得到标准样本
B的难点在于，我目前只见过语义识别，
如“你好”-名词-单组词
“打他”-动词-单组词
“上海”-名词-单组词
如果是文本当然可以这样切割，但是音频的语义识别就没见过了

顶端

00s91

B23F 2022-02-11 20:54

只看该作者 | | 小中大

技术上就做不到，实际上翻译领域现在还是靠人，这东西错一点点就错的离谱，机器压根只能做一做辅助工作。

顶端

你是一个一个一个一个

B24F 2022-02-11 20:56

只看该作者 | | 小中大

老哥们真的什么都懂

顶端

漫区特设

蜜柑计划

综合交流

人民囧府

【技术讨论】基于神经网络的语音翻译系统实现难点在哪里

回 1楼(夕弦耶俱矢) 的帖子

回 3楼(6a440cbd) 的帖子

回 5楼(ninesd) 的帖子

回 4楼(5+7) 的帖子

回 9楼(NieR) 的帖子

回 17楼(好想要六花啊) 的帖子

回 18楼(yugebing) 的帖子

回 18楼(yugebing) 的帖子