无图版
帮助
论坛首页
登录
注册
讨论区
搜索
社区服务
屏蔽配置
刷新黑名单
好奇模式
清空列表
管理列表
■
帖子 |
■
头像
社区论坛任务
用户名
UID
Email
认证码
点此显示验证码
热门版块:
茶馆
免空资源区
询问&求物
同人音声
网赚资源区
实用动画
Soulplus
Wind
用户中心首页
编辑个人资料
查看个人资料
好友列表
用户权限查看
积分管理
积分转换
特殊组购买
收藏夹
我的主题
基本统计信息
到访IP统计
管理团队
管理统计
在线统计
会员排行
版块排行
帖子排行
个人首页
我的收藏
好友近况
南+ South Plus
茶馆
【技术讨论】基于神经网络的语音翻译系统实现难点在哪里
漫区特设
Comic Market 103
Comic Market 102
サンクリ
Comic1☆
其他同人志
一般漫画
例大祭&紅楼夢
汉化本发布
旧物仓库
蜜柑计划
- 蜜柑计划 - Mikan Project
综合交流
ACG交流
轻小说
原创绘画
原创小说区
询问&求物
茶馆
AI交流 (beta)
免空资源区
网赚资源区
人民囧府
事务受理
上一主题
下一主题
新 帖
|
浏览器收藏
|
打印
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
GF
2022-02-11 15:22
只看GF
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
【技术讨论】基于神经网络的语音翻译系统实现难点在哪里
长久以来,音声和艾薇的汉化工作大多是人工翻译完成的,这种工程极其耗费人力物力,而且效率不高。那么有没有可能,在原有的通用语音翻译系统的框架基础上,生成一个新的神经网络并用现在已知的流放音声和带字幕艾薇去训练他,得到一个效果很好,甚至于几乎不需要后期润色的翻译结果呢。这构思起来似乎并不是很难,但是直觉告诉我,整个过程种一定有某种技术难题是很难攻克的,希望大家能予以指导
顶端
回复
引用
分享
夕弦耶俱矢
作者资料
发送短消息
加为好友
UID:
578500
精华:
0
发帖:
145
HP:
0 点
SP币:
2274 G
昵称: 夕弦耶俱矢
在线时间: 597(小时)
注册时间:
2015-02-23
最后登录:
2024-04-29
B1F
2022-02-11 15:27
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
我觉技术首先不会是难题
难的是 回报呢
如果你这技术做成后日进斗金不愁没有高端技术人才争先去搞
但你说就这音声 艾薇 甚至是更近一步的同声翻译对现在来说这些的收益并不足以抵上用人的成本
甚至你说的这些需求也都不是必需品
以后要是人工成本不断变高还有相应的必须需求自然会有人去作这一块
顶端
回复
引用
分享
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
B2F
2022-02-11 15:37
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 1楼(夕弦耶俱矢) 的帖子
这个倒是其次,首先,模型成熟后的成本是很低的,也就是接到订单后一个小时以内就ok了,我们参考风花雪月汉化组(不知道就这么提人家是不是不好),他们的定价也不是很低,而这个过程用计算机来做的话只收汉化组三分之一的佣金就有得赚。搞一块3070的显卡,搭建好模型后每天早上出门前打开程序跑计算就ok了,最大的问题就是我对神经网络知之甚少,而且需要对相应音声数据进行处理,这个周期可能要持续1年左右。
顶端
回复
引用
分享
RyuZU
作者资料
发送短消息
加为好友
UID:
772688
精华:
0
发帖:
489
HP:
0 点
SP币:
9353 G
昵称: RyuZU
在线时间: 1140(小时)
注册时间:
2017-03-22
最后登录:
2024-04-30
B3F
2022-02-11 15:42
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
阿里 百度 腾讯都有多语言的识别模块,并且我知道可以通过导入视频,然后利用这些模块生成字幕的软件,主要难点还是翻译这一块
顶端
回复
引用
分享
5+7
作者资料
发送短消息
加为好友
UID:
786167
精华:
0
发帖:
1013
HP:
0 点
SP币:
61160 G
昵称: 5+7
在线时间: 1856(小时)
注册时间:
2017-05-01
最后登录:
2024-04-30
B4F
2022-02-11 15:43
(闭关中...不要私信我了)
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
真要实现了还轮得到我搞黄色?外网的论文 著作 全他妈给我汉化
顶端
回复
引用
分享
ninesd
作者资料
发送短消息
加为好友
UID:
827391
精华:
0
发帖:
1816
HP:
0 点
SP币:
2151 G
昵称: ninesd
在线时间: 1846(小时)
注册时间:
2017-07-25
最后登录:
2024-04-30
B5F
2022-02-11 15:44
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
路子确实走得通啊,就是一个没人做,第二不知道效果能有多好。语音识别是比较成熟了,翻译还不行。数据集打算怎么整?汉化组质量参差不齐,翻译习惯也不一样。然后音声里的拟声词语气词打算怎么处理?正常数据集可不会有这玩意儿,一般的模型和训练步骤在设计的时候也不会考虑这个。最后就是成本,其实3070不一定够,主要是语音模型和bert的训练都需要大量显存,一般单卡至少10G以上吧。总结一下就是能做,但是效果能有多好不知道,而且可以预见肯定会有很多工程上的问题
顶端
回复
引用
分享
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
B6F
2022-02-11 15:46
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 3楼(6a440cbd) 的帖子
那我们是否可以通过这个api来做基础翻译呢,比如我做一部汉化音声,他翻译api翻译出来是一个版本,然后和人工翻译的版本放在一起训练,让计算机学会如何润色第三方翻译的结果,请问这个思路可行吗
顶端
回复
引用
分享
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
B7F
2022-02-11 15:51
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 5楼(ninesd) 的帖子
这个那天我和同学讨论来着,讨论的问题是moaning是否要做标记,就是说我们可以直接把moaning的部分直接标注为无用的语段,之后计算机遇到类似部分直接选择不翻译,也可以人工进行标注,让计算机学会什么声音是在moaning。至于翻译质量问题,我觉得我们不能期望模型最后的成果是非常优秀的,但是至少要比现在的翻译要强就ok,我想以让我们能无障碍阅读并理解意思作为最后的目标,这样其实就可以满足大多数应用场景了
顶端
回复
引用
分享
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
B8F
2022-02-11 15:52
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 4楼(5+7) 的帖子
可是这个模型应该都是用比较色气的语言去训练的,如果真的开发出稳定版本的话,你可以思考一下你翻译的论文会变成什么样吧
顶端
回复
引用
分享
Nin
作者资料
发送短消息
加为好友
UID:
1450802
精华:
0
发帖:
43
HP:
0 点
SP币:
643 G
昵称: Nin
在线时间: 74(小时)
注册时间:
2021-08-22
最后登录:
2024-04-27
B9F
2022-02-11 16:10
(无)
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
理论上可行,但是为什么要去做呢,为爱发电吗,我是搞语音的,我总不能拿这个来写论文啊,毕竟这肯定需要大量人工标注等工作,费时费力,类似应用场景的研究肯定有很多,但专门ghs这只能是属于闲的没事干去做的事情,可以搜搜看,当然还得是日语转化的翻译
顶端
回复
引用
分享
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
B10F
2022-02-11 16:28
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 9楼(NieR) 的帖子
这个。。。。首先标注的问题我考虑交给脚本,根据对应的lrc字幕文件和MP3音频文件,用程序把他们分成一个一个语段,倒是不费事,主要考虑的是第一,训练集会比较少,第二,我在这方面的知识比较浅薄。另外关于盈利模式的问题,完全可以做一个平民属性的汉化组,用当前市场上汉化组三分之一的价格(随便举个例子)来接委托,这样其实也有得赚,最主要我考虑这玩意没有更新成本,所以后期交给宣发人员就好,研究人员等着吃红利就ok了,也许会很方便
顶端
回复
引用
分享
Yaki
作者资料
发送短消息
加为好友
UID:
1435620
精华:
0
发帖:
1140
HP:
0 点
SP币:
3391 G
昵称: Yaki
在线时间: 1571(小时)
注册时间:
2021-07-27
最后登录:
2024-04-30
B11F
2022-02-11 17:18
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
首先基础投入过大,这样的投入一般不是个人能提供的了,况且可能还会有版权和法律问题
再者而言,如果解决了版权和法律问题,还有人工智能啥事,原出版商做一个翻译不是更简单吗?
顶端
回复
引用
分享
离水的鱼
作者资料
发送短消息
加为好友
UID:
431778
精华:
0
发帖:
152
HP:
0 点
SP币:
99 G
昵称: 离水的鱼
在线时间: 324(小时)
注册时间:
2014-08-21
最后登录:
2024-04-30
B12F
2022-02-11 17:30
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
问题不大,很简单。只是圈子小没人愿意搞,而且准确度不高,音声市场太小了
顶端
回复
引用
分享
yldhgs
作者资料
发送短消息
加为好友
UID:
1038876
精华:
0
发帖:
858
HP:
0 点
SP币:
4530 G
昵称: yldhgs
在线时间: 506(小时)
注册时间:
2018-09-30
最后登录:
2024-04-30
B13F
2022-02-11 18:20
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
识别率太低了 用过几个api 好多语句识别不下来
顶端
回复
引用
分享
Upsy-Daisy
作者资料
发送短消息
加为好友
UID:
890619
精华:
0
发帖:
785
HP:
0 点
SP币:
4015 G
昵称: Upsy-Daisy
在线时间: 829(小时)
注册时间:
2017-12-23
最后登录:
2024-03-31
B14F
2022-02-11 18:46
(偷Q欧赛文斯希思塔司)
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
主要是如何量化翻译的优劣,没有可量化手段根本实现不了神经网络路径自优化,深度学习什么不存在的
顶端
回复
引用
分享
Angelina Jolie
作者资料
发送短消息
加为好友
UID:
828794
精华:
0
发帖:
1403
HP:
-1 点
SP币:
2625 G
昵称: Angelina Jolie
在线时间: 3650(小时)
注册时间:
2017-07-27
最后登录:
2024-04-30
B15F
2022-02-11 19:23
(珍妮--[sell=0][/sell])
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
...
顶端
回复
引用
分享
chain-1
作者资料
发送短消息
加为好友
UID:
474454
精华:
0
发帖:
2154
HP:
0 点
SP币:
1782 G
昵称: chain-1
在线时间: 155(小时)
注册时间:
2014-10-12
最后登录:
2024-04-10
B16F
2022-02-11 19:27
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
投入产出不一定成正比
顶端
回复
引用
分享
好想要六花啊
作者资料
发送短消息
加为好友
UID:
583666
精华:
0
发帖:
1651
HP:
0 点
SP币:
4303 G
昵称: 好想要六花啊
在线时间: 1588(小时)
注册时间:
2015-02-26
最后登录:
2024-04-30
B17F
2022-02-11 19:37
(人之初性本善)
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
楼主的思路,我有用av实战过
具体思路是这样
音频使用第三方的语音识别api进行识别--得到字幕和时间
使用脚本来剪辑视频--按照时间打上中文字幕
这难点就是,
A-日文的情色语句,第三方api基本不准,只有前面开场白自我介绍的时候可以,
后面那些喜欢什么癖好,能不能接受口爆,喜欢扣b吗,这类的情色话语根本不能识别
B-女主角在实战中会有,呃呃呃,啊啊啊这类词,反而准,但是看片突然出现这个字幕,反而无语
C-就是费用,第三方的日语api收费还是贵,准确率低,不过我没找过开源的
D-到后面的时候,我想到一个思路,用机器识别一遍,然后导入字幕,在手动调整,但是后来一想,这跟人肉汉化有什么区别,放弃
顶端
回复
引用
分享
yugebing
作者资料
发送短消息
加为好友
UID:
1513394
精华:
0
发帖:
12
HP:
0 点
SP币:
5 G
昵称: yugebing
在线时间: 127(小时)
注册时间:
2021-12-09
最后登录:
2024-04-28
B18F
2022-02-11 20:02
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 17楼(好想要六花啊) 的帖子
啊啊啊我有考虑过这个问题,首先是翻译的问题,因为翻译软件里淫语词库是比较匮乏的,所以想想也知道,很难直接翻译出来,所以我第一步想做的是文字提取,因为我们知道日语是一字一译的,所以原则上可以把文字转成日语,第二步就是翻译,这里的问题就是没有一个量化的标准,就像楼上说的那样,所以我考虑用开源汉化的音声作为训练集,用脚本把音频和语段进行切割,然后扔进去训练,想把神经网络做成特别擅长翻译色情语句的神经网络。
以上,我打算先做一做,如果后边您有缘在看到我的技术讨论,并且我取得了一定的阶段性进展,希望您能加入我的项目。
顶端
回复
引用
分享
yldhgs
作者资料
发送短消息
加为好友
UID:
1038876
精华:
0
发帖:
858
HP:
0 点
SP币:
4530 G
昵称: yldhgs
在线时间: 506(小时)
注册时间:
2018-09-30
最后登录:
2024-04-30
B19F
2022-02-11 20:23
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 18楼(yugebing) 的帖子
支持 持续关注
顶端
回复
引用
分享
衔尾蛇
作者资料
发送短消息
加为好友
UID:
849377
精华:
0
发帖:
26256
HP:
0 点
SP币:
56 G
昵称: 衔尾蛇
在线时间: 2441(小时)
注册时间:
2017-09-02
最后登录:
2024-04-29
B20F
2022-02-11 20:32
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
实现不难, 就是成本比不上回报, 大概率你花时间做出效果后发现, 还不如走百度的语音识别+翻译api的路子, 百度终究是有整个百度社区体系的训练样本的, 目前用百度的付费接口, 其实已经有能将就看的效果, 就是没什么必要=-=
最后, 关于你认为的盈利模式问题, 你可能忘了行业中以前有类似的存在, 心愿屋, 你再想想他的名声和下场
顶端
回复
引用
分享
c343de47
作者资料
发送短消息
加为好友
UID:
641504
精华:
0
发帖:
220
HP:
0 点
SP币:
2858 G
昵称:
在线时间: 474(小时)
注册时间:
2015-08-08
最后登录:
2024-04-30
B21F
2022-02-11 20:35
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
如果你有编程基础的话,做一个能用的东西还是比较容易的,虽然end to end没什么人做过,但其中各个环节都有比较成熟的解决方案。先做语音识别,再做机器翻译,在做语音合成,第一个和最后一个都比较准确,机器翻译方面目前SOTA可以做到让人看得懂,但是仍然明显不如人工翻译。
这个idea不大可能养活一个创业公司,毕竟字幕组本身都是灰色地带,但是可以作为开源项目来做。举一个比较类似的
https://github.com/project-yuki/YUKI
,目前已经有把日文游戏自动汉化的项目,原理是抓取游戏内文本,调用web翻译API(Google翻译,百度翻译等,翻译质量的话,能让人看得懂但是明显比人工翻译差)。基本上刚出的游戏(例如illusion近年的作品,基本人工翻译出来前大家都是这样按个插件自动机翻)或者没汉化的老游戏都用这种方法啃。
顶端
回复
引用
分享
好想要六花啊
作者资料
发送短消息
加为好友
UID:
583666
精华:
0
发帖:
1651
HP:
0 点
SP币:
4303 G
昵称: 好想要六花啊
在线时间: 1588(小时)
注册时间:
2015-02-26
最后登录:
2024-04-30
B22F
2022-02-11 20:52
(人之初性本善)
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
回 18楼(yugebing) 的帖子
讲实话,这个训练极难,以我对目前训练的了解,这需要海量的音频样本
标注的,
拿网易和百度的语音api举例,它们早期的时候是用人海战术进行语音采集和标注的,
类似一句话让不同的兼职人员录音,
或者不同的音频,让大量的兼职人员标注好
同理,你想要同样的效果来进行就得海量标注
如果是免费的标注法,我就有个思路
A-采集海量的淫语音频
B-根据词汇进行音频切割得到标准样本
B的难点在于,我目前只见过语义识别,
如“你好”-名词-单组词
“打他”-动词-单组词
“上海”-名词-单组词
如果是文本当然可以这样切割,但是音频的语义识别就没见过了
顶端
回复
引用
分享
00s91
作者资料
发送短消息
加为好友
UID:
1325935
精华:
0
发帖:
936
HP:
0 点
SP币:
2169 G
昵称: 00s91
在线时间: 301(小时)
注册时间:
2020-06-10
最后登录:
2024-04-30
B23F
2022-02-11 20:54
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
技术上就做不到,实际上翻译领域现在还是靠人,这东西错一点点就错的离谱,机器压根只能做一做辅助工作。
顶端
回复
引用
分享
你是一个一个一个一个
作者资料
发送短消息
加为好友
UID:
1314331
精华:
0
发帖:
185
HP:
0 点
SP币:
1192 G
昵称: 你是一个一个一个一个
在线时间: 438(小时)
注册时间:
2020-05-11
最后登录:
2024-04-29
B24F
2022-02-11 20:56
只看该作者
|
屏蔽
屏蔽此人
屏蔽头像
|
小
中
大
老哥们真的什么都懂
顶端
回复
引用
分享
上一主题
下一主题
南+ South Plus
茶馆
[-- 查看移动版 --]