前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >提瓦特大陆语音提取解析

提瓦特大陆语音提取解析

作者头像
为为为什么
发布2023-05-25 10:06:07
4990
发布2023-05-25 10:06:07
举报
文章被收录于专栏:又见苍岚又见苍岚又见苍岚

语音训练需要优质的数据,我们尝试使用原神中的语音进行训练,首先需要提取并解析其中的语音信息。

数据处理

找到数据

在 PC 版原神中,音频文件放在游戏文件夹中,我的路径为:

D:\Program Files\Genshin Impact\Genshin Impact Game\YuanShen_Data\StreamingAssets\AudioAssets\Chinese

3.7 版原神共 114 条 9.38 g,将其中的数据拷贝出来。

解压数据

拿到的数据均为 使用 Extractor2.5 解压数据

下载工具后解压,打开 exe 文件即可运行,选择所有刚刚生成的语音文件作为输入文件,选择输出文件夹:

开始解压:

之后反选所有数据, 选择解压即可。

共拿到语音 72021 条。

解密数据

解压直接得到的数据无法听到语音,需要进行解密:

需要用到项目: https://github.com/vgmstream/vgmstream

进入项目的 release 下载需要的编译文件(以我当前 Win 为例):

下载链接

下载后解压,得到可执行文件,将其加入系统路径

这样就可以使用 vgmstream-cli.exe 直接运行解密了

编写 Python 脚本:

1234567891011

import mtutils as mtimport ostarget_file_path_list = mt.glob_recursively('Temp', 'wav')for target_file_path in mt.tqdm(target_file_path_list): os.system(f'vgmstream-cli "{target_file_path}"') mt.remove_file(target_file_path) mt.file_rename(target_file_path + '.wav', target_file_path) pass

我将数据放到 Temp 文件夹,脚本在 Temp 外一层,可以直接运行。

脚本 os.system 命令中空格字符需要用双引号包住

在我的机器上运行四十分钟解密所有语音文件。

参考资料

文章链接: https://cloud.tencent.com/developer/article/2291300

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2023年5月24日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据处理
    • 找到数据
      • 解压数据
        • 解密数据
        • 参考资料
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档