Skip to content

模块介绍

文本部分核心功能时将文本输入,转化为音频,字幕等文件。

配置要求

  1. 运行需要本地推理生成音频的服务(目前包括GPT-SoVITS、Fish-Speech、ChatTTS),

  2. 需要本地电脑配置有一定要求并且已启动对应的服务,且服务配置的对应端口号及配置信息都和本地启动一致,否则在使用相关功能时会失败。

大模型接口配置

需要修改的配置有模型中的文本大模型音频大模型,关于各模态大模型的启动部分,可参考各大模型的集成。

注意

项目中所有模型使用的本地文件都使用缓存方式加载,如本地有新增或删除模型等,需要重启服务或设置中刷新缓存。

创建项目

文本项目当前有两个类型:章节长文本和短文本。章节长文本项目主要用于文本较长,需要分章节处理的文本。短文本项目没有分章节的部分,所有文本当作一个章节处理。

请合理选择类型!

在页面展示及推理时,会把一个章节看作一个整体处理。

单章节文本过长会导致展示时页面卡顿甚至浏览器卡死、推理时上下文过长导致的失败等问题。

章节拆分(章节长文本项目)

  1. 点击进入空间后,点击左上角章节拆分按钮,选择章节规则后点击验证会在右侧出现章节列表。
  2. 下拉框中没有对应的正则时,可求助AI大模型,帮你生成章节名解析的正则表达式,然后填入输入框。
  3. 台词解析规则是识别文本中的对话的重要配置。这里可以全局配置,也可以在对用章节处理时单独配置。

台词解析

  1. 点击左侧二级菜单中章节列表进入对应的章节页面,点击中间上方台词解析按钮。
  2. 在下拉框中选择对应的解析规则。没有对应的正则时,可求助AI大模型,然后填入输入框。
  3. 点击验证后会在右侧出现对话列表,这部分是后面需要角色推理的内容,其他当作旁白处理。

角色推理

前提

  1. 配置一个文本大模型,详细信息请看 文本大模型集成=>模块介绍

  2. 左侧标题中对话的数量大于0(有对话才需要推理角色)

模型设置

如果生成音频需要用到参考音频,阅读音频大模型集成=》参考音频配置。

如果生成音频需要用到自定义模型,阅读音频大模型集成=》自定义模型配置。

点击文中角色栏对应角色展开,点击选择模型

音频生成

所有模型设置完毕后,点击音频生成菜单中的全部生成或部分生成

注意!

在音频生成时,需要启动对应的音频大模型!

音频合并

所有音频生成完成后,打开编辑模式,点击编辑菜单中的全选,然后再点击批量处理菜单中的合并导出

音频预览

合并导出完成后点击音频播放菜单中的音频预览,可以播放音频及字幕,点击右下角文件夹图标可以打开音频所在文件夹。

字幕优化

设置 =》通用设置 =》字幕优化

开启这个功能,会有文本切分的效果,会将文本切分为推荐长度的小文本以便准确计算字幕时间。

注意!

开启这个功能需要重新生成音频再合并才会生效。