模块介绍
文本
部分核心功能时将文本输入,转化为音频,字幕等文件。
配置要求
运行需要本地推理生成音频的服务(目前包括GPT-SoVITS、Fish-Speech、ChatTTS),
需要本地电脑配置有一定要求并且已启动对应的服务,且服务配置的对应端口号及配置信息都和本地启动一致,否则在使用相关功能时会失败。
大模型接口配置
需要修改的配置有模型
中的文本大模型
、音频大模型
,关于各模态大模型的启动部分,可参考各大模型的集成。
注意
项目中所有模型使用的本地文件都使用缓存方式加载,如本地有新增或删除模型等,需要重启服务或设置中刷新缓存。
创建项目
文本项目当前有两个类型:章节长文本和短文本。章节长文本项目主要用于文本较长,需要分章节处理的文本。短文本项目没有分章节的部分,所有文本当作一个章节处理。
请合理选择类型!
在页面展示及推理时,会把一个章节看作一个整体处理。
单章节文本过长会导致展示时页面卡顿甚至浏览器卡死、推理时上下文过长导致的失败等问题。
章节拆分(章节长文本项目)
- 点击进入空间后,点击左上角
章节拆分
按钮,选择章节规则后点击验证
会在右侧出现章节列表。 - 下拉框中没有对应的正则时,可求助AI大模型,帮你生成章节名解析的正则表达式,然后填入输入框。
- 台词解析规则是识别文本中的对话的重要配置。这里可以全局配置,也可以在对用章节处理时单独配置。
台词解析
- 点击左侧二级菜单中章节列表进入对应的章节页面,点击
中间上方
的台词解析
按钮。 - 在下拉框中选择对应的解析规则。没有对应的正则时,可求助AI大模型,然后填入输入框。
- 点击验证后会在右侧出现对话列表,这部分是后面需要角色推理的内容,其他当作
旁白
处理。
角色推理
前提
配置一个文本大模型,详细信息请看 文本大模型集成=>模块介绍
左侧标题中对话的数量大于0(有对话才需要推理角色)
模型设置
如果生成音频需要用到参考音频,阅读音频大模型集成=》参考音频
配置。
如果生成音频需要用到自定义模型,阅读音频大模型集成=》自定义模型
配置。
点击文中角色栏对应角色展开,点击选择模型
。
音频生成
所有模型设置完毕后,点击音频生成菜单中的全部生成或部分生成
注意!
在音频生成时,需要启动对应的音频大模型!
音频合并
所有音频生成完成后,打开编辑模式
,点击编辑菜单中的全选
,然后再点击批量处理菜单中的合并导出
。
音频预览
合并导出完成后点击音频播放菜单中的音频预览
,可以播放音频及字幕,点击右下角文件夹图标可以打开音频所在文件夹。
字幕优化
设置 =》通用设置 =》字幕优化
开启这个功能,会有文本切分的效果,会将文本切分为推荐长度的小文本以便准确计算字幕时间。
注意!
开启这个功能需要重新生成音频再合并才会生效。