WaveSpeed InfiniteTalk
用一张照片 生成 10 分钟数字人口播
InfiniteTalk 会根据音频自动驱动嘴型、头部与微表情,让课程、营销或客服视频更具临场感。
InfiniteTalk 工作台
只需上传一张人像和一段配音,即可生成口型精准、神态自然的数字人讲话视频。
支持 MP3、WAV、AAC、OGG、WEBM、FLAC、M4A,单个文件不超过 200 MB。
上传音频后即可预估所需积分。
建议使用正面或三分之二人像,支持 JPG、PNG、WebP,大小不超过 40 MB。
如果画面中有多个人物,可提供黑白蒙版仅保留需视频生成的主体。留空则自动检测。
提示词可微调姿态、灯光或情绪。不填写则按自然口播生成。
480p 适合草稿预览,720p 适合正式成片。
使用相同种子可让多条视频保持表情一致。-1 每次都会随机。
等待上传音频和人像
上传素材并启动 InfiniteTalk 后,可在此预览生成视频。
提示:使用干净的人声、减少混响能获得更自然的口型。费用按每 5 秒计费,720p 约为 480p 的两倍。
为什么选择 InfiniteTalk
保持人物身份一致的同时,高度还原你的配音节奏与情绪。
逐字级口型同步
按音频的每个音素对齐嘴型,连停顿与呼吸都能真实呈现。
自然镜头表现
面部细节、眼神和身体微动作同步驱动,告别呆板机器人感。
整段保持人物一致
长时间渲染仍能锁定发型、服装与光效,避免画面漂移。
最长 10 分钟成片
无需拼接多段短视频,即可生成完整演讲或产品演示。
InfiniteTalk 使用流程
遵循以下步骤,可获得更稳定的生成效果。
- 步骤 1
上传精修好的配音
建议使用干净单声道,减少混响与背景噪音,便于识别音素。
- 步骤 2
选择清晰正面人像
正面或 3/4 视角效果最佳,如有多人请附带蒙版指定主体。
- 步骤 3
设置分辨率与提示词
草稿选择 480p,成片使用 720p;可额外填写提示词调整神态与镜头。
- 步骤 4
提交任务并等待渲染
费用按每 5 秒计费,完成后获取状态页与可下载的 MP4 视频。
制作提醒
单次最长 10 分钟(600 秒),超出将被拒绝且不会扣费。
多人合照可上传黑白蒙版,仅让目标人物动起来。
提示词可描述“温柔微笑”“棚拍主光”或“轻微点头”等表现细节。
积分按 5 秒为单位结算,同时 720p 约为 480p 的两倍成本。