WaveSpeed InfiniteTalk

用一张照片生成 10 分钟数字人口播

InfiniteTalk 会根据音频自动驱动嘴型、头部与微表情，让课程、营销或客服视频更具临场感。

立即开启 InfiniteTalk 查看制作要点

InfiniteTalk 工作台

只需上传一张人像和一段配音，即可生成口型精准、神态自然的数字人讲话视频。

配音音频

支持 MP3、WAV、AAC、OGG、WEBM、FLAC、M4A，单个文件不超过 200 MB。

上传音频后即可预估所需积分。

人像照片

建议使用正面或三分之二人像，支持 JPG、PNG、WebP，大小不超过 40 MB。

蒙版（可选）

如果画面中有多个人物，可提供黑白蒙版仅保留需视频生成的主体。留空则自动检测。

指导提示（可选）

提示词可微调姿态、灯光或情绪。不填写则按自然口播生成。

输出分辨率

480p 适合草稿预览，720p 适合正式成片。

随机种子（可选）

使用相同种子可让多条视频保持表情一致。-1 每次都会随机。

等待上传音频和人像

上传素材并启动 InfiniteTalk 后，可在此预览生成视频。

提示：使用干净的人声、减少混响能获得更自然的口型。费用按每 5 秒计费，720p 约为 480p 的两倍。

为什么选择 InfiniteTalk

保持人物身份一致的同时，高度还原你的配音节奏与情绪。

开始生成

逐字级口型同步

按音频的每个音素对齐嘴型，连停顿与呼吸都能真实呈现。

自然镜头表现

面部细节、眼神和身体微动作同步驱动，告别呆板机器人感。

整段保持人物一致

长时间渲染仍能锁定发型、服装与光效，避免画面漂移。

最长 10 分钟成片

无需拼接多段短视频，即可生成完整演讲或产品演示。

InfiniteTalk 使用流程

遵循以下步骤，可获得更稳定的生成效果。

步骤 1
上传精修好的配音
建议使用干净单声道，减少混响与背景噪音，便于识别音素。
步骤 2
选择清晰正面人像
正面或 3/4 视角效果最佳，如有多人请附带蒙版指定主体。
步骤 3
设置分辨率与提示词
草稿选择 480p，成片使用 720p；可额外填写提示词调整神态与镜头。
步骤 4
提交任务并等待渲染
费用按每 5 秒计费，完成后获取状态页与可下载的 MP4 视频。

制作提醒

单次最长 10 分钟（600 秒），超出将被拒绝且不会扣费。

多人合照可上传黑白蒙版，仅让目标人物动起来。

提示词可描述“温柔微笑”“棚拍主光”或“轻微点头”等表现细节。

积分按 5 秒为单位结算，同时 720p 约为 480p 的两倍成本。

InfiniteTalk 使用流程

遵循以下步骤，可获得更稳定的生成效果。

步骤 1

上传精修好的配音

建议使用干净单声道，减少混响与背景噪音，便于识别音素。

步骤 2

选择清晰正面人像

正面或 3/4 视角效果最佳，如有多人请附带蒙版指定主体。

步骤 3

设置分辨率与提示词

草稿选择 480p，成片使用 720p；可额外填写提示词调整神态与镜头。

步骤 4

提交任务并等待渲染

费用按每 5 秒计费，完成后获取状态页与可下载的 MP4 视频。

制作提醒

单次最长 10 分钟（600 秒），超出将被拒绝且不会扣费。

多人合照可上传黑白蒙版，仅让目标人物动起来。

提示词可描述“温柔微笑”“棚拍主光”或“轻微点头”等表现细节。

积分按 5 秒为单位结算，同时 720p 约为 480p 的两倍成本。

用一张照片 生成 10 分钟数字人口播

InfiniteTalk 工作台

为什么选择 InfiniteTalk

逐字级口型同步

自然镜头表现

整段保持人物一致

最长 10 分钟成片

InfiniteTalk 使用流程

上传精修好的配音

选择清晰正面人像

设置分辨率与提示词

提交任务并等待渲染

制作提醒

用一张照片 生成 10 分钟数字人口播

InfiniteTalk 工作台

为什么选择 InfiniteTalk

逐字级口型同步

自然镜头表现

整段保持人物一致

最长 10 分钟成片

InfiniteTalk 使用流程

上传精修好的配音

选择清晰正面人像

设置分辨率与提示词

提交任务并等待渲染

制作提醒

用一张照片生成 10 分钟数字人口播

用一张照片生成 10 分钟数字人口播