🧥 开源自建方案 · 数字人 7×24 直播
公司主播肖像数字人直播技术落地报告
面向皮草直播业务,采用开源数字人引擎自建,优先实现夜间无人/半无人直播、商品讲解、素材轮播、稳定推流和人工客服兜底,后续升级实时弹幕问答与多账号矩阵。
1. 执行摘要
先做一个能稳定播、能讲款、能切素材的 MVP,不在第一阶段追求完全无人智能成交。
MVP 上线周期
3-4 周
含素材采集、部署、联调、夜播压测
第一阶段目标
6-8 小时
先验证夜间连续稳定直播
最终目标
7×24
数字人讲解 + 真人客服兜底 + 监控告警
| 结论 | 说明 | 状态 |
|---|---|---|
| 开源自建可行 | 用整合框架降低模型联调风险,直播中台由公司自控。 | 🟢 可做 |
| 不建议纯模型拼装 | 只会动嘴不等于能卖货,必须加入商品素材、排品、话术和推流监控。 | 🟡 控范围 |
| 皮草必须实拍辅助 | 毛面光泽、上身版型、细节做工靠数字人头部无法充分展示。 | 🟢 必做 |
| 肖像声音授权前置 | 主播肖像、声音、离职后使用权必须签清楚。 | 🔴 红线 |
2. 开源引擎选型
优先选能跑实时直播链路的整合框架,再按效果叠加口型、表情和音色能力。
| 项目/模型 | 定位 | 优点 | 限制 | 建议 |
|---|---|---|---|---|
| LiveTalking | 实时互动数字人框架 | 整合度高,适合直播链路 | 依赖 GPU 与环境调试 | 主选 |
| Linly-Talker-Stream | 实时对话数字人框架 | 链路完整,适合二次开发 | 需要工程化加固 | 备选 |
| MuseTalk | 实时高质量唇形 | 口型质量好,适合长播 | 需要显卡资源 | 主选口型 |
| Wav2Lip | 视频口型同步 | 成熟、资料多 | 更像工具,不是直播系统 | 辅助 |
| SadTalker | 单图说话视频 | 起步简单 | 实时性和自然度有限 | 样机可用 |
| LivePortrait | 表情/动作迁移 | 让脸更自然 | 需与主链路联调 | 增强项 |
| GPT-SoVITS / CosyVoice | 主播音色克隆 | 中文效果较好,可自建 | 需要干净录音和授权 | 必做 |
3. 技术架构
把数字人引擎放在视频生成层,直播业务能力放在中台,避免模型项目绑死业务。
商品与脚本中台商品库、尺码、价格、话术、禁说词、排品计划
TTS 音色克隆主播声音生成,支持讲款、逼单、售后说明
数字人引擎LiveTalking + MuseTalk 驱动口型和表情
OBS/导播合成数字人、皮草实拍、价格贴片、商品卡合成
RTMP 直播推流推到抖音、快手、视频号或平台直播伴侣
二期互动链路
| 模块 | 功能 | 说明 |
|---|---|---|
| 弹幕采集 | 获取观众问题 | 先接平台后台/客服台,复杂平台接口后置 |
| 规则问答 | 回答高频问题 | 尺码、真假毛、掉毛、保养、退换货优先规则化 |
| LLM 回复 | 生成自然话术 | 必须受商品库和禁说词约束 |
| 人工接管 | 处理复杂成交 | 价格争议、售后投诉、大额订单不自动承诺 |
4. 采购与软件清单
如果要长期稳定跑,建议独立 Linux + NVIDIA GPU,不建议用普通办公电脑硬扛生产直播。
硬件建议
| 项目 | 建议规格 |
|---|---|
| GPU | RTX 4090 24GB / RTX 3090 24GB 起步 |
| CPU | i7/i9 或同级 AMD |
| 内存 | 64GB 起步,建议 128GB |
| 硬盘 | 2TB NVMe SSD |
| 网络 | 稳定上行,建议独立直播网络 |
软件栈
| 模块 | 建议 |
|---|---|
| 系统 | Ubuntu 22.04 LTS |
| 容器 | Docker + Docker Compose |
| GPU 环境 | CUDA / cuDNN 按项目版本匹配 |
| 音视频 | FFmpeg + OBS |
| 数据 | PostgreSQL / SQLite + Redis |
| 监控 | GPU、推流、黑屏、音画同步、队列长度 |
素材准备
| 素材 | 要求 | 用途 |
|---|---|---|
| 主播肖像视频 | 正脸、侧脸、微笑、自然说话,30-60 分钟 | 训练数字人形象 |
| 主播声音 | 安静环境录制,30-60 分钟 | 音色克隆 |
| 皮草上身视频 | 不同身高体重、走动、转身 | 展示版型 |
| 毛面近景 | 顺毛、逆毛、光泽、细节 | 展示材质可信度 |
| 话术脚本 | 开场、留人、讲款、逼单、售后 | 驱动数字人口播 |
5. 4 周落地计划
先夜间跑通 6-8 小时,再扩大到全天候。每阶段都有明确验收,不做无边界研发。
第 1 周
素材与授权签署肖像/声音授权,采集主播素材、商品素材、价格表、尺码表和售后规则。
第 2 周
引擎部署部署 LiveTalking/MuseTalk,跑通数字人口播、音色克隆和基础视频输出。
第 3 周
直播联调接 OBS、商品素材轮播、脚本队列、价格贴片,完成平台推流测试。
第 4 周
夜播压测连续直播 6-8 小时,监控黑屏、断流、口型延迟、脚本异常和客服承接。
验收标准
| 指标 | MVP 标准 | 验收方式 |
|---|---|---|
| 直播稳定性 | 连续 6-8 小时不断流、不黑屏 | 夜间压测记录 |
| 音画同步 | 无明显口型错位 | 抽样观看录屏 |
| 商品讲解 | 可按排品自动讲 20 个以上商品 | 脚本播放日志 |
| 素材切换 | 讲款时能切对应皮草实拍素材 | OBS 场景验证 |
| 合规控制 | 禁说词、售后承诺、价格口径可控 | 话术库审核 |
6. 风险与控制
数字人直播最容易出问题的不是技术演示,而是授权、合规、稳定性和自动回复乱承诺。
| 风险 | 影响 | 控制措施 |
|---|---|---|
| 肖像/声音纠纷 | 主播离职或反悔导致停用 | 签署肖像、声音、数字人使用授权,明确离职后权利 |
| 平台合规 | 限流、警告、封禁 | 按平台要求标注 AI/虚拟主播,话术不伪装真人 |
| 夸大宣传 | 投诉和处罚 | 禁用“全网最低、顶级、绝不掉毛、永久不变形”等绝对化表达 |
| 技术不稳定 | 黑屏、断流、卡顿 | 推流监控、自动重启、备用素材循环、人工告警 |
| 自动回复乱答 | 售后争议 | 第一阶段不用完全自动客服,高频问答规则化,复杂问题人工接管 |
建议决策:批准启动 4 周 MVP,不承诺第一版完全无人值守;第一版目标是“稳定夜播 + 自动讲款 + 实拍素材展示 + 人工客服兜底”。