Pixelle-Video: AI 全自动短视频引擎——让视频创作变成一句话的事

把一个简单的主题输入到 Pixelle-Video，便能自动完成从文案到成品视频的完整流程。该引擎以模块化、可扩展的设计为核心，结合多种 AI 模型、图像/视频生成、语音合成以及合成音乐，帮助创作者在零门槛条件下快速产出高质量的视频内容。下面，我们带你走进这套系统的方方面面，从原理到实操，从功能亮点到快速上手，一起探究它如何把复杂的短视频制作过程大幅简化。

主图/封面图片

一、核心理念与价值

Pixelle-Video 的核心在于把“主题驱动的自动化视频创作”落地为可操作的工作流。它的口号很简单却强大：只需输入一个主题，系统即可完成文案撰写、AI 配图/视频生成、语音解说、背景音乐添加以及最终的视频合成，几乎无需剪辑经验。该工具把创作过程拆解为若干模块，每个模块都可替换、组合，形成自定义化的工作流，满足不同风格和需求。

全自动生成：只需提供主题，自动完成文案、配图、视频、解说、音乐、合成等步骤
AI 智能文案：基于主题自动撰写解说词，省去自己撰写脚本的麻烦
AI 生成配图与视频：每句话都可配上 AI 生成的插画和动态视频
高度灵活的音视频组合：支持多语言 TTS、不同风格模板、可调整的视频尺寸
原子能力的灵活组合：基于 ComfyUI 架构，既有预设工作流，也可自定义替换模型与参数

为了更直观地理解其工作方式，Pixelle-Video 提供了一个可视化的 Web 界面预览，帮助用户在浏览器中查看整体流程和各个参数的调整效果。

二、系统概览与架构要点

模块化流程：文案生成 → 配图规划 → 逐帧处理 → 视频合成
多模型并行：支持 GPT 系列、通义千问、DeepSeek、Ollama 等大语言模型，以及各类图像/视频生成模型（如 WAN 2.1 等）
图像与视频生成：本地部署的 ComfyUI 工作流或云端 RunningHub 工作流
语音与音乐：Edge-TTS、Index-TTS 等主流 TTS 方案，支持背景音乐（BGM）与自定义音乐
视觉风格与尺寸：多模板、竖屏/横屏/方形尺寸灵活切换
自适应工作流：可替换生图模型、替换 TTS 系统，形成“从脚本到成片”的个性化流水线

在视觉上，系统通过一个三栏式 Web 界面将输入、处理与输出分离，用户可以在左侧输入文本或选择固定文案，中间调整语音与视觉设置，右侧触发生成并查看进度与成品。

三、功能亮点一览

Pixelle-Video 的功能设计覆盖从创意到成片的全链路，确保创作体验顺畅、高效、可追溯：

全自动生成
输入主题，系统自动产出完整视频
AI 智能文案
基于主题创作解说词，省去手动撰写的环节
AI 生成配图
为每句话配上高质量的 AI 插图，提升视觉冲击力
AI 生成视频
支持使用 AI 视频生成模型创建动态内容
AI 生成语音
支持 Edge-TTS、Index-TTS 等主流 TTS 方案，满足不同语气与语音风格
背景音乐
内置背景音乐或上传自定义 BGM，增强情感表达
视觉风格
多模板可选，快速确立视频的风格基调
尺寸灵活性
支持竖屏、横屏及方形等多种尺寸以适配不同平台
多种 AI 模型
支持 GPT、通义千问、DeepSeek、Ollama 等主流模型
原子能力组合
基于 ComfyUI 架构，可使用预置工作流，也可自定义替换模型/流程（如替换生图模型为 FLUX、替换 TTS 为 ChatTTS 等）

四、视频生成流程：从文案到成片

Pixelle-Video 将视频制作过程拆解为清晰的四步并提供可定制的工作流：

1) 文案生成

根据主题自动创作解说词与叙事结构
支持多语言与不同文风的文本生成 2) 配图规划
依据文本分句规划相应的图像或视频片段
选择合适的图像生成工作流，以确保风格统一 3) 逐帧处理
将文本与图像/视频内容逐帧组合，生成初步的画面序列
支持跨模型切换和风格微调 4) 视频合成
将解说、画面、音乐等整合为最终视频
生成完成后自动进行预览、导出与存储

这一流程的核心优势在于高度的可定制性：你可以为不同阶段选择不同的 AI 模型、图像生成流、文本风格以及 TTS 方案，从而获得与众不同的最终效果。

五、界面与快速体验

Pixelle-Video 的 Web 界面提供直观的三栏布局，方便用户在同一页面上完成输入、设置与生成：

左侧输入区
生成模式：AI 生成内容（自动撰稿）或固定文案内容（直接使用现成文案）
内容输入：主题、子主题、要点等
背景音乐设置：无 BGM、内置音乐、或自定义音乐
中央设置区
语音设置（TTS 工作流、参考音频上传与试听）
视觉设置（图像生成工作流、分辨率、提示词前缀、风格测试）
右侧生成区
生成按钮与实时进度显示
生成完成后的视频预览、时长和文件信息
输出目录为 output/

为了帮助新用户快速上手，开发团队还提供了一个网页预览图，帮助理解实际界面的布局与操作路径。

六、可用的开发与部署路径

Pixelle-Video 提供两种安装路径，覆盖从快速试用到本地深度定制的场景：

Windows 一键整合包（推荐 Windows 用户）
无需自行安装 Python、uv、ffmpeg 等依赖
一键解压、双击 start.bat 即可启动 Web 界面
浏览器自动打开 http://localhost:8501
在系统配置中填写 LLM/API Key 及图像生成服务设定
使用简单，适合快速体验与小型项目
从源码安装（适用于 macOS / Linux 或需要高度定制的用户）
依赖快速安装与配置
需预先安装 uv（用于服务端）与 ffmpeg
详细步骤包括：
- 克隆仓库并进入项目目录
- 使用 uv 运行 Streamlit 应用
- 在首次启动时配置 LLM 与图像生成服务（本地 ComfyUI 或云端 RunningHub）
优点在于灵活性与可控性，方便自建工作流或替换组件

前提依赖要点包括：

uv：用于运行 Streamlit、管理工作流
ffmpeg：视频处理与编解码
Python 环境与必要的包管理工具

如果你熟悉 ComfyUI，可以将自定义工作流放到 workflows/ 文件夹中，像添加新的生图模型、替换 TTS 流程等，进一步扩展系统能力。

七、系统配置与操作要点（简要）

首次使用时，需要在系统配置面板中完成以下设置：

LLM 配置
选择模型（如通义千问、GPT-4o、DeepSeek 等）并填入 API Key
也可使用快速预设，随后自动填充 base_url 与 model
图像配置
本地部署优先：ComfyUI URL（默认 http://127.0.0.1:8188）与连接测试
云端部署：RunningHub API Key
内容输入与生成模式
AI 生成内容：输入主题，系统自动创作文案
固定文案内容：直接粘贴完整文案，跳过自动创作
语音设置（中间栏）
选择 TTS 工作流（Edge-TTS、Index-TTS 等），系统会自动扫描 workflows/
可上传参考音频用于声音克隆
预览功能：输入测试文本并试听
视觉设置（中间栏）
图像生成工作流：本地 selfhost 或云端 RunningHub
图像尺寸：设置宽高，默认 1024x1024
提示词前缀（Prompt Prefix）：用于控制风格（需英文描述）
预览风格：测试不同风格的效果
模板：选择竖屏、横屏等模板，并可点击预览调整参数
生成视频（右侧栏）
点击“🎬 生成视频”即可触发
实时进度展示：分镜、配图、解说、合成等阶段
生成完成后自动预览，输出文件位于 output/

八、最近更新与演进

项目团队持续迭代，最近几次更新聚焦稳定性、并发性与模板化能力。以下是部分更新要点，展示了该系统在不断完善中的方向：

2026-01-26：新增“动作迁移”模块，支持上传参考视频和图片以实现动作迁移
2026-01-14：新增“数字人口播”和“图生视频”流水线，增加多语言 TTS 语音选项
2026-01-06：RunningHub 48G显存机器调用支持
2025-12-28：RunningHub 并发限制可配置，优化 LLM 返回结构化数据的逻辑
2025-12-17：支持 ComfyUI API Key 配置，支持 Nano Banana 模型调用，API 接口支持模板自定义参数
2025-12-10：侧边栏内置 FAQ，锁定 edge-tts 版本修复 TTS 稳定性问题
2025-12-08：支持固定脚本多种分割方式（段落/行/句子），优化模板选择交互逻辑并支持直接预览
2025-12-06：修复视频生成 API 返回 URL 路径处理，跨平台兼容性增强
2025-12-05：新增 Windows 整合包下载，优化图片与视频反推工作流
2025-12-04：新增“自定义素材”功能，允许用户上传照片和视频，AI 自动分析生成脚本
2025-11-18：优化 RunningHub 服务调用并发处理，新增历史记录页面，支持批量创建视频任务

这些更新展现出 Pixelle-Video 如何从单一主题出发，通过不断增强的工作流和更丰富的模型支持，提升创作灵活性与生产效率。

九、实际应用场景与案例方向

以下是该工具在不同风格与主题上的应用潜力，帮助读者理解其广泛适配性：

数字口播与讲解视频
使用数字人口播模板、韩语或其他语言的人声合成，创造“数字主播”风格的视频
图生视频与卡通场景
根据文本描述生成插画及对应视频片段，适合科普、故事讲解、教育内容
动作迁移与真实感增强
将上传的参考视频和图片用于动作迁移，创作具有特定动作风格的短片
竖屏短视频的高效产出
针对社媒平台（如短视频平台）设计的竖屏模板，快速产出可直接发布的内容
历史、科普、文学解说
以固定模板或自定义模板呈现，以清晰叙事和可视化材料讲解复杂概念

无论你是个人创作者、教育机构、还是内容工作室，Pixelle-Video 都能以“主题驱动”的方式，降低制作门槛，缩短从创意到成片的时间。

十、社区、支持与许可

社区与支持
官方提供社区入口，帮助用户获取最新动态与技术支持
给开发者与使用者留出反馈渠道，持续改进产品
许可
本项目采用 Apache 2.0 许可证，允许自由使用、修改与分发

你也可以通过仓库页面获取更多文档、示例与模板资源，以探索不同场景下的应用组合。

参考资源与模板示例
参考项目包括 Pixelle-MCP、ComfyUI MCP 服务器等相关工具，帮助 AI 助手调用本地或远端工作流
其他优秀开源工具如 MoneyPrinterTurbo、NarratoAI、MoneyPrinterPlus、ComfyKit 等也对 Pixelle-Video 的设计提供了灵感

十一、快速从零到成片的路径回顾

一键体验（Windows 用户）
下载 Windows 一键整合包
解压并运行 start.bat
浏览器打开本地地址，进入 Web 界面
配置 LLM 与图像生成服务，开始生成
自定义部署（进阶用户）
安装 uv、ffmpeg、Python 等依赖
通过 git 克隆源码，启动 Web 服务
配置本地/云端的 LLM 与图像生成工作流，个性化自定义

两条路径都指向同一个目标：在极短时间内完成一个完整、可发布的视频作品。

十二、附加图片与可视化资源

Web 界面预览与布局示意
Web UI 界面图片
社区入口图示
微信群二维码：微信交流群图片
Discord 社区：Discord 社区图片

请注意：在正式发布环境中使用时，请确保图片资源路径可访问，或将图片放置在你的部署环境中对应的位置。

十三、总结与展望

Pixelle-Video 通过将短视频创作流程拆解为可控的模块，提供了一套“输入一个主题就能自动完成全流程”的解决方案。它不仅降低了技术门槛，也为创作者提供了高度可定制的工作流选项：从 LLM 模型的选择、到图像/视频生成模型、再到 TTS 与音乐风格的调整，都可以按需替换和组合。这种原子能力的灵活组合，使得同一个主题可以产生多种不同风格的成片，进一步激发创作的可能性。

未来，随着更多模板、工作流与模型的接入，Pixelle-Video 的创作边界将不断扩展。它不仅是一个工具，更是一座桥梁，连接文字、图像、声音与视频的创造力。无论你是初学者还是资深内容创作者，使用这套引擎，都能把“写一个主题”变成“一句话就完成”的体验。

如果你对这套系统感兴趣，欢迎查看文档、参与社区讨论，并尝试在 Windows 整合包或源码环境中亲自体验。让我们一起用 AI 的力量，把创意变成可分享的视觉故事。

Pixelle-Video: AI Fully Automated Short Video Engine

Pixelle-Video: AI 全自动短视频引擎——让视频创作变成一句话的事

一、核心理念与价值

二、系统概览与架构要点

三、功能亮点一览

四、视频生成流程：从文案到成片

五、界面与快速体验

六、可用的开发与部署路径

七、系统配置与操作要点（简要）

八、最近更新与演进

九、实际应用场景与案例方向

十、社区、支持与许可

十一、快速从零到成片的路径回顾

十二、附加图片与可视化资源

十三、总结与展望

Enjoying this project?

GitHub - AIDC-AI/Pixelle-Video: Pixelle-Video: AI Fully Automated Short Video Engine

Stay Updated

Product

Learn

Company

Legal

Stay Updated

Browse by Category