Pixelle-Video: AI Fully Automated Short Video Engine
Pixelle-Video: AI 全自动短视频引擎——让视频创作变成一句话的事
把一个简单的主题输入到 Pixelle-Video,便能自动完成从文案到成品视频的完整流程。该引擎以模块化、可扩展的设计为核心,结合多种 AI 模型、图像/视频生成、语音合成以及合成音乐,帮助创作者在零门槛条件下快速产出高质量的视频内容。下面,我们带你走进这套系统的方方面面,从原理到实操,从功能亮点到快速上手,一起探究它如何把复杂的短视频制作过程大幅简化。
一、核心理念与价值
Pixelle-Video 的核心在于把“主题驱动的自动化视频创作”落地为可操作的工作流。它的口号很简单却强大:只需输入一个主题,系统即可完成文案撰写、AI 配图/视频生成、语音解说、背景音乐添加以及最终的视频合成,几乎无需剪辑经验。该工具把创作过程拆解为若干模块,每个模块都可替换、组合,形成自定义化的工作流,满足不同风格和需求。
- 全自动生成:只需提供主题,自动完成文案、配图、视频、解说、音乐、合成等步骤
- AI 智能文案:基于主题自动撰写解说词,省去自己撰写脚本的麻烦
- AI 生成配图与视频:每句话都可配上 AI 生成的插画和动态视频
- 高度灵活的音视频组合:支持多语言 TTS、不同风格模板、可调整的视频尺寸
- 原子能力的灵活组合:基于 ComfyUI 架构,既有预设工作流,也可自定义替换模型与参数
为了更直观地理解其工作方式,Pixelle-Video 提供了一个可视化的 Web 界面预览,帮助用户在浏览器中查看整体流程和各个参数的调整效果。
二、系统概览与架构要点
- 模块化流程:文案生成 → 配图规划 → 逐帧处理 → 视频合成
- 多模型并行:支持 GPT 系列、通义千问、DeepSeek、Ollama 等大语言模型,以及各类图像/视频生成模型(如 WAN 2.1 等)
- 图像与视频生成:本地部署的 ComfyUI 工作流或云端 RunningHub 工作流
- 语音与音乐:Edge-TTS、Index-TTS 等主流 TTS 方案,支持背景音乐(BGM)与自定义音乐
- 视觉风格与尺寸:多模板、竖屏/横屏/方形尺寸灵活切换
- 自适应工作流:可替换生图模型、替换 TTS 系统,形成“从脚本到成片”的个性化流水线
在视觉上,系统通过一个三栏式 Web 界面将输入、处理与输出分离,用户可以在左侧输入文本或选择固定文案,中间调整语音与视觉设置,右侧触发生成并查看进度与成品。
三、功能亮点一览
Pixelle-Video 的功能设计覆盖从创意到成片的全链路,确保创作体验顺畅、高效、可追溯:
- 全自动生成
- 输入主题,系统自动产出完整视频
- AI 智能文案
- 基于主题创作解说词,省去手动撰写的环节
- AI 生成配图
- 为每句话配上高质量的 AI 插图,提升视觉冲击力
- AI 生成视频
- 支持使用 AI 视频生成模型创建动态内容
- AI 生成语音
- 支持 Edge-TTS、Index-TTS 等主流 TTS 方案,满足不同语气与语音风格
- 背景音乐
- 内置背景音乐或上传自定义 BGM,增强情感表达
- 视觉风格
- 多模板可选,快速确立视频的风格基调
- 尺寸灵活性
- 支持竖屏、横屏及方形等多种尺寸以适配不同平台
- 多种 AI 模型
- 支持 GPT、通义千问、DeepSeek、Ollama 等主流模型
- 原子能力组合
- 基于 ComfyUI 架构,可使用预置工作流,也可自定义替换模型/流程(如替换生图模型为 FLUX、替换 TTS 为 ChatTTS 等)
四、视频生成流程:从文案到成片
Pixelle-Video 将视频制作过程拆解为清晰的四步并提供可定制的工作流:
1) 文案生成
- 根据主题自动创作解说词与叙事结构
- 支持多语言与不同文风的文本生成 2) 配图规划
- 依据文本分句规划相应的图像或视频片段
- 选择合适的图像生成工作流,以确保风格统一 3) 逐帧处理
- 将文本与图像/视频内容逐帧组合,生成初步的画面序列
- 支持跨模型切换和风格微调 4) 视频合成
- 将解说、画面、音乐等整合为最终视频
- 生成完成后自动进行预览、导出与存储
这一流程的核心优势在于高度的可定制性:你可以为不同阶段选择不同的 AI 模型、图像生成流、文本风格以及 TTS 方案,从而获得与众不同的最终效果。
五、界面与快速体验
Pixelle-Video 的 Web 界面提供直观的三栏布局,方便用户在同一页面上完成输入、设置与生成:
- 左侧输入区
- 生成模式:AI 生成内容(自动撰稿)或固定文案内容(直接使用现成文案)
- 内容输入:主题、子主题、要点等
- 背景音乐设置:无 BGM、内置音乐、或自定义音乐
- 中央设置区
- 语音设置(TTS 工作流、参考音频上传与试听)
- 视觉设置(图像生成工作流、分辨率、提示词前缀、风格测试)
- 右侧生成区
- 生成按钮与实时进度显示
- 生成完成后的视频预览、时长和文件信息
- 输出目录为 output/
为了帮助新用户快速上手,开发团队还提供了一个网页预览图,帮助理解实际界面的布局与操作路径。
六、可用的开发与部署路径
Pixelle-Video 提供两种安装路径,覆盖从快速试用到本地深度定制的场景:
- Windows 一键整合包(推荐 Windows 用户)
- 无需自行安装 Python、uv、ffmpeg 等依赖
- 一键解压、双击 start.bat 即可启动 Web 界面
- 浏览器自动打开 http://localhost:8501
- 在系统配置中填写 LLM/API Key 及图像生成服务设定
- 使用简单,适合快速体验与小型项目
- 从源码安装(适用于 macOS / Linux 或需要高度定制的用户)
- 依赖快速安装与配置
- 需预先安装 uv(用于服务端)与 ffmpeg
- 详细步骤包括:
- 克隆仓库并进入项目目录
- 使用 uv 运行 Streamlit 应用
- 在首次启动时配置 LLM 与图像生成服务(本地 ComfyUI 或云端 RunningHub)
- 优点在于灵活性与可控性,方便自建工作流或替换组件
前提依赖要点包括:
- uv:用于运行 Streamlit、管理工作流
- ffmpeg:视频处理与编解码
- Python 环境与必要的包管理工具
如果你熟悉 ComfyUI,可以将自定义工作流放到 workflows/ 文件夹中,像添加新的生图模型、替换 TTS 流程等,进一步扩展系统能力。
七、系统配置与操作要点(简要)
首次使用时,需要在系统配置面板中完成以下设置:
- LLM 配置
- 选择模型(如通义千问、GPT-4o、DeepSeek 等)并填入 API Key
- 也可使用快速预设,随后自动填充 base_url 与 model
- 图像配置
- 本地部署优先:ComfyUI URL(默认 http://127.0.0.1:8188)与连接测试
- 云端部署:RunningHub API Key
- 内容输入与生成模式
- AI 生成内容:输入主题,系统自动创作文案
- 固定文案内容:直接粘贴完整文案,跳过自动创作
- 语音设置(中间栏)
- 选择 TTS 工作流(Edge-TTS、Index-TTS 等),系统会自动扫描 workflows/
- 可上传参考音频用于声音克隆
- 预览功能:输入测试文本并试听
- 视觉设置(中间栏)
- 图像生成工作流:本地 selfhost 或云端 RunningHub
- 图像尺寸:设置宽高,默认 1024x1024
- 提示词前缀(Prompt Prefix):用于控制风格(需英文描述)
- 预览风格:测试不同风格的效果
- 模板:选择竖屏、横屏等模板,并可点击预览调整参数
- 生成视频(右侧栏)
- 点击“🎬 生成视频”即可触发
- 实时进度展示:分镜、配图、解说、合成等阶段
- 生成完成后自动预览,输出文件位于 output/
八、最近更新与演进
项目团队持续迭代,最近几次更新聚焦稳定性、并发性与模板化能力。以下是部分更新要点,展示了该系统在不断完善中的方向:
- 2026-01-26:新增“动作迁移”模块,支持上传参考视频和图片以实现动作迁移
- 2026-01-14:新增“数字人口播”和“图生视频”流水线,增加多语言 TTS 语音选项
- 2026-01-06:RunningHub 48G显存机器调用支持
- 2025-12-28:RunningHub 并发限制可配置,优化 LLM 返回结构化数据的逻辑
- 2025-12-17:支持 ComfyUI API Key 配置,支持 Nano Banana 模型调用,API 接口支持模板自定义参数
- 2025-12-10:侧边栏内置 FAQ,锁定 edge-tts 版本修复 TTS 稳定性问题
- 2025-12-08:支持固定脚本多种分割方式(段落/行/句子),优化模板选择交互逻辑并支持直接预览
- 2025-12-06:修复视频生成 API 返回 URL 路径处理,跨平台兼容性增强
- 2025-12-05:新增 Windows 整合包下载,优化图片与视频反推工作流
- 2025-12-04:新增“自定义素材”功能,允许用户上传照片和视频,AI 自动分析生成脚本
- 2025-11-18:优化 RunningHub 服务调用并发处理,新增历史记录页面,支持批量创建视频任务
这些更新展现出 Pixelle-Video 如何从单一主题出发,通过不断增强的工作流和更丰富的模型支持,提升创作灵活性与生产效率。
九、实际应用场景与案例方向
以下是该工具在不同风格与主题上的应用潜力,帮助读者理解其广泛适配性:
- 数字口播与讲解视频
- 使用数字人口播模板、韩语或其他语言的人声合成,创造“数字主播”风格的视频
- 图生视频与卡通场景
- 根据文本描述生成插画及对应视频片段,适合科普、故事讲解、教育内容
- 动作迁移与真实感增强
- 将上传的参考视频和图片用于动作迁移,创作具有特定动作风格的短片
- 竖屏短视频的高效产出
- 针对社媒平台(如短视频平台)设计的竖屏模板,快速产出可直接发布的内容
- 历史、科普、文学解说
- 以固定模板或自定义模板呈现,以清晰叙事和可视化材料讲解复杂概念
无论你是个人创作者、教育机构、还是内容工作室,Pixelle-Video 都能以“主题驱动”的方式,降低制作门槛,缩短从创意到成片的时间。
十、社区、支持与许可
- 社区与支持
- 官方提供社区入口,帮助用户获取最新动态与技术支持
- 给开发者与使用者留出反馈渠道,持续改进产品
- 许可
- 本项目采用 Apache 2.0 许可证,允许自由使用、修改与分发
你也可以通过仓库页面获取更多文档、示例与模板资源,以探索不同场景下的应用组合。
- 参考资源与模板示例
- 参考项目包括 Pixelle-MCP、ComfyUI MCP 服务器等相关工具,帮助 AI 助手调用本地或远端工作流
- 其他优秀开源工具如 MoneyPrinterTurbo、NarratoAI、MoneyPrinterPlus、ComfyKit 等也对 Pixelle-Video 的设计提供了灵感
十一、快速从零到成片的路径回顾
- 一键体验(Windows 用户)
- 下载 Windows 一键整合包
- 解压并运行 start.bat
- 浏览器打开本地地址,进入 Web 界面
- 配置 LLM 与图像生成服务,开始生成
- 自定义部署(进阶用户)
- 安装 uv、ffmpeg、Python 等依赖
- 通过 git 克隆源码,启动 Web 服务
- 配置本地/云端的 LLM 与图像生成工作流,个性化自定义
两条路径都指向同一个目标:在极短时间内完成一个完整、可发布的视频作品。
十二、附加图片与可视化资源
- Web 界面预览与布局示意
- Web UI 界面图片
- 社区入口图示
- 微信群二维码:微信交流群图片
- Discord 社区:Discord 社区图片
请注意:在正式发布环境中使用时,请确保图片资源路径可访问,或将图片放置在你的部署环境中对应的位置。
十三、总结与展望
Pixelle-Video 通过将短视频创作流程拆解为可控的模块,提供了一套“输入一个主题就能自动完成全流程”的解决方案。它不仅降低了技术门槛,也为创作者提供了高度可定制的工作流选项:从 LLM 模型的选择、到图像/视频生成模型、再到 TTS 与音乐风格的调整,都可以按需替换和组合。这种原子能力的灵活组合,使得同一个主题可以产生多种不同风格的成片,进一步激发创作的可能性。
未来,随着更多模板、工作流与模型的接入,Pixelle-Video 的创作边界将不断扩展。它不仅是一个工具,更是一座桥梁,连接文字、图像、声音与视频的创造力。无论你是初学者还是资深内容创作者,使用这套引擎,都能把“写一个主题”变成“一句话就完成”的体验。
如果你对这套系统感兴趣,欢迎查看文档、参与社区讨论,并尝试在 Windows 整合包或源码环境中亲自体验。让我们一起用 AI 的力量,把创意变成可分享的视觉故事。
Enjoying this project?
Discover more amazing open-source projects on TechLogHub. We curate the best developer tools and projects.
Repository:https://github.com/AIDC-AI/Pixelle-Video
GitHub - AIDC-AI/Pixelle-Video: Pixelle-Video: AI Fully Automated Short Video Engine
Pixelle-Video: AI 全自动短视频引擎——让视频创作变成一句话的事. 把一个简单的主题输入到 Pixelle-Video,便能自动完成从文案到成品视频的完整流程....
github - aidc-ai/pixelle-video