画面感
Visual First
优先用低成本传达画面+文字。用户可以直接从想象中的场景开始创作
妙创 · 设计论述 / 2026 · wesliang
AI时代创作流:迸发灵感,落笔文本,定格画面,转动态视频。然而,我们仍然在小输入框里跟提示词较劲。我开始思考一种对视频创作者更友好的交互探索。这是一次对创作流程的迭代尝试。
Background · 背景
随着大模型能力快速提升,AI 已经能够自动生成剧本、角色、分镜和视频。然而,受限于模型成本/LLM沟通GAP,我们不得不花时间在每个步骤古法手作,参与校对和矫正(尤其生视频前)。
用户必须先把脑海中的想法转译成文字,再用文字驱动 AI 生成内容。我创作时,也总是苦与理解文本,想象抽象的画面。
The Overlooked Conflict · 被忽视的矛盾
先阅读左边的文字,你对脑海里有对应的画面了吗?
Problem · 问题定义
于我而言,如果没有画面做锚点,故事想象就会像无根的浮萍,难以落地。
Cognitive Translation Cost
认知翻译成本
想法在「画面 → 文字 → 画面」的反复转译中被不断稀释。
Thesis · 主张
自动生成连贯画面,图并茂地串联故事,直接进入画面编辑。
Design Principles · 设计原则
Visual First
优先用低成本传达画面+文字。用户可以直接从想象中的场景开始创作
Direct Manipulation
以分镜为操作锚点,减少 Prompt 依赖
Coherence
考虑构建故事结构的起承转合
Solution · Demo1

用户获得一个可视化的故事结构,如导演桌上的分镜卡片。
Interaction · Demo2

所见即所得,改的是故事节奏本身
Coherence · Demo3

连贯镜头聚散有度,既保持叙事衔接,又给足控制感
Validation · 价值
基于自己做短片创意测试的实测感受——真正减掉的是脑内画面 ↔ 文字 ↔ 画面之间的反复翻译。
Before
体感耗时
一个想法折腾一下午
大量时间花在来回对齐
After
体感耗时
粗稿验证约 1 小时
视频生成仍是重工序
Reflection · 小小的思考
AI 在激发创意上永远超乎意料。
很多人都在思考下一步的创作方式是什么样子。
以上只是我对脑海中画面表达的理解:如何更自然地定位想象起点。
也许新的交互范式可能更接近导演的创作方式。
因为人们
从来不是用文字做梦的。
Behind the Scene · Vibe Coding