昆仑万维推出全球首款 AI 短剧平台 SkyReels,「一人一剧」时代来临
- 2024-08-20 09:26:00
- admin 原创
- 162
「 我们应该放下固化和抵抗的思维,拥抱这个碎片化信息时代。 」 2023 年 12 月初,导演黄建新在北京电影学院北影大讲堂上感慨,比起电影,竖屏短剧兴起才真正形成了全球输出。
几分钟到十几分钟的单集 时长、强烈的娱乐性和快节奏剧情 ,频繁 踩中用户 「爽点」,短短三年 (到 2023 年),中国 短剧市场就达到了年度院 线电影 票房的七成。
与此同时, 大量短剧独立 APP 全球上线,中文在线的短剧软件 ReelShort 在美国 iOS 排行榜上表现优异,甚至超越了 长期霸榜的 TikTok, 实现 破圈。
短剧已成为近年增长最快的影视领域之一,也成为新技术的试验场。 「 一键翻译 」 、 「 AI 换脸」 屡见不鲜,多家网文公司还发布可以辅助作者写作的内容生成大模型。借助 AI 大模型视频生成能力,以往三个月的短剧制作时间现在只需要半个月。
AI 创作的短视频片段,一经发布就能获得百万流量的加持,但一部 AI 全流程短剧制作还面临不少挑战。创作者需要在 ChatGPT、Midjourney、Runway、Eleven Labs、ComfyUi、Adobe、剪映等多个 AI 工具间反复 「横跳」,作品效果仍差强人意。
在这样的背景下,拥有十多年出海经验的中国人工智能科技企业昆仑万维推出了世界首个 AI 短剧平台 SkyReels——一个集成视频大模型与 3D 大模型的 AI 短剧平台。 这不仅是国产大模型在短剧领域的成功落地,也预示着 「 一键成剧 」 、 「 一人一剧 」 时代来临。
同时,这一革命性的工具有望带来 AI 短剧用户生成内容( UGC )与专业用户生成内容( PUGC )的爆发式增长,推动短剧内容创作与消费市场的进一步快速增长。
一、认识 SkyReels ——全球首款 AI 短剧平台
SkyReels产品操作Demo
打开 SkyReels 网页,立刻感到 「AI 短剧 」与其他 「 AI 创意 」平台的设计,很不一样。
都是由 AI 驱动,但 「 AI 创意 」平台以图片、视频生成为主,SkyReels 则集剧本生成、角色定制、分镜设计、视频拍摄与合成于一体, 完整复制了短剧工业化流程。
SkyReels 集故事创意、剧本生成、角色定制、分镜设计、视频拍摄与合成于一体, 完整复制了短剧工业化流程。
短剧收视不 「扑 」,首先得有好创意,并将它具象成一个爽文剧本,这是最重要的。
虽说文本创作是大语言模型 LLM 的舒适区,SkyReels 的不同之处在于负责文本创作的大模型受过专业训练,更懂怎么写出有 「 爽点 」、带流量的剧本。
只要输入一个概念或故事创意,点击 「创作类型 」, 比如情感剧,系统会自动生成一份符合要求的剧本,结构完整、情节丰富。
用户也可以上传现成的剧本,让 AI 帮忙润色、优化,提升剧本的专业度和可读性。
系统会根据创意提示自动生成一份符合要求的剧本,还会摘要出所涉人物小传,为后面的角色设计做准备。
剧本有了 ,接下来就该 「物色演员 」,在 SkyReels 上,这个环节叫角色设计。
通常,我们会先让 LLM 写设计文本,再扔到 Midjourney 等文生图工具,生成角色形象。要给角色添加配音,还要继续召唤 Elevenlabs 等音频工具。
现在,只需进入页面输入相应要求(包括角色配音),即可 「一键生成 」角色,大大提升了制作效率。
只需进入页面输入相应要求(包括角色配音),即可一键生成角色。
进入拍摄之前,除了物色演员,导演还要制作分镜。 所谓分镜,主要是将整个故事分解成一系列连续的画面,每个画面都代表一个特定的场景或动作。
吉卜力工作室的《千与千寻》分镜图。
没有美术背景的导演,要在绘画师的帮助下完成分镜设计,非常麻烦。现在,他们可以让 LLM 生成分镜头的文字脚本,再用 Midjourney 等工具画出分镜图。
但是,这种方法的弊端也明显,很难保证角色、场景的前后一致性。比如,央视 AI 频道上线的 AI 全流程微短剧《女娲》中,女娲每次出现,长得都不太一样,好像有几个女娲。
在 SkyReels 上,AI 会根据剧本内容,一键生成分镜图片和对应的文字脚本,仅需等待 1-2 分钟即可查看每个镜头的效果。不满意,还能通过修改文字(如场景或人物动作),调整分镜效果。
更重要的是,在自研技术支持下,分镜图片不仅高清、细节丰富,角色、场景在不同分镜中都能保持一致性和连续性。
AI 会根据剧本内容,一键生成分镜图片和对应的文字脚本。
分镜设计好了、演员就位后,就要进入 「 实拍 」阶段。 目前,AI 影视发展最大的瓶颈也在这里,因为能用的好 「 摄像机 」 太少。
常见做法是用 Pika、Runway 生成动态效果,但槽点很多。 比如, 画质糟糕、角色动作幅度小甚至不合理(吃面问题),还容易出现场景不一致,有时车辆在运动但车轮不转,水流时水花在动水面却是静止的。 人物说话口型对不上,表情也僵硬。
通过 AI 3D 引擎与视频大模型的结合,SkyReels 能将分镜自动转换为连续视频,生成的场景和人物更加生动、一致,还支持 1080P 60 帧视频输出,煲剧体验也有保障。
另外,单次可生成视频长度达 180 秒,相比 Sora 单次可生成 60 秒视频、可灵单次可生成 10 秒视频,有显著突破。
SkyReels能将分镜图自动转换为连续视频。
最后,所有流程成果可一键整合,快速生成最终短剧。AI 还会根据剧本题材与具体场景生成并推荐合适的背景音乐和音效,用户也仅需一键添加。
背景音乐和音效也可一键添加。
支持一键导出成片,并可一键发布至抖音等社交媒体平台。
支持角色设计的一键分享。
二、 「 一键成剧 」背后,三层技术创新
三层技术创新,如三根支柱,支棱起 SkyReels 「 一键成剧 」:
自研剧本大模型 SkyScript、自研分镜大模型 StoryboardGen,以及业界首个将 AI 3D 引擎与视频大模型深度融合的创新平台 WorldEngine。
剧本大模型 SkyScript 负责拿捏短剧的 「 灵魂 」——剧本。 事实上,不仅是剧本,文本大模型也是整个创作流程的支撑。
有些微短剧编剧尝试过利用 ChatGPT 生成剧本,但发现最终的结果缺乏情感张力和剧情变化,只是堆砌了一些平面的文字。昆仑万维构建了亿级的高质量短剧结构化数据集 SkyScript-100M ,该数据集针对海量精彩短剧的剧情节奏、爽点、情绪变化进行了高质量标注,专为剧本创作而生。
SkyScript剧本大模型技术原理图
SkyScript剧本大模型的分镜脚本生成原理。
比如,除了从海量数据中学习创作的基本原理和通用模式,要爆款,还要摸清一些百试不爽的 「套路 」。 观众往往对快节奏、强烈冲突、悬念迭起、多次反转的剧情设计有明显偏好;逆袭改命、霸总娇妻、豪门宅斗、穿越重生、吸血鬼、狼人等主题,也是百看不厌。
ReelShort爆款短剧《The Double Life of My Billionaire Husband》为先婚后爱,单集约1分30秒,截至第12集左右,男女主在密集的剧情交集中,迅速完成了感情升温,且涵盖了恶毒女配、契约婚姻、英雄救美、 财产争夺等情节。来自国海证券中国短剧出海深度报告。
通 过精心标注的故事中能引起观众强烈兴趣的 「爽点 」 ,如主角外貌、镜头构图、贯穿人物表达的情绪, SkyScript 学会了关注并生成这些细节。
在模型架构上,为了确保生成内容的专业度和可控性, SkyScript 也采用了多智能体框架。 透过 「 创意人 」 、 「 选角导演 」 、 「 编剧 」 、 「 小说作者 」 、 「 导演 」 等智能体的协作,模仿工业制作流程,完成剧本创作。
剧本大模型 SkyScript 的质量评估情况。
短剧,说到底,是一种视觉语言的呈现,因此,另外两层创新—— 分镜 StoryboardGen、 WorldEngine —— 聚焦短剧的 「血肉 」,也就是拍摄。
和 SkyScript 一样,自研分镜大模型 StoryboardGen 也接受了真实世界中高质量、专业分镜实例训练,专为分镜设计而生,也与通用类图像生成模型拉开了距离。
同样,基于多智能体框架,将分镜的不同元素(场景、镜头、角色、动作等)分解为多个智能体来处理,大大增强了分镜制作过程中的可控性和一致性。
分镜大模型 StoryboardGen 的技术原理图。类似于电影拍摄、动画制作,基于多智能体框架的 StoryboardGen 将整体流程分解成了多个 agent,每个 agent 负责某个专项能力,增强分镜制作过程中的可控性和一致性。
假设有一个剧本,里面描述了一个场景,比如一个人在公园里散步。
LLM Planner 会先把这个剧本拆解成两部分。
其中,全局描述( global prompt ): 「一个人在阳光明媚的公园里散步 」;
局部描述( local prompt ): 「这个人是中年男性,穿着休闲装,手里拿着咖啡杯,步伐悠闲。 」
在生成环节,不同智能体各司其职,如场景智能体根据全局描述生成公园的背景、布局等;角色智能体根据局部描述生成男性角色的形象和动作。
最后由 Storyboard 智能体将这些生成的内容整合起来,根据所有的描述信息和条件,生成最终的分镜图。
分镜大模型 StoryboardGen 质量评估情况。
除了可控和一致性,为了让分镜画面更具表现力,StoryboardGen 还大幅提升了画面的复杂程度和细节精度。
如,StoryboardGen 采用了基于 DiT 的渐进式生成框架,通过多次修改和完善来创作最终的图像。相比传统的一次性生成模型,这种框架能够充分利用中间过程产生的信息,生成质量更高、视觉效果更丰富的分镜。
第三层技术创新是一个创新平台 World Engine ,在业界率先将 3D 生成技术与视频生成技术,通过图层融合等方式,无缝衔接在一起,相当于为创作者提供了一部强大的「摄影机」甚至「影棚」。
WorldEngine 结合了 引擎的精确可控能力(如光照模拟、物理模拟、3D 空间、实时交互等) 以及 AI 视频大模型的幻想生成能力,提供了全新的线上混合视频创作模式,让视频创作从模糊生成迈向更加精确可控。
假设你正在制作一个场景,一只皮卡丘在喷泉下玩得很开心,可以让 Sky3DGen 创造出精确的喷泉场景;同时让视频大模型生成逼真的皮卡丘。
我们知道,Sora 等视频大模型可以轻而易举地生成游戏引擎难以匹敌的、几乎真实的效果,并且充满想象力,但它们不懂物理世界,无法准确模拟一些最基本的物理交互,如玻璃破碎、吃面等。
而游戏引擎的优势在于其对现实物理规律的精准模拟。通过复杂的数学模型,它能创造出时空连贯、符合客观规律的虚拟环境,不仅确保了渲染结果的一致性和可预测性,还展现了对三维空间的深刻理解。
作为中国最大的游戏开发和运营企业之一,昆仑万维自研 Sky3DGen 大模型,并与视频大模型「优势互补」,为创造者提供了一种全新的混合创作模式,也就不算意外。
在 SkyReels 上 ,你可以变化出各种 3D 场景和造型,甚至人物表演。
3D 道具视频生成案例