AI 做 PPT：第一眼惊艳，第二眼劝退

"给我搞个PPT生成的"

"kimi太糖了"

前几天，朋友在微信上甩来这么两句。

我当时正在刷公众号，刚好看到扣子空间出了个PPT功能，就顺手把链接甩给他了。

几分钟后，他发来一张生成的PPT长图："非常顺我心意，但好多字。"

我点开一看，第一反应是：卧槽，这也太好看了吧？

古风水墨画配色，杜甫的形象，诗词内容排版得错落有致。比我见过的大多数AI PPT都要精致。

然后我仔细看了两眼文字内容。

就不对劲了。

逻辑不通，句子断得奇怪，有些地方文字虽然"长得是对的"，但拼起来完全没逻辑。

那种感觉就像AI学会了模仿PPT的"样子"，但完全没理解PPT到底在讲什么。

我对目前这个程度只能给一个评价：玩具。

好看的玩具。

但这事让我想聊聊AI做PPT这件事，因为我研究这个方向还挺久的。

去年亚马逊有个用Amazon Q做项目的比赛（Kiro发布前的产品），我们当时想做的就是一个AI PPT产品。

结果呢？只做到大纲生成部分就放弃了，最后走到了Top 100，但作品没能做出来。

其实AI做PPT这件事，压根不是一条路，而是四条。

AI PPT的四种流派

我自己总结了一下，目前主流的AI PPT生成方式大概有这么四种：

第一种：模板填充派

用大模型生成大纲和文字，然后把内容塞进预设的PPT模板里。

这是最早的AI PPT玩法。优点是可编辑、模板好看，符合大多数人对PPT的认知。

缺点嘛，一眼AI。模板就那几套，文字和版式经常对不上，图片还得自己配。

说白了就是"换皮游戏"，皮是好看的，但撑不起真正的汇报场景。

第二种：组件拼装派

让大模型直接操作文本框、图片、各种组件，像搭积木一样拼出PPT。

理论上自由度很高，可以插视频、图表，不会有模板的违和感。

问题是，AI搭出来的东西经常空空的、奇形怪状，页面也没法保持统一风格。

第三种：HTML代码派

用大模型写HTML代码，生成一页页slide，再组装成PPT。

这条路的美观度其实挺高的，风格也可以很多样。

但成本高，需要理解代码才能调整，而且生成的PPT一股"代码味"，稍微熟悉的人一眼就能看出来。

我之前一度觉得这是最有前途的路线。

因为我真拿这种方法生成的ppt演讲过

第四种：图生大模型派

直接用图像生成模型画出每一页PPT。

这是最近才火起来的新玩法，扣子空间、Kimi、秘塔AI搜索都在做。

优点是真的好看，美观度碾压前三种，有时候甚至能以假乱真。

缺点也很明显：没法编辑。AI画出来的是一张图，不是真正的PPT文件。想改个字？抱歉，重新生成吧。

扣子空间：惊艳3秒后的真相

回到开头那个场景。

扣子空间用的就是第四种路线，图生大模型。

我得承认，第一眼确实惊艳到我了。配色、排版、装饰元素，都比传统AI PPT好太多。

但仔细看内容，问题就来了：

文字逻辑是乱的。比如标题写着"文化传承"，下面的内容却在讲诗人生平，完全对不上。

AI似乎只是在模仿"PPT长什么样"，而不是在理解"PPT要讲什么"。

扣子空间也提供了编辑功能，可以改文字、擦除内容、插入图片什么的。

但局限性没法避免。插入的文字和AI生成的文字风格不统一，图片也只是往上面堆叠，谈不上真正的编辑。

所以我说它是"玩具"，是好看的玩具，但没法真正拿去汇报用。

对大多数需要严肃使用PPT的人来说，目前的完成度可能还差点意思。

那谁做得最好？

要说图生PPT里效果最好的，还得是NotebookLM。

之前也写过一篇它的介绍，它的生成效果比扣子空间强不少，文字逻辑更通顺，内容和标题能对得上，视觉风格也更统一。

除了中文文字还是会有一些小小的不对劲。

真不知道他们提示词怎么写的。

最后

我最开始觉得HTML转PPT是最有前途的方向。

现在我改变想法了。图生大模型也许才是正途。

因为它解决了AI PPT最难的问题：怎么让生成的东西"好看"。

美观这件事，用规则和模板搞不定。只有图像生成模型，才能真正理解什么叫"设计感"。

至于"没法编辑"的问题，我相信随着技术发展会慢慢解决。

也许下一步就是AI生成图之后，再用另一个AI把图里的元素"拆"成可编辑的组件？

我知道现在Lovart，这个艺术Agent倒是在干这个事，能将图片的各个元素分离，文字也分离并且能够进行编辑。

有空的话可以去试一试。

未来AI PPT怎么样，谁知道呢。

(原稿)AI 做 PPT：第一眼惊艳，第二眼劝退

AI 做 PPT：第一眼惊艳，第二眼劝退

AI PPT的四种流派

扣子空间：惊艳3秒后的真相

那谁做得最好？

最后