AI 做 PPT:第一眼惊艳,第二眼劝退
"给我搞个PPT生成的"
"kimi太糖了"

前几天,朋友在微信上甩来这么两句。
我当时正在刷公众号,刚好看到扣子空间出了个PPT功能,就顺手把链接甩给他了。
几分钟后,他发来一张生成的PPT长图:"非常顺我心意,但好多字。"

我点开一看,第一反应是:卧槽,这也太好看了吧?
古风水墨画配色,杜甫的形象,诗词内容排版得错落有致。比我见过的大多数AI PPT都要精致。

然后我仔细看了两眼文字内容。
就不对劲了。
逻辑不通,句子断得奇怪,有些地方文字虽然"长得是对的",但拼起来完全没逻辑。
那种感觉就像AI学会了模仿PPT的"样子",但完全没理解PPT到底在讲什么。
我对目前这个程度只能给一个评价:玩具。
好看的玩具。
但这事让我想聊聊AI做PPT这件事,因为我研究这个方向还挺久的。
去年亚马逊有个用Amazon Q做项目的比赛(Kiro发布前的产品),我们当时想做的就是一个AI PPT产品。
结果呢?只做到大纲生成部分就放弃了,最后走到了Top 100,但作品没能做出来。
其实AI做PPT这件事,压根不是一条路,而是四条。
AI PPT的四种流派
我自己总结了一下,目前主流的AI PPT生成方式大概有这么四种:
第一种:模板填充派
用大模型生成大纲和文字,然后把内容塞进预设的PPT模板里。

这是最早的AI PPT玩法。优点是可编辑、模板好看,符合大多数人对PPT的认知。
缺点嘛,一眼AI。模板就那几套,文字和版式经常对不上,图片还得自己配。
说白了就是"换皮游戏",皮是好看的,但撑不起真正的汇报场景。
第二种:组件拼装派
让大模型直接操作文本框、图片、各种组件,像搭积木一样拼出PPT。

理论上自由度很高,可以插视频、图表,不会有模板的违和感。
问题是,AI搭出来的东西经常空空的、奇形怪状,页面也没法保持统一风格。
第三种:HTML代码派
用大模型写HTML代码,生成一页页slide,再组装成PPT。

这条路的美观度其实挺高的,风格也可以很多样。
但成本高,需要理解代码才能调整,而且生成的PPT一股"代码味",稍微熟悉的人一眼就能看出来。
我之前一度觉得这是最有前途的路线。
因为我真拿这种方法生成的ppt演讲过
第四种:图生大模型派
直接用图像生成模型画出每一页PPT。

这是最近才火起来的新玩法,扣子空间、Kimi、秘塔AI搜索都在做。
优点是真的好看,美观度碾压前三种,有时候甚至能以假乱真。
缺点也很明显:没法编辑。AI画出来的是一张图,不是真正的PPT文件。想改个字?抱歉,重新生成吧。
扣子空间:惊艳3秒后的真相
回到开头那个场景。
扣子空间用的就是第四种路线,图生大模型。
我得承认,第一眼确实惊艳到我了。配色、排版、装饰元素,都比传统AI PPT好太多。
但仔细看内容,问题就来了:
文字逻辑是乱的。比如标题写着"文化传承",下面的内容却在讲诗人生平,完全对不上。
AI似乎只是在模仿"PPT长什么样",而不是在理解"PPT要讲什么"。
扣子空间也提供了编辑功能,可以改文字、擦除内容、插入图片什么的。

但局限性没法避免。插入的文字和AI生成的文字风格不统一,图片也只是往上面堆叠,谈不上真正的编辑。
所以我说它是"玩具",是好看的玩具,但没法真正拿去汇报用。
对大多数需要严肃使用PPT的人来说,目前的完成度可能还差点意思。
那谁做得最好?
要说图生PPT里效果最好的,还得是NotebookLM。
之前也写过一篇它的介绍,它的生成效果比扣子空间强不少,文字逻辑更通顺,内容和标题能对得上,视觉风格也更统一。
除了中文文字还是会有一些小小的不对劲。
真不知道他们提示词怎么写的。
最后
我最开始觉得HTML转PPT是最有前途的方向。
现在我改变想法了。图生大模型也许才是正途。
因为它解决了AI PPT最难的问题:怎么让生成的东西"好看"。
美观这件事,用规则和模板搞不定。只有图像生成模型,才能真正理解什么叫"设计感"。
至于"没法编辑"的问题,我相信随着技术发展会慢慢解决。
也许下一步就是AI生成图之后,再用另一个AI把图里的元素"拆"成可编辑的组件?
我知道现在Lovart,这个艺术Agent倒是在干这个事,能将图片的各个元素分离,文字也分离并且能够进行编辑。
有空的话可以去试一试。
未来AI PPT怎么样,谁知道呢。
