(原稿)AI 做 PPT:第一眼惊艳,第二眼劝退

(原稿)AI 做 PPT:第一眼惊艳,第二眼劝退

AI 做 PPT:第一眼惊艳,第二眼劝退

"给我搞个PPT生成的"

"kimi太糖了"

前几天,朋友在微信上甩来这么两句。

我当时正在刷公众号,刚好看到扣子空间出了个PPT功能,就顺手把链接甩给他了。

几分钟后,他发来一张生成的PPT长图:"非常顺我心意,但好多字。"

我点开一看,第一反应是:卧槽,这也太好看了吧?

古风水墨画配色,杜甫的形象,诗词内容排版得错落有致。比我见过的大多数AI PPT都要精致。

然后我仔细看了两眼文字内容。

就不对劲了。

逻辑不通,句子断得奇怪,有些地方文字虽然"长得是对的",但拼起来完全没逻辑。

那种感觉就像AI学会了模仿PPT的"样子",但完全没理解PPT到底在讲什么。

我对目前这个程度只能给一个评价:玩具。

好看的玩具。

但这事让我想聊聊AI做PPT这件事,因为我研究这个方向还挺久的。

去年亚马逊有个用Amazon Q做项目的比赛(Kiro发布前的产品),我们当时想做的就是一个AI PPT产品。

结果呢?只做到大纲生成部分就放弃了,最后走到了Top 100,但作品没能做出来。

其实AI做PPT这件事,压根不是一条路,而是四条。

AI PPT的四种流派

我自己总结了一下,目前主流的AI PPT生成方式大概有这么四种:

第一种:模板填充派

用大模型生成大纲和文字,然后把内容塞进预设的PPT模板里。

这是最早的AI PPT玩法。优点是可编辑、模板好看,符合大多数人对PPT的认知。

缺点嘛,一眼AI。模板就那几套,文字和版式经常对不上,图片还得自己配。

说白了就是"换皮游戏",皮是好看的,但撑不起真正的汇报场景。

第二种:组件拼装派

让大模型直接操作文本框、图片、各种组件,像搭积木一样拼出PPT。

理论上自由度很高,可以插视频、图表,不会有模板的违和感。

问题是,AI搭出来的东西经常空空的、奇形怪状,页面也没法保持统一风格。

第三种:HTML代码派

用大模型写HTML代码,生成一页页slide,再组装成PPT。

这条路的美观度其实挺高的,风格也可以很多样。

但成本高,需要理解代码才能调整,而且生成的PPT一股"代码味",稍微熟悉的人一眼就能看出来。

我之前一度觉得这是最有前途的路线。

因为我真拿这种方法生成的ppt演讲过

第四种:图生大模型派

直接用图像生成模型画出每一页PPT。

这是最近才火起来的新玩法,扣子空间、Kimi、秘塔AI搜索都在做。

优点是真的好看,美观度碾压前三种,有时候甚至能以假乱真。

缺点也很明显:没法编辑。AI画出来的是一张图,不是真正的PPT文件。想改个字?抱歉,重新生成吧。

扣子空间:惊艳3秒后的真相

回到开头那个场景。

扣子空间用的就是第四种路线,图生大模型。

我得承认,第一眼确实惊艳到我了。配色、排版、装饰元素,都比传统AI PPT好太多。

但仔细看内容,问题就来了:

文字逻辑是乱的。比如标题写着"文化传承",下面的内容却在讲诗人生平,完全对不上。

AI似乎只是在模仿"PPT长什么样",而不是在理解"PPT要讲什么"。

扣子空间也提供了编辑功能,可以改文字、擦除内容、插入图片什么的。

但局限性没法避免。插入的文字和AI生成的文字风格不统一,图片也只是往上面堆叠,谈不上真正的编辑。

所以我说它是"玩具",是好看的玩具,但没法真正拿去汇报用。

对大多数需要严肃使用PPT的人来说,目前的完成度可能还差点意思。

那谁做得最好?

要说图生PPT里效果最好的,还得是NotebookLM。

之前也写过一篇它的介绍,它的生成效果比扣子空间强不少,文字逻辑更通顺,内容和标题能对得上,视觉风格也更统一。

除了中文文字还是会有一些小小的不对劲。

真不知道他们提示词怎么写的。

最后

我最开始觉得HTML转PPT是最有前途的方向。

现在我改变想法了。图生大模型也许才是正途。

因为它解决了AI PPT最难的问题:怎么让生成的东西"好看"。

美观这件事,用规则和模板搞不定。只有图像生成模型,才能真正理解什么叫"设计感"。

至于"没法编辑"的问题,我相信随着技术发展会慢慢解决。

也许下一步就是AI生成图之后,再用另一个AI把图里的元素"拆"成可编辑的组件?

我知道现在Lovart,这个艺术Agent倒是在干这个事,能将图片的各个元素分离,文字也分离并且能够进行编辑。

有空的话可以去试一试。

未来AI PPT怎么样,谁知道呢。