AI播客牛逼

为了方便自己上下班开车的时候有书可以听，研究了一套全程使用AI来制作拆书播客的方法。纯科技，不含任何人工。顺便一提就连这篇文章的封面也是纯AI的。

用notebooklm生成音频概览

谷歌旗下的产品notebooklm具有“生成音频概览”的功能，其实就是生成一段两个主持人根据上传的文档内容进行对谈的播客，点击对应按钮右侧的“>”键还可以进一步输入提示词，对生成内容的长度、语言、内容进行设置。但问题在于这个功能仅仅对于英语用户而言体验比较好。如果你愿意生成英文播客，生成时长里可选短、中、长，但你如果选择中文播客，就只能选择短、中两项了。中型长度大概20分钟，可能在一些场景下是够用的，但是像是我的用法，上传一本电子书来生成读书播客，那20分钟就不够用了。

那有没有解决方法？有的兄弟有的，很自然能想到，既然一段音频时间有限、能讲的内容有限，比如说一段音频只能覆盖三分之一本书，那我做三段音频再给连起来，那不就覆盖了整本书了吗。在这个基础上，我们提前做好大纲，给整段博客设置好结构（比如说总分总），设置好每一个模块要让这一段音频讲什么内容，在这个大纲的基础上再写每一个模块分别的提示词。就像这样：

请生成一段播客讨论。两位主持人正在深入探讨 Michael Forster 的《黑格尔〈精神现象学〉的构想》。本段作为系列播客的第一集，重点是‘总括’。请概述全书的核心工作和任务，提到forster打算通过这本书来如何理解黑格尔的精神现象学。语气要像是一个长篇专题节目的开场，预告接下来我们将分章节深入探讨全书的五个部分，包括官方方案、官方方案的延续、历史主义、元现象学、后期态度。请使用中文，保持专业且富有洞察力的对谈风格。结尾处请留下一句引导性的伏笔，以便衔接下一段关于黑格尔写作精神现象学官方方案的讨论。
请生成一段播客讨论。两位主持人继续深入探讨 Michael Forster 论黑格尔的著作，作为系列播客的第二集。本段的重点是黑格尔写作《精神现象学》的官方方案，包括科学导论、教化任务、认识论任务和形而上学任务。请详细展开书中关于这一点的具体论证（参考书中第一部分的内容）。注意：不要做开场白，直接以‘在上一次讨论完基础框架后，我们现在来聊聊一个更核心的问题……’开始。结尾处请留下一句引导性的伏笔，以便衔接下一段关于“官方方案的延续：精神现象学与黑格尔科学的关系”的讨论。请使用中文。
请生成一段播客讨论。两位主持人继续深入探讨 Michael Forster 论黑格尔的著作，作为系列播客的第三集。本段的重点是黑格尔写作《精神现象学》的官方方案的延续，也即精神现象学与黑格尔整个科学体系的关系的问题，包括三个部分：精神现象学作为黑格尔科学之显现、精神现象学独立于黑格尔科学，以及精神现象学被扬弃为黑格尔科学。请详细展开书中关于这一点的具体论证（参考书中第二部分的内容）。注意：不要做开场白，直接以‘在上一次讨论完第一部分后，我们现在来聊聊另一个核心的问题……’开始。结尾处请留下一句引导性的伏笔，以便衔接下一段关于“精神现象学中的历史于历史主义”的讨论。请使用中文。
这是关于 Michael Forster 论黑格尔著作系列讨论播客的收尾部分。请总结全书。主持人应表达出一种‘经过深度阅读后的豁然开朗感’。结尾请正式向听众告别。请使用中文。

这个提示词用法就是在生成音频概览按钮右侧的“>”键上点一下然后在弹出的文本框里输入对应的内容。但问题在于：这个提示词是怎么来的？尤其是做播客有可能要处理一些还没读过的书，我怎么知道这本书应该拆解成几个部分，每个部分是什么关键词？这里最简单的方法当然是不用看书的内容，对着目录就可以直接开始编了，照着上面我给的提示词范例对着把每一章都写个一段就行。

但是有的书没有特别严格的一级标题、二级标题的划分，一看目录就是直接二十章，那做播客总不能做二十个20分钟的音频再拼起来吧。那肯定得找关键词，比如说第一章到第五章对应一个关键词，到时候直接让notebooklm根据一到五章生成音频就行……但问题是，这个法子只能在读过书之后才能行得通，但我要是看过书了我还要AI播客干什么呢，我直接侃不也行吗？

用Gemini来写提示词

其实解决方法也是有的，既然自己没读过书，概括不出来关键词，那么让AI替我读不就行了吗。

得益于谷歌打通了生态，这么搞其实还是比较方便的。在gemini网页版里，点击提交附件的按钮，可以直接把notebooklm里的一个笔记本作为一个附件加入。直接附上notebooklm的一个笔记本之后，就可以直接问gemini关于notebooklm里上传过的电子书的内容了。

第一步要求gemini阅读这个电子书，生成一个大纲。我写的提示词是这个：我要以这本书为题材做一个播客，因为notebooklm生成的长度限制，为此我需要把内容切成总分总结构的若干部分，最后组合起来，形成一个完整的播客。请阅读notebooklm中的这个epub电子书，为我形成一个可以用来生成播客的大纲或框架。

第二步则是把我前面上面发的那个提示词复制一份给gemini，要求他仿照这个提示词，根据前面的大纲，也写一份在notebooklm上用的提示词出来。

封面与转场音乐

得益于谷歌AI的多模态功能，生成播客的封面图和转场音乐都可以由谷歌包办，但问题在于：我怎么知道我要让gemini生成什么样的图片或者音乐呢？

因为前面把notebooklm里的笔记本直接作为附件提交给了gemini了，这个时候gemini是知道这本书讲了什么的，自然也是知道这本书的封面和音效应该是什么样的。因此，直接问他就行。直接问如果我需要在gemini上给这本书生成转场音乐，我应该怎么写提示词。之前做的黑格尔的这本，AI给出的提示词写法是：

“请使用 Lyria 3 生成一段 15 秒的音乐，作为哲学播客的转场音效。风格为极简主义新古典主义，由深沉的大提琴独奏和轻微的钢琴高音组成。情绪应该是沉思的、螺旋上升的，类似于辩证法的思维过程。不要人声，只要乐器。不要太激昂，要平稳且具有空间感。”

这个肯定是根据书的内容定的，不能无脑复制套用，也就是黑格尔题材的书才这么写提示词，如果换个人那就不适合这么写提示词了——所以这个提示词就该让AI来写啊

播客文章封面的提示词也是同理的，让AI来写提示词就行。

人有人的用处

那有人就要问了：主播主播，你把AI说的这么厉害，那要你还有什么用啊。怎么在你这里是纯粹用AI来操作AI，活人就起了个最后把相关素材一股脑拖进剪映的工作啊。

首先，我要纠正一点：哪怕是素材拖进剪映其实也不是必须的，这一步是可以靠ffmpeg脚本来实现的，我用剪映单纯是因为不用脑子。

其次，人的能做而AI不能做的事情在这里其实就有一项：那就是给谷歌充钱。不给谷歌充钱，notebooklm大概一天只能生成三条音频概览吧，做播客真不够用的。