Featured image of post AI播客牛逼

AI播客牛逼

黑暗启蒙已经崛起

为了方便自己上下班开车的时候有书可以听,研究了一套全程使用AI来制作拆书播客的方法。纯科技,不含任何人工。顺便一提就连这篇文章的封面也是纯AI的。

用notebooklm生成音频概览

谷歌旗下的产品notebooklm具有“生成音频概览”的功能,其实就是生成一段两个主持人根据上传的文档内容进行对谈的播客,点击对应按钮右侧的“>”键还可以进一步输入提示词,对生成内容的长度、语言、内容进行设置。但问题在于这个功能仅仅对于英语用户而言体验比较好。如果你愿意生成英文播客,生成时长里可选短、中、长,但你如果选择中文播客,就只能选择短、中两项了。中型长度大概20分钟,可能在一些场景下是够用的,但是像是我的用法,上传一本电子书来生成读书播客,那20分钟就不够用了。

那有没有解决方法?有的兄弟有的,很自然能想到,既然一段音频时间有限、能讲的内容有限,比如说一段音频只能覆盖三分之一本书,那我做三段音频再给连起来,那不就覆盖了整本书了吗。在这个基础上,我们提前做好大纲,给整段博客设置好结构(比如说总分总),设置好每一个模块要让这一段音频讲什么内容,在这个大纲的基础上再写每一个模块分别的提示词。就像这样:

  • 请生成一段播客讨论。两位主持人正在深入探讨 Michael Forster 的《黑格尔〈精神现象学〉的构想》。本段作为系列播客的第一集,重点是‘总括’。请概述全书的核心工作和任务,提到forster打算通过这本书来如何理解黑格尔的精神现象学。语气要像是一个长篇专题节目的开场,预告接下来我们将分章节深入探讨全书的五个部分,包括官方方案、官方方案的延续、历史主义、元现象学、后期态度。请使用中文,保持专业且富有洞察力的对谈风格。结尾处请留下一句引导性的伏笔,以便衔接下一段关于黑格尔写作精神现象学官方方案的讨论。
  • 请生成一段播客讨论。两位主持人继续深入探讨 Michael Forster 论黑格尔的著作,作为系列播客的第二集。本段的重点是黑格尔写作《精神现象学》的官方方案,包括科学导论、教化任务、认识论任务和形而上学任务。请详细展开书中关于这一点的具体论证(参考书中第一部分的内容)。注意:不要做开场白,直接以‘在上一次讨论完基础框架后,我们现在来聊聊一个更核心的问题……’开始。结尾处请留下一句引导性的伏笔,以便衔接下一段关于“官方方案的延续:精神现象学与黑格尔科学的关系”的讨论。请使用中文。
  • 请生成一段播客讨论。两位主持人继续深入探讨 Michael Forster 论黑格尔的著作,作为系列播客的第三集。本段的重点是黑格尔写作《精神现象学》的官方方案的延续,也即精神现象学与黑格尔整个科学体系的关系的问题,包括三个部分:精神现象学作为黑格尔科学之显现、精神现象学独立于黑格尔科学,以及精神现象学被扬弃为黑格尔科学。请详细展开书中关于这一点的具体论证(参考书中第二部分的内容)。注意:不要做开场白,直接以‘在上一次讨论完第一部分后,我们现在来聊聊另一个核心的问题……’开始。结尾处请留下一句引导性的伏笔,以便衔接下一段关于“精神现象学中的历史于历史主义”的讨论。请使用中文。
  • 这是关于 Michael Forster 论黑格尔著作系列讨论播客的收尾部分。请总结全书。主持人应表达出一种‘经过深度阅读后的豁然开朗感’。结尾请正式向听众告别。请使用中文。

这个提示词用法就是在生成音频概览按钮右侧的“>”键上点一下然后在弹出的文本框里输入对应的内容。但问题在于:这个提示词是怎么来的?尤其是做播客有可能要处理一些还没读过的书,我怎么知道这本书应该拆解成几个部分,每个部分是什么关键词?这里最简单的方法当然是不用看书的内容,对着目录就可以直接开始编了,照着上面我给的提示词范例对着把每一章都写个一段就行。

但是有的书没有特别严格的一级标题、二级标题的划分,一看目录就是直接二十章,那做播客总不能做二十个20分钟的音频再拼起来吧。那肯定得找关键词,比如说第一章到第五章对应一个关键词,到时候直接让notebooklm根据一到五章生成音频就行……但问题是,这个法子只能在读过书之后才能行得通,但我要是看过书了我还要AI播客干什么呢,我直接侃不也行吗?

用Gemini来写提示词

其实解决方法也是有的,既然自己没读过书,概括不出来关键词,那么让AI替我读不就行了吗。

得益于谷歌打通了生态,这么搞其实还是比较方便的。在gemini网页版里,点击提交附件的按钮,可以直接把notebooklm里的一个笔记本作为一个附件加入。直接附上notebooklm的一个笔记本之后,就可以直接问gemini关于notebooklm里上传过的电子书的内容了。

第一步要求gemini阅读这个电子书,生成一个大纲。我写的提示词是这个:我要以这本书为题材做一个播客,因为notebooklm生成的长度限制,为此我需要把内容切成总分总结构的若干部分,最后组合起来,形成一个完整的播客。请阅读notebooklm中的这个epub电子书,为我形成一个可以用来生成播客的大纲或框架。

第二步则是把我前面上面发的那个提示词复制一份给gemini,要求他仿照这个提示词,根据前面的大纲,也写一份在notebooklm上用的提示词出来。

封面与转场音乐

得益于谷歌AI的多模态功能,生成播客的封面图和转场音乐都可以由谷歌包办,但问题在于:我怎么知道我要让gemini生成什么样的图片或者音乐呢?

因为前面把notebooklm里的笔记本直接作为附件提交给了gemini了,这个时候gemini是知道这本书讲了什么的,自然也是知道这本书的封面和音效应该是什么样的。因此,直接问他就行。直接问如果我需要在gemini上给这本书生成转场音乐,我应该怎么写提示词。之前做的黑格尔的这本,AI给出的提示词写法是:

“请使用 Lyria 3 生成一段 15 秒的音乐,作为哲学播客的转场音效。风格为极简主义新古典主义,由深沉的大提琴独奏轻微的钢琴高音组成。情绪应该是沉思的、螺旋上升的,类似于辩证法的思维过程。不要人声,只要乐器。不要太激昂,要平稳且具有空间感。”

这个肯定是根据书的内容定的,不能无脑复制套用,也就是黑格尔题材的书才这么写提示词,如果换个人那就不适合这么写提示词了——所以这个提示词就该让AI来写啊

播客文章封面的提示词也是同理的,让AI来写提示词就行。

人有人的用处

那有人就要问了:主播主播,你把AI说的这么厉害,那要你还有什么用啊。怎么在你这里是纯粹用AI来操作AI,活人就起了个最后把相关素材一股脑拖进剪映的工作啊。

首先,我要纠正一点:哪怕是素材拖进剪映其实也不是必须的,这一步是可以靠ffmpeg脚本来实现的,我用剪映单纯是因为不用脑子。

其次,人的能做而AI不能做的事情在这里其实就有一项:那就是给谷歌充钱。不给谷歌充钱,notebooklm大概一天只能生成三条音频概览吧,做播客真不够用的。

Licensed under CC BY-NC-SA 4.0
comments powered by Disqus
使用 Hugo 构建
主题 StackJimmy 设计