Gemini“故事书”功能：用AI创作图文并茂的有声读物

人工智能研究

Gemini“故事书”功能：用AI创作图文并茂的有声读物

發布人 Brave 2025-08-06 15:14
目录
核心功能与亮点
背后的技术支撑
如何使用
近期，谷歌为其人工智能助手Gemini增添了一项富有想象力与创造力的新功能——“故事书”（Storybook）。这项功能允许用户通过简单的文字描述，就能快速生成一本配有精美插图和语音朗读的10页个性化数字故事书，将每个人的奇思妙想变为现实。
“故事书”功能旨在服务于所有年龄段的用户，无论是为孩子创作睡前故事的父母，还是希望将个人回忆以新颖方式记录下来的成年人，都能通过它轻松实现。
核心功能与亮点
1. 一键生成完整故事书: 用户只需在Gemini中输入故事的构想，例如“创作一个关于害羞的恐龙学习跳舞，并且它最爱吃鱼的故事”，AI便会自动生成一个包含封面和10页内容的完整故事。整个过程通常仅需一分钟左右。
2. 深度个性化定制: 为了让故事更具个人色彩，用户可以上传自己的照片、文件，甚至是孩子的画作，让Gemini从中汲取灵感，创作出独一无二的故事内容和插图。无论是将家庭旅行的经历变成一场奇幻冒险，还是让孩子的涂鸦作品“活”起来，都得以实现。
3. 丰富的艺术风格选择: “故事书”功能提供了多种艺术风格供用户选择，包括像素艺术、漫画、黏土动画、钩针编织以及涂色书风格等，极大地丰富了故事的视觉表现力。
4. 配备语音朗读功能: 生成的故事书不仅有文字和图画，还整合了谷歌的文字转语音（Text-to-Speech）技术，提供生动的语音朗读。用户甚至可以选择不同音调的声音，为亲子共读或个人聆听增添更多乐趣。
5. 多语言支持与轻松分享: 该功能现已在全球范围内同步上线，支持超过45种语言，包括简体中文。创作完成的故事书可以生成一个公开链接，方便与家人朋友分享，也可以下载用于打印，实现线下阅读。
背后的技术支撑
“故事书”功能的实现，是谷歌多项先进人工智能技术整合应用的体现。其背后主要依赖三大核心技术：
- 强大的大型语言模型 (LLM): Gemini模型负责理解用户的指令，创作出连贯且富有创意的故事文本，并生成用于图像创作的提示词。
- 先进的文生图模型: 依据Gemini生成的提示词，先进的图像生成模型（外界推测可能为Imagen 3或类似技术）负责绘制出符合故事内容和风格的插图。
- 自然流畅的文字转语音 (TTS) 技术: 该技术将故事文本转化为自然的人声，为故事书增添了听觉维度。
如何使用
用户可以在桌面端或移动设备上通过Gemini应用或其官网（gemini.google.com）访问“故事书”功能。只需在聊天框中描述你的故事想法，Gemini便会引导你完成创作过程。在生成的过程中，用户还可以通过左侧的聊天窗口对故事内容和插画风格进行调整。
这项新功能极大地降低了内容创作的门槛，让每个人都能成为自己故事的作者和插画师。虽然谷歌也提醒，该功能仍处于实验阶段，生成的内容可能存在一些不完美之处，但它无疑为AI辅助创意表达开辟了新的可能性。
Brave 回复 7 months, 2 weeks ago 1 成員 · 0 回复
0 回复

歡迎留言回复交流。

登入後即可回复

人工智能研究

組織者:

Gemini“故事书”功能：用AI创作图文并茂的有声读物

Gemini“故事书”功能：用AI创作图文并茂的有声读物

核心功能与亮点

背后的技术支撑

如何使用

认识基地

基础设施

加入基地

支持基地

共建基地

探索基地

人工智能研究

組織者:

Gemini“故事书”功能：用AI创作图文并茂的有声读物

Gemini“故事书”功能：用AI创作图文并茂的有声读物

核心功能与亮点

背后的技术支撑

如何使用

认识基地

基础设施

加入基地

支持基地

共建基地

探索基地

Connect Wallet