Decentralization? We're still early!

Gemini“故事书”功能:用AI创作图文并茂的有声读物

  • Gemini“故事书”功能:用AI创作图文并茂的有声读物

    發布人 Brave 2025-08-06 15:14

    近期,谷歌为其人工智能助手Gemini增添了一项富有想象力与创造力的新功能——“故事书”(Storybook)。这项功能允许用户通过简单的文字描述,就能快速生成一本配有精美插图和语音朗读的10页个性化数字故事书,将每个人的奇思妙想变为现实。

    “故事书”功能旨在服务于所有年龄段的用户,无论是为孩子创作睡前故事的父母,还是希望将个人回忆以新颖方式记录下来的成年人,都能通过它轻松实现。 

    核心功能与亮点

    1. 一键生成完整故事书: 用户只需在Gemini中输入故事的构想,例如“创作一个关于害羞的恐龙学习跳舞,并且它最爱吃鱼的故事”,AI便会自动生成一个包含封面和10页内容的完整故事。整个过程通常仅需一分钟左右。

    2. 深度个性化定制: 为了让故事更具个人色彩,用户可以上传自己的照片、文件,甚至是孩子的画作,让Gemini从中汲取灵感,创作出独一无二的故事内容和插图。无论是将家庭旅行的经历变成一场奇幻冒险,还是让孩子的涂鸦作品“活”起来,都得以实现。

    3. 丰富的艺术风格选择: “故事书”功能提供了多种艺术风格供用户选择,包括像素艺术、漫画、黏土动画、钩针编织以及涂色书风格等,极大地丰富了故事的视觉表现力。

    4. 配备语音朗读功能: 生成的故事书不仅有文字和图画,还整合了谷歌的文字转语音(Text-to-Speech)技术,提供生动的语音朗读。 用户甚至可以选择不同音调的声音,为亲子共读或个人聆听增添更多乐趣。

    5. 多语言支持与轻松分享: 该功能现已在全球范围内同步上线,支持超过45种语言,包括简体中文。创作完成的故事书可以生成一个公开链接,方便与家人朋友分享,也可以下载用于打印,实现线下阅读。

    背后的技术支撑

    “故事书”功能的实现,是谷歌多项先进人工智能技术整合应用的体现。其背后主要依赖三大核心技术:

    • 强大的大型语言模型 (LLM): Gemini模型负责理解用户的指令,创作出连贯且富有创意的故事文本,并生成用于图像创作的提示词。
    • 先进的文生图模型: 依据Gemini生成的提示词,先进的图像生成模型(外界推测可能为Imagen 3或类似技术)负责绘制出符合故事内容和风格的插图。
    • 自然流畅的文字转语音 (TTS) 技术: 该技术将故事文本转化为自然的人声,为故事书增添了听觉维度。

    如何使用

    用户可以在桌面端或移动设备上通过Gemini应用或其官网(gemini.google.com)访问“故事书”功能。只需在聊天框中描述你的故事想法,Gemini便会引导你完成创作过程。在生成的过程中,用户还可以通过左侧的聊天窗口对故事内容和插画风格进行调整。

    这项新功能极大地降低了内容创作的门槛,让每个人都能成为自己故事的作者和插画师。虽然谷歌也提醒,该功能仍处于实验阶段,生成的内容可能存在一些不完美之处,但它无疑为AI辅助创意表达开辟了新的可能性。

    Brave 回复 1 week, 3 days ago 1 成員 · 0 回复
  • 0 回复

歡迎留言回复交流。

Log in to reply.

讨论開始
00 回复 2018 年 6 月
現在