Whisper App
扫码查看

语音笔记录制与AI文本转换工具

Whisper App

综合介绍

Whisper App 是一个开源的Web应用程序,主要功能是让用户通过声音记录笔记,然后利用人工智能技术对这些语音记录进行处理。用户可以上传音频文件,程序会使用Whisper模型将其转换成文字。转换完成后,用户还可以选择使用大语言模型(LLM)对文本进行二次加工,例如生成摘要、提取关键信息等。这个项目整合了多项云服务和技术,为开发者提供了一套完整的部署和运行方案,也为普通用户提供了一个直接可用的在线服务。整个应用的前端、后端、数据库和文件存储等环节都采用了当前流行的技术栈,并且项目代码在GitHub上开放,允许任何人进行克隆和二次开发。

功能列表

  • 用户认证系统:通过Clerk服务提供完整的用户注册和登录功能。
  • 音频文件上传:支持用户上传本地的音频文件,并将其存储在云端(AWS S3)。
  • 自动语音转录:上传的音频文件会自动通过Together.ai提供的Whisper模型进行识别,生成高精度的文字记录。
  • AI文本转换:转录生成的文本可以被发送给大语言模型(LLM),进行多种形式的再处理,比如内容摘要、要点提取、格式整理等。
  • 仪表盘管理:提供一个用户仪表盘,用户可以在其中查看和管理自己所有的语音转录历史记录。
  • 开源和可定制:项目完全开源,并提供了详细的自行部署指南,开发者可以克隆代码,搭建属于自己的服务。

使用帮助

Whisper App既是一个可以直接使用的在线工具,也是一个可以自行部署的开源项目。下面将分别介绍作为普通用户如何使用,以及作为开发者如何部署和运行。

作为普通用户使用

对于不想进行任何技术配置的普通用户,可以直接访问其官方网站来使用。操作流程非常简单直观:

  1. 创建账户:访问官方网站 https://www.usewhisper.io/,点击注册按钮。网站使用Clerk进行用户管理,你可以通过邮箱或社交媒体账号快速创建一个账户并登录。
  2. 上传音频文件:登录后,你会看到一个简洁的仪表盘界面。点击“上传”或类似的按钮,从你的电脑中选择一个想要转录的音频文件。
  3. 自动转录:文件上传后,系统会自动开始处理。音频会被发送到后端的Whisper模型进行分析和转录。这个过程需要一些时间,具体时长取决于音频文件的长度和当前服务器的负载情况。
  4. 查看和管理转录稿:转录完成后,你会在仪表盘中看到生成的文本。你可以直接复制文本内容。
  5. (可选)使用AI转换文本:在查看转录稿的页面,通常会有一个“转换”或“AI处理”之类的选项。点击后,你可以输入指令,让AI帮你总结这段文本、提取出关键任务、或者转换成一篇短文等。
  6. 管理历史记录:所有转录过的内容都会保存在你的账户仪表盘中,方便随时回来查看、复制或删除。

作为开发者部署

如果你是开发者,并且希望自己搭建这个应用,或者想在此基础上进行二次开发,你可以按照以下步骤在本地或服务器上运行它:

第一步:准备工作(获取API密钥)

部署之前,你需要注册以下几个平台的账户,以获取运行项目所必需的API密钥和服务。

  1. Together AI: 用于提供Whisper模型和LLM服务。你需要注册账户并获取API密钥。
  2. AWS (Amazon Web Services): 用于S3对象存储,存放用户上传的音频文件。你需要创建一个S3存储桶(Bucket)并获取访问凭证。
  3. Upstash: 提供Redis服务,主要用于API的速率限制,防止滥用。
  4. Neon: 提供PostgreSQL数据库服务,用于存储用户信息和转录数据。
  5. Clerk: 用于用户认证和管理。你需要创建一个应用并获取对应的API密钥。
  6. Vercel: 项目推荐的托管和部署平台,可以与Next.js无缝集成。

第二步:克隆和配置项目

  1. 克隆代码库:打开你的终端,使用git命令将项目代码从GitHub克隆到本地。
    git clone https://github.com/Nutlope/whisper.git
    
  2. 安装依赖:进入项目目录,并使用pnpm包管理器安装所有必需的依赖项。
    cd whisper
    pnpm install
    
  3. 配置环境变量:项目中有一个名为 .example.env 的文件,这是环境变量的模板。你需要复制这个文件,并将其重命名为 .env
    cp .example.env .env
    

    然后,用文本编辑器打开新建的 .env 文件,将第一步中你从各个服务平台获取到的API密钥和相关配置信息,一一填入对应的变量中。这个文件包含了所有外部服务的连接凭证,是项目成功运行的关键。

第三步:运行项目

完成以上所有配置后,你就可以在本地启动这个应用了。

  1. 启动开发服务器:在项目根目录运行以下命令:
    pnpm run dev
    
  2. 访问应用:终端会显示应用正在本地运行,并提供一个访问地址,通常是 http://localhost:3000。在你的浏览器中打开这个地址,你就可以看到和你自己部署的Whisper App一模一样的界面了。你可以进行注册、上传、转录等所有操作,所有数据都将存储在你自己配置的数据库和S3存储桶中。

应用场景

  1. 会议记录整理开完一场重要的会议后,可以将会议录音上传。应用会自动将语音内容转换成文字,方便快速搜索和回顾会议要点。还可以使用AI摘要功能,直接生成会议纪要,省去手动整理的麻烦。
  2. 课堂笔记和讲座录音学生或研究人员可以录下课程或讲座的音频。之后通过该工具转换成文本,就可以得到一份完整的文字稿,便于复习和引用,而无需在听课时费力地手写每一个字。
  3. 内容创作者视频博主或播客主播可以上传他们的音频素材,快速生成字幕稿。这不仅可以提高视频制作效率,生成的文本也方便用于博客文章或其他书面内容的创作。
  4. 记者和作家在进行采访或灵感涌现时,可以使用录音设备记录。之后,将录音文件转为文字,可以大大加快稿件的撰写速度,确保不会遗漏任何对话细节。

QA

  1. 这个项目和OpenAI官方的Whisper有什么不同?OpenAI的Whisper是一个开源的语音识别模型。而这个项目(Whisper App)是一个完整的、可以直接使用的Web应用程序。它在后端集成了Whisper模型(通过Together.ai的服务)来进行语音转录,并在此基础上增加了用户管理、文件上传、文本后处理(LLM)和数据显示等功能,提供了一个完整的用户体验流程。
  2. 使用这个应用是否免费?该项目本身是开源的,意味着你可以免费下载代码并自己部署。但自行部署需要依赖多个第三方云服务(如AWS S3、Neon数据库等),这些服务本身可能有免费额度,超出部分则需要付费。如果你使用官方网站提供的服务,可能也会有免费和付费的套餐计划。
  3. 为什么需要注册这么多平台的账户才能部署?这是一个功能相对完整的Web应用,而不是单一的脚本。它将不同的功能模块解耦,并依赖专业的云服务来实现,例如:Clerk专门负责用户认证,AWS S3专门负责文件存储,Neon专门负责数据库。这种架构使得应用更稳定、更具扩展性,但同时也要求开发者在使用前分别配置好这些依赖的服务。
  4. 转录的准确度如何?转录的准确度取决于其后端使用的Whisper模型。Whisper是目前业界公认的、准确度非常高的语音识别模型之一,尤其在处理英语时表现优异,对其他语言的支持也相当不错。在背景噪音较小、发音清晰的情况下,转录的准确率会非常高。
微信微博Email复制链接