Whisper App

2025-07-23AI音频 / 语音转文字1296 次浏览

综合介绍

Whisper App 是一个开源的Web应用程序，主要功能是让用户通过声音记录笔记，然后利用人工智能技术对这些语音记录进行处理。用户可以上传音频文件，程序会使用Whisper模型将其转换成文字。转换完成后，用户还可以选择使用大语言模型（LLM）对文本进行二次加工，例如生成摘要、提取关键信息等。这个项目整合了多项云服务和技术，为开发者提供了一套完整的部署和运行方案，也为普通用户提供了一个直接可用的在线服务。整个应用的前端、后端、数据库和文件存储等环节都采用了当前流行的技术栈，并且项目代码在GitHub上开放，允许任何人进行克隆和二次开发。

功能列表

用户认证系统：通过Clerk服务提供完整的用户注册和登录功能。
音频文件上传：支持用户上传本地的音频文件，并将其存储在云端（AWS S3）。
自动语音转录：上传的音频文件会自动通过Together.ai提供的Whisper模型进行识别，生成高精度的文字记录。
AI文本转换：转录生成的文本可以被发送给大语言模型（LLM），进行多种形式的再处理，比如内容摘要、要点提取、格式整理等。
仪表盘管理：提供一个用户仪表盘，用户可以在其中查看和管理自己所有的语音转录历史记录。
开源和可定制：项目完全开源，并提供了详细的自行部署指南，开发者可以克隆代码，搭建属于自己的服务。

使用帮助

Whisper App既是一个可以直接使用的在线工具，也是一个可以自行部署的开源项目。下面将分别介绍作为普通用户如何使用，以及作为开发者如何部署和运行。

作为普通用户使用

对于不想进行任何技术配置的普通用户，可以直接访问其官方网站来使用。操作流程非常简单直观：

创建账户：访问官方网站 https://www.usewhisper.io/，点击注册按钮。网站使用Clerk进行用户管理，你可以通过邮箱或社交媒体账号快速创建一个账户并登录。
上传音频文件：登录后，你会看到一个简洁的仪表盘界面。点击“上传”或类似的按钮，从你的电脑中选择一个想要转录的音频文件。
自动转录：文件上传后，系统会自动开始处理。音频会被发送到后端的Whisper模型进行分析和转录。这个过程需要一些时间，具体时长取决于音频文件的长度和当前服务器的负载情况。
查看和管理转录稿：转录完成后，你会在仪表盘中看到生成的文本。你可以直接复制文本内容。
（可选）使用AI转换文本：在查看转录稿的页面，通常会有一个“转换”或“AI处理”之类的选项。点击后，你可以输入指令，让AI帮你总结这段文本、提取出关键任务、或者转换成一篇短文等。
管理历史记录：所有转录过的内容都会保存在你的账户仪表盘中，方便随时回来查看、复制或删除。

作为开发者部署

如果你是开发者，并且希望自己搭建这个应用，或者想在此基础上进行二次开发，你可以按照以下步骤在本地或服务器上运行它：

第一步：准备工作（获取API密钥）

部署之前，你需要注册以下几个平台的账户，以获取运行项目所必需的API密钥和服务。

Together AI: 用于提供Whisper模型和LLM服务。你需要注册账户并获取API密钥。
AWS (Amazon Web Services): 用于S3对象存储，存放用户上传的音频文件。你需要创建一个S3存储桶（Bucket）并获取访问凭证。
Upstash: 提供Redis服务，主要用于API的速率限制，防止滥用。
Neon: 提供PostgreSQL数据库服务，用于存储用户信息和转录数据。
Clerk: 用于用户认证和管理。你需要创建一个应用并获取对应的API密钥。
Vercel: 项目推荐的托管和部署平台，可以与Next.js无缝集成。

第二步：克隆和配置项目

克隆代码库：打开你的终端，使用git命令将项目代码从GitHub克隆到本地。
```
git clone https://github.com/Nutlope/whisper.git
```
安装依赖：进入项目目录，并使用pnpm包管理器安装所有必需的依赖项。
```
cd whisper
pnpm install
```
配置环境变量：项目中有一个名为 .example.env 的文件，这是环境变量的模板。你需要复制这个文件，并将其重命名为 .env。
```
cp .example.env .env
```
然后，用文本编辑器打开新建的 .env 文件，将第一步中你从各个服务平台获取到的API密钥和相关配置信息，一一填入对应的变量中。这个文件包含了所有外部服务的连接凭证，是项目成功运行的关键。

第三步：运行项目

完成以上所有配置后，你就可以在本地启动这个应用了。

启动开发服务器：在项目根目录运行以下命令：
```
pnpm run dev
```
访问应用：终端会显示应用正在本地运行，并提供一个访问地址，通常是 http://localhost:3000。在你的浏览器中打开这个地址，你就可以看到和你自己部署的Whisper App一模一样的界面了。你可以进行注册、上传、转录等所有操作，所有数据都将存储在你自己配置的数据库和S3存储桶中。

应用场景

会议记录整理开完一场重要的会议后，可以将会议录音上传。应用会自动将语音内容转换成文字，方便快速搜索和回顾会议要点。还可以使用AI摘要功能，直接生成会议纪要，省去手动整理的麻烦。
课堂笔记和讲座录音学生或研究人员可以录下课程或讲座的音频。之后通过该工具转换成文本，就可以得到一份完整的文字稿，便于复习和引用，而无需在听课时费力地手写每一个字。
内容创作者视频博主或播客主播可以上传他们的音频素材，快速生成字幕稿。这不仅可以提高视频制作效率，生成的文本也方便用于博客文章或其他书面内容的创作。
记者和作家在进行采访或灵感涌现时，可以使用录音设备记录。之后，将录音文件转为文字，可以大大加快稿件的撰写速度，确保不会遗漏任何对话细节。

QA

这个项目和OpenAI官方的Whisper有什么不同？OpenAI的Whisper是一个开源的语音识别模型。而这个项目（Whisper App）是一个完整的、可以直接使用的Web应用程序。它在后端集成了Whisper模型（通过Together.ai的服务）来进行语音转录，并在此基础上增加了用户管理、文件上传、文本后处理（LLM）和数据显示等功能，提供了一个完整的用户体验流程。
使用这个应用是否免费？该项目本身是开源的，意味着你可以免费下载代码并自己部署。但自行部署需要依赖多个第三方云服务（如AWS S3、Neon数据库等），这些服务本身可能有免费额度，超出部分则需要付费。如果你使用官方网站提供的服务，可能也会有免费和付费的套餐计划。
为什么需要注册这么多平台的账户才能部署？这是一个功能相对完整的Web应用，而不是单一的脚本。它将不同的功能模块解耦，并依赖专业的云服务来实现，例如：Clerk专门负责用户认证，AWS S3专门负责文件存储，Neon专门负责数据库。这种架构使得应用更稳定、更具扩展性，但同时也要求开发者在使用前分别配置好这些依赖的服务。
转录的准确度如何？转录的准确度取决于其后端使用的Whisper模型。Whisper是目前业界公认的、准确度非常高的语音识别模型之一，尤其在处理英语时表现优异，对其他语言的支持也相当不错。在背景噪音较小、发音清晰的情况下，转录的准确率会非常高。