macOS · 语音录入

SpeakMore

按住快捷键,自然说话,松开——文字实时流入任意文本框。基于云端 AI 的 macOS 语音录入,具备上下文感知,零本地依赖。

前往 GITHUB 查看 ↗

SpeakMore 是一款轻量级 macOS 菜单栏应用,通过云端多模态 AI 模型将语音转为文字。与传统语音识别工具将"语音识别"和"文本优化"分成两步不同,SpeakMore 将音频直接发送给多模态 AI 模型,一步到位完成识别、标点、格式化和专业术语处理。文字实时流入你正在使用的任意文本框——无论是代码编辑器、邮件客户端、聊天应用还是文档。SpeakMore 还会捕捉你当前的应用、窗口标题和文档路径等上下文信息,加上对你语音模式的短期和长期记忆,随着使用逐渐适应你的词汇和写作风格。

核心功能

为自然语音录入而生

01

一步到位 AI 管道

音频直接发送给多模态 AI 模型——没有单独的语音识别和文本优化步骤。模型在一次调用中完成转录、标点、格式化和专业术语处理,更快更准。

02

实时流式插入

文字在生成的同时直接流入当前焦点文本框——通过 macOS 辅助功能 API、键盘模拟或剪贴板注入。三种插入方式自动回退,确保文字能到达任何应用。

03

上下文感知转录

SpeakMore 在每次转录前捕捉当前应用名称、窗口标题和文档路径。这些实时上下文帮助 AI 模型生成更准确、更符合语境的文字。

04

短期与长期记忆

每 10 次语音后,SpeakMore 构建短期上下文快照,记录你近期的话题和词汇。每日生成的长期画像捕捉你的身份、主要领域、语言习惯和常用专有名词,实现越用越准的个性化转录。

05

自定义提示词与术语表

设置全局或针对特定应用的转录指令——从忠实转录到结构化输出。添加优先术语表,确保专有名词、技术术语和行业词汇始终准确。

06

多服务商支持

支持 Google Gemini、阿里云通义千问(DashScope)、OpenRouter 或任何 OpenAI 兼容端点。自带 API Key,无需订阅,不被锁定。一键切换模型。

07

零本地依赖

无需下载模型,无需本地 GPU。整个应用仅约 2MB。纯云端架构意味着你始终使用最新的 AI 模型,无需更新应用。

使用流程

SpeakMore 如何工作

01

按住

按住快捷键(默认 Fn 键)。SpeakMore 捕捉当前应用上下文并开始录音。

02

说话

自然说话——音频以 16kHz 录制,实时均衡器显示你的声音波动。用任何语言,说你想说的。

03

松开

松开快捷键。音频发送至云端 AI 模型,转录文字实时流入当前文本框。

适用人群

谁在使用 SpeakMore

开发者

用语音写 commit message、代码注释、技术文档和即时消息。上下文感知确保技术术语和变量名准确转录。

写作者

以说话的速度起草文章、邮件和社交媒体内容。长期记忆适应你的写作风格和常用短语。

职场人士

将会议记录、工作报告和项目更新直接口述到任何应用中。针对不同工具设置不同的输出格式。

多语言用户

支持 AI 模型所支持的任何语言。SpeakMore 自然处理混合语言输入——句中自由切换中英文。

产品对比

SpeakMore 与其他语音输入工具对比

特性 SpeakMore 传统语音输入
架构 一步到位多模态 AI 分离的 STT + 文本优化
上下文感知 应用、窗口、文档 + 记忆
自定义术语 按应用提示词 + 术语表 有限或无
模型更新 始终使用最新云端模型 需手动更新
本地占用 约 2MB,无模型文件 数 GB 模型文件
开源 MIT 许可证 闭源
~2MB 应用大小
4+ AI 服务商
MIT 开源许可证
FAQ

常见问题

什么是 SpeakMore?

SpeakMore 是一款免费开源的 macOS 菜单栏应用,通过云端多模态 AI 模型将语音转为文字。它将音频直接发送给 AI 进行一步到位的转录,并将结果实时流入 Mac 上的任意文本框。

SpeakMore 和 macOS 自带听写有什么区别?

SpeakMore 使用多模态 AI 模型(如 Gemini),而非传统语音识别。它理解上下文——你当前的应用、文档和对话历史——从而生成更准确、格式更自然的文字。还支持自定义提示词和术语表。

SpeakMore 支持哪些 AI 服务商?

SpeakMore 支持 Google Gemini(原生 API)、阿里云通义千问(DashScope)、OpenRouter,以及任何自定义的 OpenAI 兼容端点。自带 API Key 即可使用,无需额外订阅费。

SpeakMore 能离线使用吗?

不能。SpeakMore 是云端工具,需要联网和 API Key。代价是零本地模型下载(应用仅约 2MB)和始终使用最新 AI 模型。

SpeakMore 支持哪些语言?

SpeakMore 支持底层 AI 模型所支持的所有语言。以 Gemini 为例,包括中文、英文、日文、韩文、西班牙文、法文、德文等数十种语言。混合语言输入也能自然处理。

SpeakMore 免费吗?

是的。SpeakMore 免费开源,采用 MIT 许可证。你只需支付云端 AI API 的使用费用,通常非常低(中等使用量每天几分钱)。

需要什么版本的 macOS?

SpeakMore 需要 macOS 14.0(Sonoma)或更高版本。还需要辅助功能权限(用于文字插入)和麦克风权限。

SpeakMore 如何将文字插入应用?

SpeakMore 采用三级策略:首先尝试通过 macOS 辅助功能 API 直接写入文本,然后是键盘模拟,最后是剪贴板注入作为兜底。确保文字能到达任何应用。

开口说话,即刻成文

SpeakMore 免费开源。从 GitHub 克隆代码,用 Xcode 编译,即刻开始语音录入。

前往 GITHUB 查看 ↗