一步到位 AI 管道
音频直接发送给多模态 AI 模型——没有单独的语音识别和文本优化步骤。模型在一次调用中完成转录、标点、格式化和专业术语处理,更快更准。
按住快捷键,自然说话,松开——文字实时流入任意文本框。基于云端 AI 的 macOS 语音录入,具备上下文感知,零本地依赖。
前往 GITHUB 查看 ↗SpeakMore 是一款轻量级 macOS 菜单栏应用,通过云端多模态 AI 模型将语音转为文字。与传统语音识别工具将"语音识别"和"文本优化"分成两步不同,SpeakMore 将音频直接发送给多模态 AI 模型,一步到位完成识别、标点、格式化和专业术语处理。文字实时流入你正在使用的任意文本框——无论是代码编辑器、邮件客户端、聊天应用还是文档。SpeakMore 还会捕捉你当前的应用、窗口标题和文档路径等上下文信息,加上对你语音模式的短期和长期记忆,随着使用逐渐适应你的词汇和写作风格。
音频直接发送给多模态 AI 模型——没有单独的语音识别和文本优化步骤。模型在一次调用中完成转录、标点、格式化和专业术语处理,更快更准。
文字在生成的同时直接流入当前焦点文本框——通过 macOS 辅助功能 API、键盘模拟或剪贴板注入。三种插入方式自动回退,确保文字能到达任何应用。
SpeakMore 在每次转录前捕捉当前应用名称、窗口标题和文档路径。这些实时上下文帮助 AI 模型生成更准确、更符合语境的文字。
每 10 次语音后,SpeakMore 构建短期上下文快照,记录你近期的话题和词汇。每日生成的长期画像捕捉你的身份、主要领域、语言习惯和常用专有名词,实现越用越准的个性化转录。
设置全局或针对特定应用的转录指令——从忠实转录到结构化输出。添加优先术语表,确保专有名词、技术术语和行业词汇始终准确。
支持 Google Gemini、阿里云通义千问(DashScope)、OpenRouter 或任何 OpenAI 兼容端点。自带 API Key,无需订阅,不被锁定。一键切换模型。
无需下载模型,无需本地 GPU。整个应用仅约 2MB。纯云端架构意味着你始终使用最新的 AI 模型,无需更新应用。
按住快捷键(默认 Fn 键)。SpeakMore 捕捉当前应用上下文并开始录音。
自然说话——音频以 16kHz 录制,实时均衡器显示你的声音波动。用任何语言,说你想说的。
松开快捷键。音频发送至云端 AI 模型,转录文字实时流入当前文本框。
用语音写 commit message、代码注释、技术文档和即时消息。上下文感知确保技术术语和变量名准确转录。
以说话的速度起草文章、邮件和社交媒体内容。长期记忆适应你的写作风格和常用短语。
将会议记录、工作报告和项目更新直接口述到任何应用中。针对不同工具设置不同的输出格式。
支持 AI 模型所支持的任何语言。SpeakMore 自然处理混合语言输入——句中自由切换中英文。
| 特性 | SpeakMore | 传统语音输入 |
|---|---|---|
| 架构 | 一步到位多模态 AI | 分离的 STT + 文本优化 |
| 上下文感知 | 应用、窗口、文档 + 记忆 | 无 |
| 自定义术语 | 按应用提示词 + 术语表 | 有限或无 |
| 模型更新 | 始终使用最新云端模型 | 需手动更新 |
| 本地占用 | 约 2MB,无模型文件 | 数 GB 模型文件 |
| 开源 | MIT 许可证 | 闭源 |