macOS v0.4.0-beta.5 · Android beta.2

AI 听写
所想即所得

按下 ⌥ D,说话即文字。
本地 & 云端双引擎,LLM 智能润色,语音胶囊笔记。

macOS 线上版 本地离线版 Android 版 ⚡ 自建服务器
macOS 11.0+ · Apple Silicon · 7.9 MB | Android 8.0+ · 6.6 MB
Fluent · AI 听写
14:32
明天下午三点的产品评审会议,通知设计团队准备高保真原型
14:28
灵感:用户在录音结束后直接看到 AI 润色结果,体验更流畅
13:56
下班顺路买两斤橙子和牛奶

为什么选择 Fluent

一款真正为创造者设计的听写工具

🎙️

语音转文字

SenseVoice / Whisper 引擎 + 云端 GPU 加速。GPU 推理仅 ~100ms,支持中、英、日、韩、粤语。

LLM 智能润色

自动修正语法、添加标点、优化表达。本地 Qwen3 LLM 或远程服务器,100 tok/s。

💊

语音胶囊

每次听写保存为彩色胶囊卡片。颜色分类、置顶、搜索、标记完成,导出 Markdown。

☁️

云端同步

听写结果和剪贴板跨设备同步。基于 Cloudflare 的全球边缘网络。

📻

会议模式

持续录音 + 实时转写,自动按时间分段。适合会议纪要、课堂笔记。

🌐

多语言翻译

说中文,输出英/日/韩/法/德/西班牙语。实时翻译,无需额外操作。

🔧 自建服务器

Fluent 的 ASR + LLM 服务端支持自建部署。在你自己的 GPU 服务器上运行,数据不出你的网络。

⚡ 系统要求

最低配置
• 1× NVIDIA GPU (6GB+ VRAM)
• CUDA 12.0+ / cuDNN 9
• Ubuntu 22.04 / Debian 12
• 4GB RAM
推荐配置
• 2× NVIDIA GPU (RTX 3090/4090)
• GPU 0: ASR · GPU 1: LLM
• 16GB+ RAM
• SSD 存储

🚀 快速开始 — 三步部署

只需配置 .env 文件即可启动服务。

1. 下载模型
# 下载 SenseVoice ASR 模型 (支持中/英/日/韩/粤)
mkdir -p models && cd models
wget https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.tar.bz2
tar xf sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.tar.bz2

# (可选) 安装 Ollama 用于 LLM 智能润色
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3:latest
2. 配置环境变量
# 复制并编辑 .env
cp .env.example .env

# ─── .env 核心配置 ───
HOST=0.0.0.0
PORT=3100
MODEL_DIR=./models/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17

# LLM 润色 (可选, 需要 Ollama)
LLM_SERVER_URL=http://127.0.0.1:11434
LLM_MODEL=qwen3:latest

# 认证 (留空 = SSOAuth 在线验证)
JWT_SECRET=
# DEV_MODE=1  ← 本地测试可跳过认证
3. 启动服务
# 从源码编译运行
cargo build --release
./target/release/fluent-server

# 或使用 Docker (CUDA)
docker build -f Dockerfile.cuda -t fluent-server .
docker run --gpus all -p 3100:3100 --env-file .env fluent-server

📡 API 接口

POST /api/transcribe 上传 WAV 音频 → 返回转写文本
需要 Bearer Token 认证
GET /api/stream WebSocket 实时流式转写
PCM f32le 16kHz → partial/final JSON
POST /api/llm/chat/completions LLM 智能润色代理
兼容 OpenAI 格式, 转发到 Ollama
GET /api/health 健康检查 + GPU/模型状态
无需认证

🎛 GPU 自动分配

服务器启动时自动检测 GPU 并按 50/50 分配给 ASR 和 LLM:

# 0 GPU → CPU 模式 (较慢但可用)
# 1 GPU → ASR + LLM 共享
# 2 GPU → GPU 0: ASR, GPU 1: LLM
# N GPU → 前半 ASR, 后半 LLM

# 示例日志:
=== Fluent Cloud ASR Server v0.3.0 ===
  GPU 0: NVIDIA GeForce RTX 3090 (24576 MiB)
  GPU 1: NVIDIA GeForce RTX 3090 (24576 MiB)
GPU allocation: 2 GPU(s) detected: ASR → [0], LLM → [1]
ASR engine ready: 1 recognizer(s) on GPU(s) [0]
LLM backend (ollama) running at http://127.0.0.1:11434

📋 环境变量参考

MODEL_DIRSenseVoice 模型路径./models/sherpa-onnx-...
PORT监听端口3100
HOST监听地址0.0.0.0
LLM_SERVER_URLOllama/LLM 地址http://127.0.0.1:11434
LLM_MODELOllama 模型名qwen3:latest
LLM_MODEL_PATHGGUF 模型路径 (自动启动 llama-server)-
JWT_SECRETEdge JWT 共享密钥-
DEV_MODE设为 1 跳过认证-
RUST_LOG日志级别fluent_server=info

🔗 客户端连接

在 Fluent 客户端「设置 → 服务器」中添加你的服务器地址:

# 服务器地址格式
http://your-server-ip:3100

# 或者在 Web 控制台 → 服务器 → 添加自定义服务器
# 名称: 我的服务器
# 地址: http://192.168.1.100:3100

📋 更新日志

Fluent 的版本更新记录。

v0.3.0 2026-02-19

🆕 新功能
NEW 会议录音模式 — 录制系统音频并自动转写为文字
NEW SnapMind 智能分析 — AI 提取主题、洞察和行动项
NEW WebSocket 流式听写 — 实时逐句显示转写结果
NEW 多服务器支持 — 自定义 ASR 服务器,支持自建和官方共存
NEW LLM 智能润色 — Qwen3 驱动的文本优化
NEW 浮动录音指示器 — 始终可见的录音状态
NEW 自建服务器文档 — .env 快速部署指南
NEW GPU 自动分配 — 智能检测并分配 GPU
🔧 改进
改进 同步开关加固 — 核心函数层面强制检查
改进 胶囊全属性同步 — 创建、置顶、颜色、完成状态均实时同步
改进 Web 仪表盘升级 — 显示所有胶囊并支持颜色和完成标签
改进 剪贴板同步权益 — 登录后可在多设备保持一致
改进 设置跨设备同步 — 17 项设置多设备一致
改进 VAD 智能断句 — 语音活动检测, 静音自动结束
🐛 修复
修复 D1 数据库表为空的同步问题
修复 版本号不一致 (统一为 v0.3.0)
修复 同步开关关闭后仍发送数据

v0.2.1 2026-01

• 初始公开版本
• 本地 SenseVoice ASR 引擎
• 语音胶囊基础功能 (置顶/颜色)
• SSOAuth 登录与云同步基础架构
• macOS (Apple Silicon) 支持