Fluent — AI 听写 · 所想即所得

为什么选择 Fluent

一款真正为创造者设计的听写工具

🎙️

语音转文字

SenseVoice / Whisper 引擎 + 云端 GPU 加速。GPU 推理仅 ~100ms，支持中、英、日、韩、粤语。

✨

LLM 智能润色

自动修正语法、添加标点、优化表达。本地 Qwen3 LLM 或远程服务器，100 tok/s。

💊

语音胶囊

每次听写保存为彩色胶囊卡片。颜色分类、置顶、搜索、标记完成，导出 Markdown。

☁️

云端同步

听写结果和剪贴板跨设备同步。基于 Cloudflare 的全球边缘网络。

📻

会议模式

持续录音 + 实时转写，自动按时间分段。适合会议纪要、课堂笔记。

🌐

多语言翻译

说中文，输出英/日/韩/法/德/西班牙语。实时翻译，无需额外操作。

🔧 自建服务器

Fluent 的 ASR + LLM 服务端支持自建部署。在你自己的 GPU 服务器上运行，数据不出你的网络。

⚡ 系统要求

最低配置
• 1× NVIDIA GPU (6GB+ VRAM)
• CUDA 12.0+ / cuDNN 9
• Ubuntu 22.04 / Debian 12
• 4GB RAM

推荐配置
• 2× NVIDIA GPU (RTX 3090/4090)
• GPU 0: ASR · GPU 1: LLM
• 16GB+ RAM
• SSD 存储

🚀 快速开始 — 三步部署

只需配置 .env 文件即可启动服务。

1. 下载模型

# 下载 SenseVoice ASR 模型 (支持中/英/日/韩/粤)
mkdir -p models && cd models
wget https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.tar.bz2
tar xf sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.tar.bz2

# (可选) 安装 Ollama 用于 LLM 智能润色
curl -fsSL https://ollama.com/install.sh | sh
ollama pull qwen3:latest

2. 配置环境变量

# 复制并编辑 .env
cp .env.example .env

# ─── .env 核心配置 ───
HOST=0.0.0.0
PORT=3100
MODEL_DIR=./models/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17

# LLM 润色 (可选, 需要 Ollama)
LLM_SERVER_URL=http://127.0.0.1:11434
LLM_MODEL=qwen3:latest

# 认证 (留空 = SSOAuth 在线验证)
JWT_SECRET=
# DEV_MODE=1  ← 本地测试可跳过认证

3. 启动服务

# 从源码编译运行
cargo build --release
./target/release/fluent-server

# 或使用 Docker (CUDA)
docker build -f Dockerfile.cuda -t fluent-server .
docker run --gpus all -p 3100:3100 --env-file .env fluent-server

📡 API 接口

POST /api/transcribe	上传 WAV 音频 → 返回转写文本需要 Bearer Token 认证
GET /api/stream	WebSocket 实时流式转写 PCM f32le 16kHz → partial/final JSON
POST /api/llm/chat/completions	LLM 智能润色代理兼容 OpenAI 格式, 转发到 Ollama
GET /api/health	健康检查 + GPU/模型状态无需认证

🎛 GPU 自动分配

服务器启动时自动检测 GPU 并按 50/50 分配给 ASR 和 LLM：

# 0 GPU → CPU 模式 (较慢但可用)
# 1 GPU → ASR + LLM 共享
# 2 GPU → GPU 0: ASR, GPU 1: LLM
# N GPU → 前半 ASR, 后半 LLM

# 示例日志:
=== Fluent Cloud ASR Server v0.3.0 ===
  GPU 0: NVIDIA GeForce RTX 3090 (24576 MiB)
  GPU 1: NVIDIA GeForce RTX 3090 (24576 MiB)
GPU allocation: 2 GPU(s) detected: ASR → [0], LLM → [1]
ASR engine ready: 1 recognizer(s) on GPU(s) [0]
LLM backend (ollama) running at http://127.0.0.1:11434

📋 环境变量参考

MODEL_DIR	SenseVoice 模型路径	./models/sherpa-onnx-...
PORT	监听端口	3100
HOST	监听地址	0.0.0.0
LLM_SERVER_URL	Ollama/LLM 地址	http://127.0.0.1:11434
LLM_MODEL	Ollama 模型名	qwen3:latest
LLM_MODEL_PATH	GGUF 模型路径 (自动启动 llama-server)	-
JWT_SECRET	Edge JWT 共享密钥	-
DEV_MODE	设为 1 跳过认证	-
RUST_LOG	日志级别	fluent_server=info

🔗 客户端连接

在 Fluent 客户端「设置 → 服务器」中添加你的服务器地址：

# 服务器地址格式
http://your-server-ip:3100

# 或者在 Web 控制台 → 服务器 → 添加自定义服务器
# 名称: 我的服务器
# 地址: http://192.168.1.100:3100

📋 更新日志

Fluent 的版本更新记录。

v0.3.0 2026-02-19

🆕 新功能

• NEW 会议录音模式 — 录制系统音频并自动转写为文字

• NEW SnapMind 智能分析 — AI 提取主题、洞察和行动项

• NEW WebSocket 流式听写 — 实时逐句显示转写结果

• NEW 多服务器支持 — 自定义 ASR 服务器，支持自建和官方共存

• NEW LLM 智能润色 — Qwen3 驱动的文本优化

• NEW 浮动录音指示器 — 始终可见的录音状态

• NEW 自建服务器文档 — .env 快速部署指南

• NEW GPU 自动分配 — 智能检测并分配 GPU

🔧 改进

• 改进同步开关加固 — 核心函数层面强制检查

• 改进胶囊全属性同步 — 创建、置顶、颜色、完成状态均实时同步

• 改进 Web 仪表盘升级 — 显示所有胶囊并支持颜色和完成标签

• 改进剪贴板同步权益 — 登录后可在多设备保持一致

• 改进设置跨设备同步 — 17 项设置多设备一致

• 改进 VAD 智能断句 — 语音活动检测, 静音自动结束

🐛 修复

• 修复 D1 数据库表为空的同步问题

• 修复版本号不一致 (统一为 v0.3.0)

• 修复同步开关关闭后仍发送数据

v0.2.1 2026-01

• 初始公开版本

• 本地 SenseVoice ASR 引擎

• 语音胶囊基础功能 (置顶/颜色)

• SSOAuth 登录与云同步基础架构

• macOS (Apple Silicon) 支持

AI 听写所想即所得