ai: add RAG, speech-to-text and text-to-speech

2026-05-10 22:53:07 +03:00
parent 355ae8e5da
commit 1b94760b21
6 changed files with 2223 additions and 0 deletions
@@ -0,0 +1,8 @@
+const OLLAMA_SPEECH_TO_TEXT_MODELS = new Set([
+    "gemma4:e2b",
+    "gemma4:e4b",
+]);
+
+export function isOllamaSpeechToTextModel(model: string | undefined | null): boolean {
+    return !!model && OLLAMA_SPEECH_TO_TEXT_MODELS.has(model.trim().toLowerCase());
+}
@@ -0,0 +1,256 @@
+import fs, {openAsBlob} from "node:fs";
+import {AiProvider} from "../model/ai-provider";
+import {
+    getAvailableAiProviderChoices,
+    getProviderChoiceLabel,
+    normalizeAiProviderChoice,
+    resolveEffectiveAiProviderForUser,
+} from "../common/user-ai-settings";
+import {AiDownloadedFile} from "./telegram-attachments";
+import {isOllamaSpeechToTextModel} from "./speech-to-text-models";
+import {
+    createGoogleGenAiClient,
+    createMistralClient,
+    createOllamaClient,
+    createOpenAiClient,
+    resolveAiRuntimeTarget
+} from "./ai-runtime-target";
+import {Environment} from "../common/environment";
+
+export type TranscribedSpeech = {
+    provider: AiProvider;
+    model: string;
+    text: string;
+    fileName: string;
+};
+
+export type SpeechToTextRequest = {
+    provider: AiProvider;
+    audio: AiDownloadedFile;
+    signal?: AbortSignal;
+};
+
+export type SpeechToTextProviderResolution = {
+    provider: AiProvider;
+    fallback: boolean;
+};
+
+export type SpeechToTextResolveOptions = {
+    allowFallback?: boolean;
+};
+
+function providerName(provider: AiProvider): string {
+    return getProviderChoiceLabel(provider);
+}
+
+export function isTranscribableAudioDownload(download: AiDownloadedFile): boolean {
+    if (download.kind === "audio") return true;
+    return download.kind === "video-note" && (download.mimeType?.startsWith("audio/") || download.path.toLowerCase().endsWith(".wav"));
+}
+
+export function isSpeechToTextConfigured(provider: AiProvider): boolean {
+    switch (provider) {
+        case AiProvider.OPENAI:
+            const openAiTarget = resolveAiRuntimeTarget(provider, "speechToText");
+            return !!openAiTarget.apiKey && !!openAiTarget.model;
+        case AiProvider.GEMINI:
+            const geminiTarget = resolveAiRuntimeTarget(provider, "speechToText");
+            return !!geminiTarget.apiKey && !!geminiTarget.model;
+        case AiProvider.MISTRAL:
+            const mistralTarget = resolveAiRuntimeTarget(provider, "speechToText");
+            return !!mistralTarget.apiKey && !!mistralTarget.model;
+        case AiProvider.OLLAMA:
+            const ollamaTarget = resolveAiRuntimeTarget(provider, "speechToText");
+            return !!ollamaTarget.baseUrl && isOllamaSpeechToTextModel(ollamaTarget.model);
+    }
+}
+
+export async function resolveSpeechToTextProviderForUser(
+    userId: number,
+    preferredProvider?: AiProvider,
+    options: SpeechToTextResolveOptions = {},
+): Promise<SpeechToTextProviderResolution> {
+    const allowFallback = options.allowFallback ?? true;
+    const availableChoices = getAvailableAiProviderChoices(userId);
+    const allowedProviders = availableChoices
+        .map(choice => normalizeAiProviderChoice(choice))
+        .filter((choice): choice is AiProvider => !!choice && choice !== "DEFAULT");
+
+    if (preferredProvider) {
+        if (!allowedProviders.includes(preferredProvider)) {
+            throw new Error(Environment.getProviderNotAvailableForAccessText(providerName(preferredProvider)));
+        }
+
+        if (isSpeechToTextConfigured(preferredProvider)) {
+            return {provider: preferredProvider, fallback: false};
+        }
+
+        if (!allowFallback) {
+            throw new Error(Environment.getProviderSpeechToTextUnsupportedText(providerName(preferredProvider)));
+        }
+    }
+
+    const effectiveProvider = await resolveEffectiveAiProviderForUser(userId);
+    if (isSpeechToTextConfigured(effectiveProvider)) {
+        return {
+            provider: effectiveProvider,
+            fallback: preferredProvider !== undefined && preferredProvider !== effectiveProvider
+        };
+    }
+
+    const fallbackProvider = allowedProviders.find(isSpeechToTextConfigured);
+    if (!fallbackProvider) {
+        throw new Error(Environment.noSpeechToTextProviderForAccessText);
+    }
+
+    return {provider: fallbackProvider, fallback: true};
+}
+
+export async function transcribeSpeech(request: SpeechToTextRequest): Promise<TranscribedSpeech> {
+    if (request.signal?.aborted) throw new Error("Aborted");
+
+    switch (request.provider) {
+        case AiProvider.OPENAI:
+            return transcribeOpenAiSpeech(request.audio, request.signal);
+        case AiProvider.GEMINI:
+            return transcribeGeminiSpeech(request.audio, request.signal);
+        case AiProvider.MISTRAL:
+            return transcribeMistralSpeech(request.audio, request.signal);
+        case AiProvider.OLLAMA:
+            return transcribeOllamaSpeech(request.audio, request.signal);
+    }
+}
+
+export async function transcribeSpeechDownloads(provider: AiProvider, downloads: AiDownloadedFile[], signal?: AbortSignal): Promise<string> {
+    const audios = downloads.filter(isTranscribableAudioDownload);
+    const transcriptions: string[] = [];
+
+    for (const [index, audio] of audios.entries()) {
+        if (signal?.aborted) throw new Error("Aborted");
+
+        const result = await transcribeSpeech({provider, audio, signal});
+        const text = result.text.trim();
+        if (!text) continue;
+
+        transcriptions.push(audios.length > 1
+            ? `[${index + 1}. ${audio.fileName}]\n${text}`
+            : text);
+    }
+
+    return transcriptions.join("\n\n").trim();
+}
+
+async function transcribeOpenAiSpeech(audio: AiDownloadedFile, signal?: AbortSignal): Promise<TranscribedSpeech> {
+    const target = resolveAiRuntimeTarget(AiProvider.OPENAI, "speechToText");
+    const openAi = createOpenAiClient(target);
+    const file = fs.createReadStream(audio.path);
+    try {
+        const result = await openAi.audio.transcriptions.create({
+            file,
+            model: target.model,
+        }, {signal});
+
+        return {
+            provider: AiProvider.OPENAI,
+            model: target.model,
+            text: result.text || "",
+            fileName: audio.fileName,
+        };
+    } finally {
+        file.destroy();
+    }
+}
+
+async function transcribeMistralSpeech(audio: AiDownloadedFile, signal?: AbortSignal): Promise<TranscribedSpeech> {
+    const target = resolveAiRuntimeTarget(AiProvider.MISTRAL, "speechToText");
+    const mistralAi = createMistralClient(target);
+    const result = await mistralAi.audio.transcriptions.complete({
+        model: target.model,
+        file: await openAsBlob(audio.path),
+    }, {signal});
+
+    return {
+        provider: AiProvider.MISTRAL,
+        model: target.model,
+        text: result.text || "",
+        fileName: audio.fileName,
+    };
+}
+
+async function transcribeGeminiSpeech(audio: AiDownloadedFile, signal?: AbortSignal): Promise<TranscribedSpeech> {
+    const target = resolveAiRuntimeTarget(AiProvider.GEMINI, "speechToText");
+    const geminiAi = createGoogleGenAiClient(target);
+    const response = await geminiAi.models.generateContent({
+        model: target.model,
+        contents: [{
+            role: "user",
+            parts: [
+                {text: "Transcribe the attached audio verbatim. Reply only with the transcription text. Do not answer the speaker."},
+                {
+                    inlineData: {
+                        data: audio.buffer.toString("base64"),
+                        mimeType: audio.mimeType || "audio/wav",
+                    }
+                }
+            ]
+        }],
+        config: {
+            temperature: 0,
+            abortSignal: signal,
+        },
+    });
+
+    return {
+        provider: AiProvider.GEMINI,
+        model: target.model,
+        text: collectGeminiText(response),
+        fileName: audio.fileName,
+    };
+}
+
+async function transcribeOllamaSpeech(audio: AiDownloadedFile, signal?: AbortSignal): Promise<TranscribedSpeech> {
+    if (signal?.aborted) throw new Error("Aborted");
+
+    const target = resolveAiRuntimeTarget(AiProvider.OLLAMA, "speechToText");
+    const model = target.model;
+    if (!isOllamaSpeechToTextModel(model)) {
+        throw new Error(Environment.ollamaSpeechToTextModelRequiredText);
+    }
+
+    const ollama = createOllamaClient(target);
+    const response = await ollama.chat({
+        model,
+        stream: false,
+        think: false,
+        messages: [{
+            role: "user",
+            content: "Transcribe the attached audio verbatim. Reply only with the transcription text. Do not answer the speaker.",
+            images: [audio.buffer.toString("base64")],
+        }],
+        options: {
+            temperature: 0,
+        },
+    });
+
+    return {
+        provider: AiProvider.OLLAMA,
+        model,
+        text: response?.message?.content || "",
+        fileName: audio.fileName,
+    };
+}
+
+function collectGeminiText(response: any): string {
+    if (typeof response?.text === "string") return response.text;
+
+    const candidates = response?.candidates ?? [];
+    const candidateText = candidates
+        .flatMap((candidate: any) => candidate?.content?.parts ?? [])
+        .map((part: any) => part?.text ?? "")
+        .join("");
+    if (candidateText.trim()) return candidateText;
+
+    return (response?.candidates ?? [])
+        .map((output: any) => typeof output === "string" ? output : output?.content?.parts?.[0]?.text ?? "")
+        .join("");
+}
@@ -0,0 +1,435 @@
+import fs from "node:fs";
+import path from "node:path";
+import {randomUUID} from "node:crypto";
+import {FileOptions, Message} from "typescript-telegram-bot-api";
+import {AiProvider} from "../model/ai-provider";
+import {Environment} from "../common/environment";
+import {bot} from "../index";
+import {
+    getAvailableAiProviderChoices,
+    getProviderChoiceLabel,
+    normalizeAiProviderChoice,
+    resolveEffectiveAiProviderForUser,
+} from "../common/user-ai-settings";
+import {enqueueTelegramApiCall} from "../util/telegram-api-queue";
+import {MessageStore} from "../common/message-store";
+import {StoredAttachment} from "../model/stored-attachment";
+import {StoredMessage} from "../model/stored-message";
+import {logError} from "../util/utils";
+import {SpeechRequest} from "@mistralai/mistralai/models/components";
+import {createGoogleGenAiClient, createMistralClient, createOpenAiClient, resolveAiRuntimeTarget} from "./ai-runtime-target";
+
+const MAX_TTS_TEXT_CHARS = 4096;
+const TELEGRAM_FILE_LIMIT_BYTES = 50 * 1024 * 1024;
+
+export type TextToSpeechFormat = "mp3" | "wav" | "flac" | "opus" | "aac" | "pcm";
+
+export type SynthesizedSpeech = {
+    provider: AiProvider;
+    model: string;
+    voice?: string;
+    format: TextToSpeechFormat;
+    mimeType: string;
+    fileName: string;
+    path: string;
+    sizeBytes: number;
+};
+
+export type TextToSpeechRequest = {
+    provider: AiProvider;
+    text: string;
+    voice?: string;
+};
+
+export type TextToSpeechProviderResolution = {
+    provider: AiProvider;
+    fallback: boolean;
+};
+
+type SpeechFileParams = Omit<SynthesizedSpeech, "fileName" | "path" | "sizeBytes"> & {
+    buffer: Buffer;
+};
+
+function ttsCacheDir(): string {
+    return path.join(Environment.DATA_PATH, "cache", "audio");
+}
+
+function providerName(provider: AiProvider): string {
+    return getProviderChoiceLabel(provider);
+}
+
+function assertText(text: string): string {
+    const normalized = text.trim();
+    if (!normalized) {
+        throw new Error(Environment.noTextToSynthesizeText);
+    }
+
+    if (normalized.length > MAX_TTS_TEXT_CHARS) {
+        throw new Error(Environment.getTextToSpeechTooLongText(normalized.length, MAX_TTS_TEXT_CHARS));
+    }
+
+    return normalized;
+}
+
+export function isTextToSpeechConfigured(provider: AiProvider): boolean {
+    switch (provider) {
+        case AiProvider.OPENAI:
+            const openAiTarget = resolveAiRuntimeTarget(provider, "textToSpeech");
+            return !!openAiTarget.apiKey && !!openAiTarget.model;
+        case AiProvider.GEMINI:
+            const geminiTarget = resolveAiRuntimeTarget(provider, "textToSpeech");
+            return !!geminiTarget.apiKey && !!geminiTarget.model;
+        case AiProvider.MISTRAL:
+            const mistralTarget = resolveAiRuntimeTarget(provider, "textToSpeech");
+            return !!mistralTarget.apiKey && !!mistralTarget.model;
+        case AiProvider.OLLAMA:
+            return false;
+    }
+}
+
+export async function resolveTextToSpeechProviderForUser(
+    userId: number,
+    explicitProvider?: AiProvider,
+): Promise<TextToSpeechProviderResolution> {
+    const availableChoices = getAvailableAiProviderChoices(userId);
+    const allowedProviders = availableChoices
+        .map(choice => normalizeAiProviderChoice(choice))
+        .filter((choice): choice is AiProvider => !!choice && choice !== "DEFAULT");
+
+    if (explicitProvider) {
+        if (!allowedProviders.includes(explicitProvider)) {
+            throw new Error(Environment.getProviderNotAvailableForAccessText(providerName(explicitProvider)));
+        }
+
+        if (!isTextToSpeechConfigured(explicitProvider)) {
+            throw new Error(Environment.getProviderTextToSpeechUnsupportedText(providerName(explicitProvider)));
+        }
+
+        return {provider: explicitProvider, fallback: false};
+    }
+
+    const effectiveProvider = await resolveEffectiveAiProviderForUser(userId);
+    if (isTextToSpeechConfigured(effectiveProvider)) {
+        return {provider: effectiveProvider, fallback: false};
+    }
+
+    const fallbackProvider = allowedProviders.find(isTextToSpeechConfigured);
+    if (!fallbackProvider) {
+        throw new Error(Environment.noTextToSpeechProviderForAccessText);
+    }
+
+    return {provider: fallbackProvider, fallback: true};
+}
+
+export async function synthesizeSpeech(request: TextToSpeechRequest): Promise<SynthesizedSpeech> {
+    const text = assertText(request.text);
+
+    switch (request.provider) {
+        case AiProvider.OPENAI:
+            return synthesizeOpenAiSpeech(text, request.voice);
+        case AiProvider.GEMINI:
+            return synthesizeGeminiSpeech(text, request.voice);
+        case AiProvider.MISTRAL:
+            return synthesizeMistralSpeech(text, request.voice);
+        case AiProvider.OLLAMA:
+            throw new Error(Environment.ollamaTextToSpeechUnsupportedText);
+    }
+}
+
+async function synthesizeOpenAiSpeech(text: string, voice?: string): Promise<SynthesizedSpeech> {
+    const target = resolveAiRuntimeTarget(AiProvider.OPENAI, "textToSpeech");
+    const openAi = createOpenAiClient(target);
+    const response = await openAi.audio.speech.create({
+        model: target.model,
+        voice: voice || Environment.OPENAI_TTS_VOICE,
+        input: text,
+        response_format: "mp3",
+        instructions: Environment.OPENAI_TTS_INSTRUCTIONS,
+    });
+
+    const buffer = Buffer.from(await response.arrayBuffer());
+
+    return writeSpeechFile({
+        provider: AiProvider.OPENAI,
+        model: target.model,
+        voice: voice || Environment.OPENAI_TTS_VOICE,
+        buffer,
+        format: "mp3",
+        mimeType: "audio/mpeg",
+    });
+}
+
+async function synthesizeMistralSpeech(text: string, voice?: string): Promise<SynthesizedSpeech> {
+    const target = resolveAiRuntimeTarget(AiProvider.MISTRAL, "textToSpeech");
+    const mistralAi = createMistralClient(target);
+    const request: SpeechRequest = {
+        input: text,
+        responseFormat: "mp3"
+        // stream: false,
+    };
+
+    if (target.model) request.model = target.model;
+    if (voice || Environment.MISTRAL_TTS_VOICE_ID) request.voiceId = voice || Environment.MISTRAL_TTS_VOICE_ID;
+
+    const response: any = await mistralAi.audio.speech.complete(request);
+    const audioData = response?.audioData ?? response?.audio_data;
+    if (typeof audioData !== "string" || !audioData.trim()) {
+        throw new Error(Environment.mistralTtsNoAudioDataText);
+    }
+
+    const buffer = Buffer.from(audioData, "base64");
+
+    return writeSpeechFile({
+        provider: AiProvider.MISTRAL,
+        model: target.model || "mistral speech",
+        voice: voice || Environment.MISTRAL_TTS_VOICE_ID,
+        buffer,
+        format: "mp3",
+        mimeType: "audio/mpeg",
+    });
+}
+
+async function synthesizeGeminiSpeech(text: string, voice?: string): Promise<SynthesizedSpeech> {
+    const target = resolveAiRuntimeTarget(AiProvider.GEMINI, "textToSpeech");
+    const geminiAi = createGoogleGenAiClient(target);
+    const response: any = await geminiAi.models.generateContent({
+        model: target.model,
+        contents: text,
+        config: {
+            responseModalities: ["AUDIO"],
+            speechConfig: {
+                voiceConfig: {
+                    prebuiltVoiceConfig: {
+                        voiceName: voice || Environment.GEMINI_TTS_VOICE,
+                    },
+                },
+            },
+        },
+    });
+
+    const audioPart = findGeminiAudioPart(response);
+    if (!audioPart) {
+        throw new Error(Environment.geminiTextToSpeechUnsupportedText);
+    }
+
+    const decoded = decodeGeminiAudio(audioPart.data, audioPart.mimeType);
+
+    return writeSpeechFile({
+        provider: AiProvider.GEMINI,
+        model: target.model,
+        voice: voice || Environment.GEMINI_TTS_VOICE,
+        buffer: decoded.buffer,
+        format: decoded.format,
+        mimeType: decoded.mimeType,
+    });
+}
+
+function findGeminiAudioPart(value: unknown): { data: string; mimeType?: string } | null {
+    if (!value || typeof value !== "object") return null;
+    const record = value as Record<string, unknown>;
+
+    const inlineData = record.inlineData ?? record.inline_data;
+    if (inlineData && typeof inlineData === "object") {
+        const inlineRecord = inlineData as Record<string, unknown>;
+        const data = inlineRecord.data;
+        const mimeType = inlineRecord.mimeType ?? inlineRecord.mime_type;
+
+        if (typeof data === "string" && (!mimeType || String(mimeType).startsWith("audio/"))) {
+            return {data, mimeType: typeof mimeType === "string" ? mimeType : undefined};
+        }
+    }
+
+    for (const child of Object.values(record)) {
+        if (Array.isArray(child)) {
+            for (const item of child) {
+                const found = findGeminiAudioPart(item);
+                if (found) return found;
+            }
+        } else if (child && typeof child === "object") {
+            const found = findGeminiAudioPart(child);
+            if (found) return found;
+        }
+    }
+
+    return null;
+}
+
+function decodeGeminiAudio(data: string, mimeType = "audio/wav"): {
+    buffer: Buffer;
+    format: TextToSpeechFormat;
+    mimeType: string;
+} {
+    const normalizedMime = mimeType.toLowerCase();
+    const raw = Buffer.from(data, "base64");
+
+    if (normalizedMime.includes("mpeg") || normalizedMime.includes("mp3")) {
+        return {buffer: raw, format: "mp3", mimeType: "audio/mpeg"};
+    }
+
+    if (normalizedMime.includes("wav") || raw.subarray(0, 4).toString("ascii") === "RIFF") {
+        return {buffer: raw, format: "wav", mimeType: "audio/wav"};
+    }
+
+    if (normalizedMime.includes("flac")) {
+        return {buffer: raw, format: "flac", mimeType: "audio/flac"};
+    }
+
+    if (normalizedMime.includes("opus")) {
+        return {buffer: raw, format: "opus", mimeType: "audio/opus"};
+    }
+
+    if (normalizedMime.includes("aac")) {
+        return {buffer: raw, format: "aac", mimeType: "audio/aac"};
+    }
+
+    const sampleRate = Number(/rate=(\d+)/i.exec(mimeType)?.[1]) || 24_000;
+    return {
+        buffer: wrapPcm16InWav(raw, sampleRate, 1),
+        format: "wav",
+        mimeType: "audio/wav",
+    };
+}
+
+function wrapPcm16InWav(pcm: Buffer, sampleRate: number, channels: number): Buffer {
+    const bitsPerSample = 16;
+    const byteRate = sampleRate * channels * bitsPerSample / 8;
+    const blockAlign = channels * bitsPerSample / 8;
+    const header = Buffer.alloc(44);
+
+    header.write("RIFF", 0);
+    header.writeUInt32LE(36 + pcm.length, 4);
+    header.write("WAVE", 8);
+    header.write("fmt ", 12);
+    header.writeUInt32LE(16, 16);
+    header.writeUInt16LE(1, 20);
+    header.writeUInt16LE(channels, 22);
+    header.writeUInt32LE(sampleRate, 24);
+    header.writeUInt32LE(byteRate, 28);
+    header.writeUInt16LE(blockAlign, 32);
+    header.writeUInt16LE(bitsPerSample, 34);
+    header.write("data", 36);
+    header.writeUInt32LE(pcm.length, 40);
+
+    return Buffer.concat([header, pcm]);
+}
+
+function writeSpeechFile(params: SpeechFileParams): SynthesizedSpeech {
+    fs.mkdirSync(ttsCacheDir(), {recursive: true});
+
+    const fileName = `${params.provider.toLowerCase()}-tts-${Date.now()}-${randomUUID()}.${params.format}`;
+    const filePath = path.join(ttsCacheDir(), fileName);
+    fs.writeFileSync(filePath, params.buffer);
+
+    return {
+        provider: params.provider,
+        model: params.model,
+        voice: params.voice,
+        format: params.format,
+        mimeType: params.mimeType,
+        fileName,
+        path: filePath,
+        sizeBytes: params.buffer.length,
+    };
+}
+
+function createSpeechUpload(speech: SynthesizedSpeech): FileOptions {
+    return new FileOptions(fs.createReadStream(speech.path), {
+        filename: speech.fileName,
+        contentType: speech.mimeType,
+    });
+}
+
+function destroyUpload(upload: FileOptions): void {
+    if ("destroy" in upload.file && typeof upload.file.destroy === "function") {
+        upload.file.destroy();
+    }
+}
+
+export async function sendSynthesizedSpeech(sourceMessage: Message, speech: SynthesizedSpeech): Promise<Message> {
+    if (speech.sizeBytes > TELEGRAM_FILE_LIMIT_BYTES) {
+        throw new Error(Environment.speechFileTooLargeText);
+    }
+
+    const caption = Environment.getTextToSpeechCaption(providerName(speech.provider), speech.model, speech.voice);
+
+    await enqueueTelegramApiCall(
+        () => bot.sendChatAction({
+            chat_id: sourceMessage.chat.id,
+            action: speech.format === "mp3" || speech.format === "opus" ? "upload_voice" : "upload_document",
+        }),
+        {method: "sendChatAction", chatId: sourceMessage.chat.id, chatType: sourceMessage.chat.type}
+    ).catch(logError);
+
+    let sent: Message;
+    if (speech.format === "mp3" || speech.format === "opus") {
+        try {
+            sent = await enqueueTelegramApiCall(
+                async () => {
+                    const upload = createSpeechUpload(speech);
+                    try {
+                        return await bot.sendVoice({
+                            chat_id: sourceMessage.chat.id,
+                            voice: upload,
+                            caption,
+                            reply_parameters: {message_id: sourceMessage.message_id},
+                        });
+                    } finally {
+                        destroyUpload(upload);
+                    }
+                },
+                {method: "sendVoice", chatId: sourceMessage.chat.id, chatType: sourceMessage.chat.type}
+            );
+        } catch (e) {
+            logError(e);
+            sent = await sendSpeechDocument(sourceMessage, speech, caption);
+        }
+    } else {
+        sent = await sendSpeechDocument(sourceMessage, speech, caption);
+    }
+
+    await storeSpeechMessage(sent, sourceMessage, speech);
+    return sent;
+}
+
+async function sendSpeechDocument(sourceMessage: Message, speech: SynthesizedSpeech, caption: string): Promise<Message> {
+    return enqueueTelegramApiCall(
+        async () => {
+            const upload = createSpeechUpload(speech);
+            try {
+                return await bot.sendDocument({
+                    chat_id: sourceMessage.chat.id,
+                    document: upload,
+                    caption,
+                    reply_parameters: {message_id: sourceMessage.message_id},
+                });
+            } finally {
+                destroyUpload(upload);
+            }
+        },
+        {method: "sendDocument", chatId: sourceMessage.chat.id, chatType: sourceMessage.chat.type}
+    );
+}
+
+async function storeSpeechMessage(sent: Message, sourceMessage: Message, speech: SynthesizedSpeech): Promise<void> {
+    const file = sent.voice ?? sent.audio ?? sent.document;
+    const attachment: StoredAttachment = {
+        kind: "audio",
+        fileId: file?.file_id ?? speech.path,
+        fileUniqueId: file?.file_unique_id,
+        fileName: speech.fileName,
+        mimeType: speech.mimeType,
+        cachePath: speech.path,
+    };
+
+    const stored: StoredMessage = {
+        chatId: sent.chat.id,
+        id: sent.message_id,
+        replyToMessageId: sent.reply_to_message?.message_id ?? sourceMessage.message_id,
+        fromId: sent.from?.id ?? 0,
+        text: sent.caption ?? speech.fileName,
+        date: sent.date ?? Math.floor(Date.now() / 1000),
+        attachments: [attachment],
+    };
+
+    await MessageStore.put(stored);
+}
@@ -0,0 +1,99 @@
+import {Message} from "typescript-telegram-bot-api";
+import {Command} from "../base/command";
+import {AiProvider} from "../model/ai-provider";
+import {
+    isTranscribableAudioDownload,
+    resolveSpeechToTextProviderForUser,
+    transcribeSpeechDownloads,
+} from "../ai/speech-to-text";
+import {attachmentsToDownloadedFiles, cacheMessageAttachments} from "../ai/telegram-attachments";
+import {MessageStore} from "../common/message-store";
+import {StoredAttachment} from "../model/stored-attachment";
+import {logError, replyToMessage} from "../util/utils";
+import {Environment} from "../common/environment";
+
+const TELEGRAM_LIMIT = 4096;
+
+const PROVIDER_ALIASES = new Map<string, AiProvider>([
+    ["openai", AiProvider.OPENAI],
+    ["chatgpt", AiProvider.OPENAI],
+    ["gpt", AiProvider.OPENAI],
+    ["gemini", AiProvider.GEMINI],
+    ["google", AiProvider.GEMINI],
+    ["mistral", AiProvider.MISTRAL],
+    ["ollama", AiProvider.OLLAMA],
+]);
+
+function parseProviderToken(token: string | undefined): AiProvider | undefined {
+    if (!token) return undefined;
+    return PROVIDER_ALIASES.get(token.toLowerCase().replace(/:$/, ""));
+}
+
+async function collectStoredAttachments(msg: Message | undefined): Promise<StoredAttachment[]> {
+    if (!msg) return [];
+
+    const stored = await MessageStore.get(msg.chat.id, msg.message_id);
+    if (stored?.attachments?.length) return stored.attachments;
+
+    return cacheMessageAttachments(msg);
+}
+
+async function collectAudioDownloads(msg: Message) {
+    const attachments = [
+        ...await collectStoredAttachments(msg),
+        ...await collectStoredAttachments(msg.reply_to_message),
+    ];
+    const seen = new Set<string>();
+
+    return attachmentsToDownloadedFiles(attachments)
+        .filter(isTranscribableAudioDownload)
+        .filter(download => {
+            const key = `${download.fileId}:${download.path}`;
+            if (seen.has(key)) return false;
+            seen.add(key);
+            return true;
+        });
+}
+
+export class SpeechToText extends Command {
+    command = ["stt", "transcribe"];
+    argsMode = "optional" as const;
+
+    title = Environment.commandTitles.speechToText;
+    description = Environment.commandDescriptions.speechToText;
+
+    async execute(msg: Message, match?: RegExpExecArray | null): Promise<void> {
+        if (!msg.from) return;
+
+        const args = match?.[3]?.trim() ?? "";
+        const explicitProvider = parseProviderToken(args.split(/\s+/)[0]);
+        const downloads = await collectAudioDownloads(msg);
+
+        if (!downloads.length) {
+            await replyToMessage({
+                message: msg,
+                text: Environment.speechToTextInstructionText,
+            }).catch(logError);
+            return;
+        }
+
+        try {
+            const resolved = await resolveSpeechToTextProviderForUser(msg.from.id, explicitProvider, {
+                allowFallback: !explicitProvider,
+            });
+            const transcript = await transcribeSpeechDownloads(resolved.provider, downloads);
+            const text = transcript.trim() || Environment.speechToTextEmptyResultText;
+
+            await replyToMessage({
+                message: msg,
+                text: text.length > TELEGRAM_LIMIT ? text.slice(0, TELEGRAM_LIMIT - 3) + "..." : text,
+            }).catch(logError);
+        } catch (e) {
+            logError(e);
+            await replyToMessage({
+                message: msg,
+                text: e instanceof Error ? e.message : String(e),
+            }).catch(logError);
+        }
+    }
+}
@@ -0,0 +1,65 @@
+import {Message} from "typescript-telegram-bot-api";
+import {Command} from "../base/command";
+import {AiProvider} from "../model/ai-provider";
+import {
+    resolveTextToSpeechProviderForUser,
+    sendSynthesizedSpeech,
+    synthesizeSpeech,
+} from "../ai/text-to-speech";
+import {logError, replyToMessage} from "../util/utils";
+import {Environment} from "../common/environment";
+
+const PROVIDER_ALIASES = new Map<string, AiProvider>([
+    ["openai", AiProvider.OPENAI],
+    ["chatgpt", AiProvider.OPENAI],
+    ["gpt", AiProvider.OPENAI],
+    ["gemini", AiProvider.GEMINI],
+    ["google", AiProvider.GEMINI],
+    ["mistral", AiProvider.MISTRAL],
+    ["ollama", AiProvider.OLLAMA],
+]);
+
+function parseProviderToken(token: string | undefined): AiProvider | undefined {
+    if (!token) return undefined;
+    return PROVIDER_ALIASES.get(token.toLowerCase().replace(/:$/, ""));
+}
+
+export class TextToSpeech extends Command {
+    command = ["tts", "say", "voice"];
+    argsMode = "optional" as const;
+
+    title = Environment.commandTitles.textToSpeech;
+    description = Environment.commandDescriptions.textToSpeech;
+
+    async execute(msg: Message, match?: RegExpExecArray | null): Promise<void> {
+        if (!msg.from) return;
+
+        const args = match?.[3]?.trim() ?? "";
+        const replyText = (msg.reply_to_message?.text ?? msg.reply_to_message?.caption ?? "").trim();
+        const [firstToken = "", ...restTokens] = args.split(/\s+/);
+        const explicitProvider = parseProviderToken(firstToken);
+        const text = explicitProvider
+            ? (restTokens.join(" ").trim() || replyText)
+            : (args || replyText);
+
+        if (!text.trim()) {
+            await replyToMessage({
+                message: msg,
+                text: Environment.textToSpeechInstructionText,
+            }).catch(logError);
+            return;
+        }
+
+        try {
+            const resolved = await resolveTextToSpeechProviderForUser(msg.from.id, explicitProvider);
+            const speech = await synthesizeSpeech({provider: resolved.provider, text});
+            await sendSynthesizedSpeech(msg, speech);
+        } catch (e) {
+            logError(e);
+            await replyToMessage({
+                message: msg,
+                text: e instanceof Error ? e.message : String(e),
+            }).catch(logError);
+        }
+    }
+}