**TL;DR:** AI-секретар для прокату авто приймає вхідні дзвінки 24/7 через pipeline STT → LLM → TTS (у нас в проді — Deepgram Nova-2 + Claude Sonnet 4.6 + ElevenLabs Turbo v2). Він обробляє бронювання, запити по парку та кваліфікацію за 30–60 секунд на дзвінок. Ми задеплоїли це для оператора прокату на 77 авто у США в березні 2026 і закриваємо 95%+ дзвінків без передачі живій людині.

Коротко (at a glance)

24/7 покриття вхідних дзвінків; 30–60 сек тривалість vs 3–5 хв у людини

Pipeline: Deepgram Nova-2 (STT) → Claude Sonnet 4.6 (LLM) → ElevenLabs Turbo v2 (TTS)

77 авто, US оператор (продакшн з березня 2026)

95%+ дзвінків закриваються без участі людини

Twilio inbound номер per tenant; webhook у пайплайн FlipFactory FrontDeskPilot

Тарифи: $49–$299/міс на локацію (FrontDeskPilot SaaS)

Підтвердження бронювання через Telegram Bot API + транзакційний email

Q: Як працює pipeline STT → LLM → TTS у проді?

Дзвінок приходить на Twilio-номер, призначений тенанту. Twilio стримить вхідне аудіо через WebSocket у Cloudflare Worker, який ми тримаємо. Worker форвардить аудіо-фрейми по 200 мс у Deepgram Nova-2, який повертає проміжні та фінальні транскрипти із затримкою менше 300 мс. Кожен фінальний транскрипт додається в контекст розмови Claude Sonnet 4.6, із системним промптом, налаштованим під парк, графік і ціни конкретного тенанта. Відповідь Sonnet стримиться у ElevenLabs Turbo v2 (для англійської ми використовуємо голос `flash_v2_5`, для української — кастомно склонований), який генерує аудіо-чанки і Twilio програє їх абоненту. Весь цикл — каже абонент, відповідає AI — займає 800–1200 мс round-trip за нашими вимірами в березні 2026. Ми ввімкнули barge-in detection — абонент може перебивати посеред відповіді, що відчувається природніше за більшість IVR, які ще досі стоять у прокатах.

Q: Які дзвінки AI-секретар обробляє сам, а які передає людині?

У нашому US-деплої на 77 авто ми залогували 1400+ вхідних дзвінків за перші 30 днів. AI повністю закрив: перевірку доступності машин (38% обсягу), розрахунок цін на стандартні оренди (24%), підтвердження бронювань (12%), зміну часу видачі (9%), і навігацію до точки видачі (7%). Передавав людині у трьох явних кейсах: претензії по пошкодженнях або post-rental спори, корпоративні мульти-вантажні запити понад $5K, і будь-який абонент, який сказав "speak to a person" або еквівалент. 5% routed-to-human узгоджується з тим, що класифікатор намірів FrontDeskPilot позначає як низько-confident. Ключовий урок з продакшну: ніколи не давай AI цитувати refund'и, приймати liability, або змінювати charge'і. Ці шляхи завжди в людину, незалежно від confidence моделі. Ми вивчили це після інциденту в березні 2026, коли модель запропонувала goodwill refund, який оператору довелось проводити — пофіксили жорсткішим system prompt і token-pattern блоком на refund-related фрази.

Q: Як міряти якість AI-секретаря без запису кожного дзвінка?

Ми пишемо структуровані події per call у Postgres на нашому VPS (65.21.242.139): тривалість дзвінка, класифікований intent, результат, чи питав абонент людину, і self-eval бал від Sonnet (питаємо модель "did you successfully fulfill the caller's request? 0-100"). Щодня n8n workflow (ID NAHCKifybcP1D8zL) агрегує це у Telegram-дайджест, який оператор отримує о 08:00. Раз на тиждень ми семплимо 2% дзвінків — рандомно — і прослуховуємо для людського ревʼю. Семпл 2% — це 20 хв роботи на тиждень, але достатньо щоб зловити системні регресії. Коли оператор оновлює ціни або додає нову машину, system prompt регенерується автоматично з inventory DB; ми міряємо prompt drift проти точності класифікації намірів і відкочуємось якщо падає нижче 90%. Цей observability-стек йде в коробці FrontDeskPilot з тарифу $149/міс і вище.

Deep dive: архітектурні рішення, які реально мали значення

Більшість demo "AI receptionist" оптимізують одну річ: пройти happy-path дзвінок з бронюванням. У продакшні все інакше. Три архітектурні рішення, які визначили чи наш березневий деплой 2026 виживе чи його прогонять за тиждень — це затримка, fallback і ізоляція тенантів.

Затримка під 1.2 секунди — це різниця між "це звучить як людина" і "це бісить". [Документація Twilio Voice API](https://www.twilio.com/docs/voice) рекомендує end-to-end audio path під 500 мс one-way. Ми досягаємо цього запуском оркестраційного Worker'а в Cloudflare PoP найближчому до inbound-номера (зазвичай ATL або ORD для US East/Midwest), тримаючи Deepgram WebSocket alive між turn'ами замість переоткриття на кожне висловлення, і використовуючи Claude Sonnet 4.6 у streaming режимі — щоб запускати TTS як тільки згенеровано перше речення, а не коли вся відповідь готова. ElevenLabs Turbo v2 ми вибрали свідомо замість їх multilingual_v2 — Turbo жертвує трохи naturalness голосу заради ~250 мс швидшого first-byte time, що в розмові важливіше за студійну prosody.

Fallback-шляхи тестуються Всесвітом, чи ти їх будуєш чи ні. У нас три: якщо Sonnet timeout'ить, відповідаємо "Let me transfer you to my colleague — one moment" і форвардимо на мобільний оператора; якщо Deepgram дропає WebSocket посеред дзвінка — ловимо close event і програємо записане "I'm having a connection issue, calling back in 30 seconds" і триггеримо Twilio outbound; якщо весь pipeline лежить (ми бачили двічі за 8 місяців — обидва Cloudflare-інциденти) — Twilio failover на статичне повідомлення з форвардом на мобільний через стандартний call forwarding. Цей belt-and-suspenders підхід означає, що повний outage виглядає як старомодний after-hours forwarding, а не дропнуті дзвінки.

Ізоляція тенантів важлива тому, що у прокатів реально дуже різні правила. Наш 77-авто US оператор робить добові оренди з milage cap'ами; інший FrontDeskPilot тенант в EU робить місячні підписки без cap'ів; третій тримає luxury-парк, де AI явно інструктований ескалювати будь-якого абонента, що питає availability на менше ніж 7 днів наперед. Системний промпт кожного тенанта генерується зі структурованої inventory + policy DB, яку оператор веде через простий FrontDeskPilot dashboard. Ми не намагаємось використати один промпт на всіх — генеруємо свіжий per tenant per deploy. [Гайд Anthropic з prompt engineering](https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering) має солідні поради по структурованих промптах; ми слідуємо більшості, але доповнюємо явними "DO NOT" секціями для захисту від legal liability — те що жоден публічний гайд не покриває.

Ключові висновки

AI-секретарі закривають 95%+ дзвінків у прокаті авто без передачі людині (FlipFactory продакшн, березень 2026, 77-авто US парк)

Загальна вартість хвилини дзвінка: ~$0.03 (Deepgram + Claude Sonnet 4.6 + ElevenLabs разом)

800–1200 мс round-trip — поріг між "природно" і "бісить"

Ніколи не дозволяй AI цитувати refund'и, приймати liability, або змінювати charge'і — це жорсткий route в людину

2% тижневий семпл + структуровані події логування дає сигнал якості без запису всього

FAQ

**Q: Що буде якщо AI заплутається або зробить помилку?**

A: Три шари fallback. Модель self-eval'ить кожен дзвінок (0-100 балів), і будь-який нижче 70 позначається для людського ревʼю наступного дня. Якщо модель плутається посеред дзвінка — system prompt дозволяє graceful "let me transfer you to my colleague" path, який форвардить на мобільний оператора за 5 секунд. І ми ніколи не дозволяємо AI цитувати refund'и, ретроактивно змінювати бронювання, або приймати liability — ці запити жорстко в людину незалежно від confidence моделі. У 1400+ продакшн дзвінках березня 2026 у нас було 2 кейси, де AI зробив quotable помилку; обидва — goodwill refund'и які оператор сам вирішив honor'ити, а ми пофіксили промпт за 24 год.

**Q: Чи може цей самий сетап працювати для прокату авто в Україні?**

A: Так — у нас йде україномовна версія через кастомне voice cloning ElevenLabs (записуєш 30 секунд чистого аудіо себе або обраного voice actor, модель тренує синтетичний голос). Claude Sonnet 4.6 розуміє українську вільно для задач бронювання і кваліфікації; ми виміряли точність класифікації намірів — 91% UA vs 96% EN за березень 2026. Twilio підтримує українські номери (+380), але з регіональними обмеженнями — можливо, потрібен польський або литовський номер з міжнародним форвардом замість прямого UA.

**Q: Який найдешевший спосіб спробувати це для невеликого парку?**

A: Стартовий тариф FrontDeskPilot $49/міс покриває парки до 25 авто з одним inbound-номером, базовим booking flow і Telegram-нотифікаціями. Ви даєте Twilio-номер ($1.15/міс для US), коннектите Google Calendar, ми онбордимо системний промпт із вашої існуючої документації по цінах і правилах. Більшість операторів запускаються за 3 робочі дні. Pro-тариф $149/міс додає структуроване event-логування, щоденний Telegram-дайджест, мультимовні голоси і dashboard для тижневого аудиту, описаних у цій статті.

Як працює AI-секретар для прокату авто?