AI-секретарь для лаборанта: оперативное внесение результатов проб голосом

Идейными вдохновителями для нас порой становятся сами клиенты, а точнее — их уникальные потребности. Один из таких проектов был запущен после обращения сибирской нефтехимической компании, которая хотела повысить производительность своих лаборантов с помощью внедрения в их рабочий процесс искусственного интеллекта.
AI-секретарь для лаборанта: оперативное внесение результатов проб голосом
Идейными вдохновителями для нас порой становятся сами клиенты, а точнее — их уникальные потребности. Один из таких проектов был запущен после обращения сибирской нефтехимической компании, которая хотела повысить производительность своих лаборантов с помощью внедрения в их рабочий процесс искусственного интеллекта.
Причина — лаборатории компании невозможно оснастить компьютерами, там нельзя пользоваться обычными средствами ввода: клавиатурой, мышкой и сенсорной панелью. Допускается присутствие исключительно взрывозащищенных устройств. При этом клиент хотел, чтобы лаборанты могли вносить результаты своих исследований оперативно, не прибегая к записям вручную.

Компания CYFER приняла вызов и нашла решение. Нашей задачей стало создание AI-ассистента лаборанта, которым можно управлять при помощи взрывозащищенной голосовой гарнитуры. Диктовать результаты проб и прослушивать ранее внесенные показатели с автоматическим внесением всей информации на портал предприятия.
Причина — лаборатории компании невозможно оснастить компьютерами, там нельзя пользоваться обычными средствами ввода: клавиатурой, мышкой и сенсорной панелью. Допускается присутствие исключительно взрывозащищенных устройств. При этом клиент хотел, чтобы лаборанты могли вносить результаты своих исследований оперативно, не прибегая к записям вручную.

Компания CYFER приняла вызов и нашла решение. Нашей задачей стало создание AI-ассистента лаборанта, которым можно управлять при помощи взрывозащищенной голосовой гарнитуры. Диктовать результаты проб и прослушивать ранее внесенные показатели с автоматическим внесением всей информации на портал предприятия.
Для клиента решение представляет собой веб-приложение, работающее через браузер. Общение с ботом происходит через взрывозащищенную беспроводную гарнитуру, которая подключается к компьютеру. Кодовое название ассистента — «Марфуша» . С технологической точки зрения он имеет несколько составляющих:

  • «Легкие» модули Vosk. Отвечают за распознавание ключевых слов, связанных с активацией и деактивацией ассистента.

  • GigaAM от Сбербанка (аналог Whisper). Начинает работать после включения ассистента. Его задача — производить качественную расшифровку голоса, обрабатывать полученный текст и организовывать основную логику всего рабочего процесса.

  • Технология TTS. Отвечает за синтез голоса, благодаря чему ассистент не только понимает голосовые команды, но и способен общаться с пользователем, отвечать ему.

AI-ассистент запускается и начинает «слушать» пользователя после нажатия кнопки «Старт» в специальной вкладке браузера. Каждый сценарий состоит из цепочки последовательных действий:

Шаг 1: Авторизация. «Марфуша» запрашивает пин-код — лаборант проговаривает его голосом (четыре цифры), тем самым подтверждая наличие своей учетной записи в системе.

Шаг 2: Выбор протокола, в рамках которого проводится опыт. Его по запросу бота пользователь также проговаривает. Под протоколом понимается набор параметров, необходимых для фиксации результата: давление, содержание какого-то вещества, цвет, температура и т.д.

Шаг 3: Выбор пробы. Это числовое значение, индекс (1, 2, 3 и т.д.). Один протокол может включать сколько угодно проб с разными или одинаковыми значениями. Если лаборант называет номер пробы, которого еще нет в базе, ассистент автоматически добавляет его в систему.

Шаг 4: Введение значений. Для новой пробы бот просит назвать данные по тем параметрам, которые были установлены для протокола. Если озвучен ID уже существующей пробы, «Марфуша» проговаривает ранее введенные для нее показатели и предлагает действие на выбор:

«Не хватает». Голосовая команда позволяет ввести значения по пропущенным параметрам. Чтобы ассистент их принял, пользователю необходимо произнести еще одну команду — «Марфуша, стоп». Бот повторит показатели и предложит те же три действия на выбор.
«Повторить». Команда дает возможность лаборанту записать новые показатели по всем параметрам протокола. Для их фиксации — снова «Марфуша, стоп».
«Закончить». Ассистент сохраняет введенные данные в базе и предлагает выбрать новый протокол.

После выбора нового протокола указанные действия повторяются.

Шаг 5: Завершение работы. Чтобы ассистент перестал «слушать», необходимо нажать кнопку «Стоп» в окне браузера.

Записанные в систему данные с результатами проб в рамках различных протоколов можно оформлять в виде отчетов (форматы PDF, Excel, Word — любые), после чего отправлять во внутреннюю систему компании для обработки или отдельным адресатам по электронной почте.

Голосовой помощник "Марфуша": как он работает?

Для клиента решение представляет собой веб-приложение, работающее через браузер. Общение с ботом происходит через взрывозащищенную беспроводную гарнитуру, которая подключается к компьютеру. Кодовое название ассистента — «Марфуша» . С технологической точки зрения он имеет несколько составляющих:

  • «Легкие» модули Vosk. Отвечают за распознавание ключевых слов, связанных с активацией и деактивацией ассистента.

  • GigaAM от Сбербанка (аналог Whisper). Начинает работать после включения ассистента. Его задача — производить качественную расшифровку голоса, обрабатывать полученный текст и организовывать основную логику всего рабочего процесса.

  • Технология TTS. Отвечает за синтез голоса, благодаря чему ассистент не только понимает голосовые команды, но и способен общаться с пользователем, отвечать ему.

AI-ассистент запускается и начинает «слушать» пользователя после нажатия кнопки «Старт» в специальной вкладке браузера. Каждый сценарий состоит из цепочки последовательных действий:

Шаг 1: Авторизация. «Марфуша» запрашивает пин-код — лаборант проговаривает его голосом (четыре цифры), тем самым подтверждая наличие своей учетной записи в системе.

Шаг 2: Выбор протокола, в рамках которого проводится опыт. Его по запросу бота пользователь также проговаривает. Под протоколом понимается набор параметров, необходимых для фиксации результата: давление, содержание какого-то вещества, цвет, температура и т.д.

Шаг 3: Выбор пробы. Это числовое значение, индекс (1, 2, 3 и т.д.). Один протокол может включать сколько угодно проб с разными или одинаковыми значениями. Если лаборант называет номер пробы, которого еще нет в базе, ассистент автоматически добавляет его в систему.

Шаг 4: Введение значений. Для новой пробы бот просит назвать данные по тем параметрам, которые были установлены для протокола. Если озвучен ID уже существующей пробы, «Марфуша» проговаривает ранее введенные для нее показатели и предлагает действие на выбор:

«Не хватает». Голосовая команда позволяет ввести значения по пропущенным параметрам. Чтобы ассистент их принял, пользователю необходимо произнести еще одну команду — «Марфуша, стоп». Бот повторит показатели и предложит те же три действия на выбор.
«Повторить». Команда дает возможность лаборанту записать новые показатели по всем параметрам протокола. Для их фиксации — снова «Марфуша, стоп».
«Закончить». Ассистент сохраняет введенные данные в базе и предлагает выбрать новый протокол.

После выбора нового протокола указанные действия повторяются.

Шаг 5: Завершение работы. Чтобы ассистент перестал «слушать», необходимо нажать кнопку «Стоп» в окне браузера.

Записанные в систему данные с результатами проб в рамках различных протоколов можно оформлять в виде отчетов (форматы PDF, Excel, Word — любые), после чего отправлять во внутреннюю систему компании для обработки или отдельным адресатам по электронной почте.

Голосовой помощник "Марфуша": как он работает?

Работая в веб-приложении "Марфуша", управляемое голосом через взрывозащищенную гарнитуру, лаборант записывает параметры проб в базу данных и предлагает действия для их коррекции

Пример рабочего сценария Марфуши и лаборанта

Работая в веб-приложении "Марфуша", управляемое голосом через взрывозащищенную гарнитуру, лаборант записывает параметры проб в базу данных и предлагает действия для их коррекции

Пример рабочего сценария Марфуши и лаборанта

Лаборант:
Марфуша, старт
Марфуша:
Введите пин-код
Лаборант:
Один, два, три, четыре
Марфуша:
Пин-код верен. Назовите, пожалуйста, название протокола.
Лаборант:
Внешний
Марфуша:
Пожалуйста, назовите номер пробы
Лаборант:
Один
Марфуша:
Проба с номером 1 найдена. Введенные параметры: давление - 65.0, изобутан - 5.0, метан - 67.0. Пожалуйста, выберите одно из действий: Не хватает, Закончить, Повторить.
Лаборант:
Повторить
Марфуша:
Пожалуйста, назовите следующие параметры: давление, изобутан, метан.
Лаборант:
Давление - 15,04, изобутан - 16,5, метан - 4,067. Марфуша, стоп.
Марфуша:
Введенные параметры: давление - 15,04, изобутан - 16,5, метан - 4,067. Пожалуйста, выберите одно из действий: Не хватает, Закончить, Повторить.
Лаборант:
Закончить
Марфуша:
Спасибо, результат будет сохранен. Назовите, пожалуйста, название протокола.
Планируемый срок реализации проекта составлял 1 месяц. Однако нам пришлось столкнуться с рядом препятствий, существенно повлиявших на ход работы. Причем в большинстве своем они оказались связаны не с искусственным интеллектом в части трактовки синтеза голоса (что было ожидаемым), а с организацией технической работы самого ассистента.

Первую версию своего решения мы делали как приложение под Windows, запускаемое непосредственно на компьютере. Но оно оказалось слишком «тяжелым» и неудобным в использовании — это могло отразиться на эффективности AI-помощника. Поэтому нами было принято решение перейти на веб-версию — ее пользователь запускает в браузере.

«Побочной» задачей стало договориться с сотрудниками компании, отвечающими за безопасность данных, об открытии портов для использования технологии WebRTC. С ее помощью мы прогоняли звуковые потоки между сервером и клиентом в режиме реального времени. Какое-то время потребовалось и на отладку работы самого WebRTC.
Проделанная нашей командой работа включала следующие этапы:
  1. Подбор инструментов распознавания голоса и его синтеза. Постепенно многие из них были заменены на более эффективные и удобные.
  2. Макетирование основных элементов и внесение изменений в архитектуру по результатам эксперимента.
  3. Уточнение и реализация бизнес-процесса, применяемого в производстве.
  4. Тестирование и стабилизация.

Отдельные задачи мы решали с привлечением внешних консультантов по DevOps и WebRTC.

Общий срок реализации основных этапов проекта составил 4 месяца — вместе с циклами тестирования, поиском решений и оптимизацией.

Бюджет — 2 000 000 рублей.

Организационная «гонка»

Планируемый срок реализации проекта составлял 1 месяц. Однако нам пришлось столкнуться с рядом препятствий, существенно повлиявших на ход работы. Причем в большинстве своем они оказались связаны не с искусственным интеллектом в части трактовки синтеза голоса (что было ожидаемым), а с организацией технической работы самого ассистента.

Первую версию своего решения мы делали как приложение под Windows, запускаемое непосредственно на компьютере. Но оно оказалось слишком «тяжелым» и неудобным в использовании — это могло отразиться на эффективности AI-помощника. Поэтому нами было принято решение перейти на веб-версию — ее пользователь запускает в браузере.

«Побочной» задачей стало договориться с сотрудниками компании, отвечающими за безопасность данных, об открытии портов для использования технологии WebRTC. С ее помощью мы прогоняли звуковые потоки между сервером и клиентом в режиме реального времени. Какое-то время потребовалось и на отладку работы самого WebRTC.
Проделанная нашей командой работа включала следующие этапы:
  1. Подбор инструментов распознавания голоса и его синтеза. Постепенно многие из них были заменены на более эффективные и удобные.
  2. Макетирование основных элементов и внесение изменений в архитектуру по результатам эксперимента.
  3. Уточнение и реализация бизнес-процесса, применяемого в производстве.
  4. Тестирование и стабилизация.

Отдельные задачи мы решали с привлечением внешних консультантов по DevOps и WebRTC.

Общий срок реализации основных этапов проекта составил 4 месяца — вместе с циклами тестирования, поиском решений и оптимизацией.

Бюджет — 2 000 000 рублей.

Организационная «гонка»

Чтобы определить оптимальный способ управления и логику голосового ассистента, нам потребовалось детально «познакомить» его с химической спецификой. В частности, научить распознавать:
  • цифры и дроби (особенно десятичные, которые люди могут произносить по-разному);
  • сложные химические элементы;
  • формулы.

Для нас подобный опыт стал первым и очень ценным. Созданный AI-ассистент понимает слова и параметры, которые другим голосовым ботам не по «зубам», — это и есть основная уникальность решения.

Отдельные химические термины могут состоять из 15-20 букв — их «Марфуша» тоже может распознать. В условиях, когда из способов ввода есть только голос, автоматизация записи столь сложных данных значительно ускоряет рабочий процесс.

Другой важной для нас задачей стала оптимизация задержки ответов ассистента. Проблема в том, что в силу специфики диалогов увеличение скорости напрямую влияет на качество результата.
Любая команда пользователя проходит через определенный «конвейер»:
  • Распознание голоса. На этом этапе возможны потери, когда человек говорит слишком тихо или допускает ошибки в словах.
  • Обработка большой языковой моделью (LLM).
  • Принятие решения.
  • Синтез голоса.

Между голосовым запросом и ответом ИИ возникала существенная пауза. Ассистент молчал — пользователь не понимал, работает он или нет. Это сказывалось на комфорте взаимодействия с ботом.

Мы проделали большую работу по снижению задержки ответа. Сейчас его скорость составляет 2-3 секунды на сообщение. Попытка нарастить ее до половины секунды сказалась на качестве — оно оставалось высоким исключительно на простых диалогах, общих фразах, без сложных химических терминов и значений
Текущая цель — свести задержку ответа ассистента к нулю за счет корректировки архитектуры.
«Марфуша» разбирается в химии
Чтобы определить оптимальный способ управления и логику голосового ассистента, нам потребовалось детально «познакомить» его с химической спецификой. В частности, научить распознавать:
  • цифры и дроби (особенно десятичные, которые люди могут произносить по-разному);
  • сложные химические элементы;
  • формулы.

Для нас подобный опыт стал первым и очень ценным. Созданный AI-ассистент понимает слова и параметры, которые другим голосовым ботам не по «зубам», — это и есть основная уникальность решения.

Отдельные химические термины могут состоять из 15-20 букв — их «Марфуша» тоже может распознать. В условиях, когда из способов ввода есть только голос, автоматизация записи столь сложных данных значительно ускоряет рабочий процесс.

Другой важной для нас задачей стала оптимизация задержки ответов ассистента. Проблема в том, что в силу специфики диалогов увеличение скорости напрямую влияет на качество результата.
Любая команда пользователя проходит через определенный «конвейер»:
  • Распознание голоса. На этом этапе возможны потери, когда человек говорит слишком тихо или допускает ошибки в словах.
  • Обработка большой языковой моделью (LLM).
  • Принятие решения.
  • Синтез голоса.

Между голосовым запросом и ответом ИИ возникала существенная пауза. Ассистент молчал — пользователь не понимал, работает он или нет. Это сказывалось на комфорте взаимодействия с ботом.

Мы проделали большую работу по снижению задержки ответа. Сейчас его скорость составляет 2-3 секунды на сообщение. Попытка нарастить ее до половины секунды сказалась на качестве — оно оставалось высоким исключительно на простых диалогах, общих фразах, без сложных химических терминов и значений
Текущая цель — свести задержку ответа ассистента к нулю за счет корректировки архитектуры.
«Марфуша» разбирается в химии
Решение готово и проходит заключительный этап отладки на стороне заказчика. С помощью нашего голосового ассистента сотрудники клиента получили возможность освободить руки, быстрее решать поставленные задачи, отказаться от необходимости вносить данные в тетрадь — теперь любая информация добавляется голосом сразу в базу.

Лаборант может диктовать результаты текущих проб, запрашивать ранее внесенные значения, корректировать прошлые результаты. Искусственный интеллект проговаривает ту информацию, которую вносит, что минимизирует возникновение ошибок.
Интерфейс веб-версии интуитивно понятен. Но мы все равно предоставили клиенту инструкции по работе с ним и провели серию демонстраций. С нашим решением лаборатории нефтехимической компании стали технологичными и отвечающими современным требованиям рынка.

В планах CYFER — работа над ускорением «Марфуши» и придание диалогам с ней «человечности». Постараемся сделать все, чтобы использование AI-ассистента стало еще более комфортным.

Результат внедрения голосового ассистента в лаборатории

Решение готово и проходит заключительный этап отладки на стороне заказчика. С помощью нашего голосового ассистента сотрудники клиента получили возможность освободить руки, быстрее решать поставленные задачи, отказаться от необходимости вносить данные в тетрадь — теперь любая информация добавляется голосом сразу в базу.

Лаборант может диктовать результаты текущих проб, запрашивать ранее внесенные значения, корректировать прошлые результаты. Искусственный интеллект проговаривает ту информацию, которую вносит, что минимизирует возникновение ошибок.
Интерфейс веб-версии интуитивно понятен. Но мы все равно предоставили клиенту инструкции по работе с ним и провели серию демонстраций. С нашим решением лаборатории нефтехимической компании стали технологичными и отвечающими современным требованиям рынка.

В планах CYFER — работа над ускорением «Марфуши» и придание диалогам с ней «человечности». Постараемся сделать все, чтобы использование AI-ассистента стало еще более комфортным.
Результат внедрения голосового ассистента в лаборатории
Вопросы по внедрению голосового ассистента в компании
?
Вопросы по внедрению голосового ассистента в компании
?

Резюме

Технологический стэк
  • Обработка речи и NLP: Whisper API, Google Speech-to-Text
  • Искусственный интеллект и ML: TensorFlow, PyTorch, специальные модели, обученные на лабораторных данных
  • Интеграция: API для соединения с LIMS, базами данных и другими системами
  • Интерфейс: Голосовой (динамик, микрофон) и текстовый (дисплей, приложение)
Ниша AI-решения
Нефтехимическая промышленность и автоматизация работы лаборантов
Особенности ассистента
  • Распознавание сложных химических терминов, чисел и дробей
  • Минимизация задержки ответа (2-3 секунды на сообщение)
  • Возможность управления протоколами, пробами и параметрами голосом
  • Быстрая авторизация с использованием голосового пин-кода
Этапы работы Марфуши
  • Распознавание голоса: Использование NLP для точного преобразования речи в текст, включая профессиональные термины
  • Контекстная проверка: Ассистент анализирует введенные данные, проверяет их на соответствие лабораторным стандартам
  • Обратная связь: Ассистент подтверждает данные (озвучивает или показывает на дисплее) и предлагает исправления при необходимости
  • Запись данных: После подтверждения данные автоматически сохраняются в систему управления лабораторной информацией (LIMS)
  • Интеграция и отчетность: Данные автоматически встраиваются в существующие рабочие процессы, что позволяет генерировать отчеты в реальном времени
  • Ускорение процесса работы с данными на 40%
  • Снижение ошибок до 0,5% благодаря системной проверке голосовых команд
  • Увеличение продуктивности сотрудников и концентрации на ключевых операциях за счет устранения рутинных задач
  • Уникальная возможность бесперебойного доступа к данным в реальном времени

Готовое решение помогает упростить работу лаборантов, повысить точность данных и внедрить современные технологии в строгие ограничения производства
Результат
Резюме
Технологический стэк
  • Обработка речи и NLP: Whisper API, Google Speech-to-Text
  • Искусственный интеллект и ML: TensorFlow, PyTorch, специальные модели, обученные на лабораторных данных
  • Интеграция: API для соединения с LIMS, базами данных и другими системами
  • Интерфейс: Голосовой (динамик, микрофон) и текстовый (дисплей, приложение)
Ниша AI-решения
Нефтехимическая промышленность и автоматизация работы лаборантов
Особенности ассистента
  • Распознавание сложных химических терминов, чисел и дробей
  • Минимизация задержки ответа (2-3 секунды на сообщение)
  • Возможность управления протоколами, пробами и параметрами голосом
  • Быстрая авторизация с использованием голосового пин-кода
Этапы работы Марфуши
  • Распознавание голоса: Использование NLP для точного преобразования речи в текст, включая профессиональные термины
  • Контекстная проверка: Ассистент анализирует введенные данные, проверяет их на соответствие лабораторным стандартам
  • Обратная связь: Ассистент подтверждает данные (озвучивает или показывает на дисплее) и предлагает исправления при необходимости
  • Запись данных: После подтверждения данные автоматически сохраняются в систему управления лабораторной информацией (LIMS)
  • Интеграция и отчетность: Данные автоматически встраиваются в существующие рабочие процессы, что позволяет генерировать отчеты в реальном времени
  • Ускорение процесса работы с данными на 40%
  • Снижение ошибок до 0,5% благодаря системной проверке голосовых команд
  • Увеличение продуктивности сотрудников и концентрации на ключевых операциях за счет устранения рутинных задач
  • Уникальная возможность бесперебойного доступа к данным в реальном времени

Готовое решение помогает упростить работу лаборантов, повысить точность данных и внедрить современные технологии в строгие ограничения производства
Результат
Внедрите наш голосовой ассистент в ваши рабочие процессы и трансформируйте рутинные операции в быстрые и точные цифровые решения!
Узнайте, как ваш бизнес может получить выгоду от технологий
AI и RAG. Закажите консультацию у CYFER уже сегодня!
Внедрите наш голосовой ассистент в ваши рабочие процессы и трансформируйте рутинные операции в быстрые и точные цифровые решения!
Узнайте, как ваш бизнес может получить выгоду от технологий
AI и RAG. Закажите консультацию у CYFER уже сегодня!
Made on
Tilda