CYFER | БЛОГ

AI-секретарь для лаборанта: оперативное внесение результатов проб голосом

Идейными вдохновителями для нас порой становятся сами клиенты, а точнее — их уникальные потребности. Один из таких проектов был запущен после обращения сибирской нефтехимической компании, которая хотела повысить производительность своих лаборантов с помощью внедрения в их рабочий процесс искусственного интеллекта.

Идейными вдохновителями для нас порой становятся сами клиенты, а точнее — их уникальные потребности. Один из таких проектов был запущен после обращения сибирской нефтехимической компании, которая хотела повысить производительность своих лаборантов с помощью внедрения в их рабочий процесс искусственного интеллекта.

Причина — лаборатории компании невозможно оснастить компьютерами, там нельзя пользоваться обычными средствами ввода: клавиатурой, мышкой и сенсорной панелью. Допускается присутствие исключительно взрывозащищенных устройств. При этом клиент хотел, чтобы лаборанты могли вносить результаты своих исследований оперативно, не прибегая к записям вручную.

Компания CYFER приняла вызов и нашла решение. Нашей задачей стало создание AI-ассистента лаборанта, которым можно управлять при помощи взрывозащищенной голосовой гарнитуры. Диктовать результаты проб и прослушивать ранее внесенные показатели с автоматическим внесением всей информации на портал предприятия.

Для клиента решение представляет собой веб-приложение, работающее через браузер. Общение с ботом происходит через взрывозащищенную беспроводную гарнитуру, которая подключается к компьютеру. Кодовое название ассистента — «Марфуша» . С технологической точки зрения он имеет несколько составляющих:

«Легкие» модули Vosk. Отвечают за распознавание ключевых слов, связанных с активацией и деактивацией ассистента.

GigaAM от Сбербанка (аналог Whisper). Начинает работать после включения ассистента. Его задача — производить качественную расшифровку голоса, обрабатывать полученный текст и организовывать основную логику всего рабочего процесса.

Технология TTS. Отвечает за синтез голоса, благодаря чему ассистент не только понимает голосовые команды, но и способен общаться с пользователем, отвечать ему.

AI-ассистент запускается и начинает «слушать» пользователя после нажатия кнопки «Старт» в специальной вкладке браузера. Каждый сценарий состоит из цепочки последовательных действий:

Шаг 1: Авторизация. «Марфуша» запрашивает пин-код — лаборант проговаривает его голосом (четыре цифры), тем самым подтверждая наличие своей учетной записи в системе.

Шаг 2: Выбор протокола, в рамках которого проводится опыт. Его по запросу бота пользователь также проговаривает. Под протоколом понимается набор параметров, необходимых для фиксации результата: давление, содержание какого-то вещества, цвет, температура и т.д.

Шаг 3: Выбор пробы. Это числовое значение, индекс (1, 2, 3 и т.д.). Один протокол может включать сколько угодно проб с разными или одинаковыми значениями. Если лаборант называет номер пробы, которого еще нет в базе, ассистент автоматически добавляет его в систему.

Шаг 4: Введение значений. Для новой пробы бот просит назвать данные по тем параметрам, которые были установлены для протокола. Если озвучен ID уже существующей пробы, «Марфуша» проговаривает ранее введенные для нее показатели и предлагает действие на выбор:

— «Не хватает». Голосовая команда позволяет ввести значения по пропущенным параметрам. Чтобы ассистент их принял, пользователю необходимо произнести еще одну команду — «Марфуша, стоп». Бот повторит показатели и предложит те же три действия на выбор.
— «Повторить». Команда дает возможность лаборанту записать новые показатели по всем параметрам протокола. Для их фиксации — снова «Марфуша, стоп».
— «Закончить». Ассистент сохраняет введенные данные в базе и предлагает выбрать новый протокол.

После выбора нового протокола указанные действия повторяются.

Шаг 5: Завершение работы. Чтобы ассистент перестал «слушать», необходимо нажать кнопку «Стоп» в окне браузера.

Записанные в систему данные с результатами проб в рамках различных протоколов можно оформлять в виде отчетов (форматы PDF, Excel, Word — любые), после чего отправлять во внутреннюю систему компании для обработки или отдельным адресатам по электронной почте.

Голосовой помощник "Марфуша": как он работает?

Для клиента решение представляет собой веб-приложение, работающее через браузер. Общение с ботом происходит через взрывозащищенную беспроводную гарнитуру, которая подключается к компьютеру. Кодовое название ассистента — «Марфуша» . С технологической точки зрения он имеет несколько составляющих:

«Легкие» модули Vosk. Отвечают за распознавание ключевых слов, связанных с активацией и деактивацией ассистента.

GigaAM от Сбербанка (аналог Whisper). Начинает работать после включения ассистента. Его задача — производить качественную расшифровку голоса, обрабатывать полученный текст и организовывать основную логику всего рабочего процесса.

Технология TTS. Отвечает за синтез голоса, благодаря чему ассистент не только понимает голосовые команды, но и способен общаться с пользователем, отвечать ему.

AI-ассистент запускается и начинает «слушать» пользователя после нажатия кнопки «Старт» в специальной вкладке браузера. Каждый сценарий состоит из цепочки последовательных действий:

Шаг 1: Авторизация. «Марфуша» запрашивает пин-код — лаборант проговаривает его голосом (четыре цифры), тем самым подтверждая наличие своей учетной записи в системе.

Шаг 2: Выбор протокола, в рамках которого проводится опыт. Его по запросу бота пользователь также проговаривает. Под протоколом понимается набор параметров, необходимых для фиксации результата: давление, содержание какого-то вещества, цвет, температура и т.д.

Шаг 3: Выбор пробы. Это числовое значение, индекс (1, 2, 3 и т.д.). Один протокол может включать сколько угодно проб с разными или одинаковыми значениями. Если лаборант называет номер пробы, которого еще нет в базе, ассистент автоматически добавляет его в систему.

Шаг 4: Введение значений. Для новой пробы бот просит назвать данные по тем параметрам, которые были установлены для протокола. Если озвучен ID уже существующей пробы, «Марфуша» проговаривает ранее введенные для нее показатели и предлагает действие на выбор:

— «Не хватает». Голосовая команда позволяет ввести значения по пропущенным параметрам. Чтобы ассистент их принял, пользователю необходимо произнести еще одну команду — «Марфуша, стоп». Бот повторит показатели и предложит те же три действия на выбор.
— «Повторить». Команда дает возможность лаборанту записать новые показатели по всем параметрам протокола. Для их фиксации — снова «Марфуша, стоп».
— «Закончить». Ассистент сохраняет введенные данные в базе и предлагает выбрать новый протокол.

После выбора нового протокола указанные действия повторяются.

Шаг 5: Завершение работы. Чтобы ассистент перестал «слушать», необходимо нажать кнопку «Стоп» в окне браузера.

Записанные в систему данные с результатами проб в рамках различных протоколов можно оформлять в виде отчетов (форматы PDF, Excel, Word — любые), после чего отправлять во внутреннюю систему компании для обработки или отдельным адресатам по электронной почте.

Голосовой помощник "Марфуша": как он работает?

Работая в веб-приложении "Марфуша", управляемое голосом через взрывозащищенную гарнитуру, лаборант записывает параметры проб в базу данных и предлагает действия для их коррекции

Пример рабочего сценария Марфуши и лаборанта

Работая в веб-приложении "Марфуша", управляемое голосом через взрывозащищенную гарнитуру, лаборант записывает параметры проб в базу данных и предлагает действия для их коррекции

Пример рабочего сценария Марфуши и лаборанта

Лаборант:

Марфуша, старт

Марфуша:

Введите пин-код

Лаборант:

Один, два, три, четыре

Марфуша:

Пин-код верен. Назовите, пожалуйста, название протокола.

Лаборант:

Внешний

Марфуша:

Пожалуйста, назовите номер пробы

Лаборант:

Один

Марфуша:

Проба с номером 1 найдена. Введенные параметры: давление - 65.0, изобутан - 5.0, метан - 67.0. Пожалуйста, выберите одно из действий: Не хватает, Закончить, Повторить.

Лаборант:

Повторить

Марфуша:

Пожалуйста, назовите следующие параметры: давление, изобутан, метан.

Лаборант:

Давление - 15,04, изобутан - 16,5, метан - 4,067. Марфуша, стоп.

Марфуша:

Введенные параметры: давление - 15,04, изобутан - 16,5, метан - 4,067. Пожалуйста, выберите одно из действий: Не хватает, Закончить, Повторить.

Лаборант:

Закончить

Марфуша:

Спасибо, результат будет сохранен. Назовите, пожалуйста, название протокола.

Планируемый срок реализации проекта составлял 1 месяц. Однако нам пришлось столкнуться с рядом препятствий, существенно повлиявших на ход работы. Причем в большинстве своем они оказались связаны не с искусственным интеллектом в части трактовки синтеза голоса (что было ожидаемым), а с организацией технической работы самого ассистента.

Первую версию своего решения мы делали как приложение под Windows, запускаемое непосредственно на компьютере. Но оно оказалось слишком «тяжелым» и неудобным в использовании — это могло отразиться на эффективности AI-помощника. Поэтому нами было принято решение перейти на веб-версию — ее пользователь запускает в браузере.

«Побочной» задачей стало договориться с сотрудниками компании, отвечающими за безопасность данных, об открытии портов для использования технологии WebRTC. С ее помощью мы прогоняли звуковые потоки между сервером и клиентом в режиме реального времени. Какое-то время потребовалось и на отладку работы самого WebRTC.

Проделанная нашей командой работа включала следующие этапы:

Подбор инструментов распознавания голоса и его синтеза. Постепенно многие из них были заменены на более эффективные и удобные.
Макетирование основных элементов и внесение изменений в архитектуру по результатам эксперимента.
Уточнение и реализация бизнес-процесса, применяемого в производстве.
Тестирование и стабилизация.

Отдельные задачи мы решали с привлечением внешних консультантов по DevOps и WebRTC.

Общий срок реализации основных этапов проекта составил 4 месяца — вместе с циклами тестирования, поиском решений и оптимизацией.

Бюджет — 2 000 000 рублей.

Организационная «гонка»

Планируемый срок реализации проекта составлял 1 месяц. Однако нам пришлось столкнуться с рядом препятствий, существенно повлиявших на ход работы. Причем в большинстве своем они оказались связаны не с искусственным интеллектом в части трактовки синтеза голоса (что было ожидаемым), а с организацией технической работы самого ассистента.

Первую версию своего решения мы делали как приложение под Windows, запускаемое непосредственно на компьютере. Но оно оказалось слишком «тяжелым» и неудобным в использовании — это могло отразиться на эффективности AI-помощника. Поэтому нами было принято решение перейти на веб-версию — ее пользователь запускает в браузере.

«Побочной» задачей стало договориться с сотрудниками компании, отвечающими за безопасность данных, об открытии портов для использования технологии WebRTC. С ее помощью мы прогоняли звуковые потоки между сервером и клиентом в режиме реального времени. Какое-то время потребовалось и на отладку работы самого WebRTC.

Проделанная нашей командой работа включала следующие этапы:

Подбор инструментов распознавания голоса и его синтеза. Постепенно многие из них были заменены на более эффективные и удобные.
Макетирование основных элементов и внесение изменений в архитектуру по результатам эксперимента.
Уточнение и реализация бизнес-процесса, применяемого в производстве.
Тестирование и стабилизация.

Отдельные задачи мы решали с привлечением внешних консультантов по DevOps и WebRTC.

Общий срок реализации основных этапов проекта составил 4 месяца — вместе с циклами тестирования, поиском решений и оптимизацией.

Бюджет — 2 000 000 рублей.

Организационная «гонка»

Чтобы определить оптимальный способ управления и логику голосового ассистента, нам потребовалось детально «познакомить» его с химической спецификой. В частности, научить распознавать:

цифры и дроби (особенно десятичные, которые люди могут произносить по-разному);
сложные химические элементы;
формулы.

Для нас подобный опыт стал первым и очень ценным. Созданный AI-ассистент понимает слова и параметры, которые другим голосовым ботам не по «зубам», — это и есть основная уникальность решения.

Отдельные химические термины могут состоять из 15-20 букв — их «Марфуша» тоже может распознать. В условиях, когда из способов ввода есть только голос, автоматизация записи столь сложных данных значительно ускоряет рабочий процесс.

Другой важной для нас задачей стала оптимизация задержки ответов ассистента. Проблема в том, что в силу специфики диалогов увеличение скорости напрямую влияет на качество результата.

Любая команда пользователя проходит через определенный «конвейер»:

Распознание голоса. На этом этапе возможны потери, когда человек говорит слишком тихо или допускает ошибки в словах.
Обработка большой языковой моделью (LLM).
Принятие решения.
Синтез голоса.

Между голосовым запросом и ответом ИИ возникала существенная пауза. Ассистент молчал — пользователь не понимал, работает он или нет. Это сказывалось на комфорте взаимодействия с ботом.

Мы проделали большую работу по снижению задержки ответа. Сейчас его скорость составляет 2-3 секунды на сообщение. Попытка нарастить ее до половины секунды сказалась на качестве — оно оставалось высоким исключительно на простых диалогах, общих фразах, без сложных химических терминов и значений

Текущая цель — свести задержку ответа ассистента к нулю за счет корректировки архитектуры.

«Марфуша» разбирается в химии

Чтобы определить оптимальный способ управления и логику голосового ассистента, нам потребовалось детально «познакомить» его с химической спецификой. В частности, научить распознавать:

цифры и дроби (особенно десятичные, которые люди могут произносить по-разному);
сложные химические элементы;
формулы.

Для нас подобный опыт стал первым и очень ценным. Созданный AI-ассистент понимает слова и параметры, которые другим голосовым ботам не по «зубам», — это и есть основная уникальность решения.

Отдельные химические термины могут состоять из 15-20 букв — их «Марфуша» тоже может распознать. В условиях, когда из способов ввода есть только голос, автоматизация записи столь сложных данных значительно ускоряет рабочий процесс.

Другой важной для нас задачей стала оптимизация задержки ответов ассистента. Проблема в том, что в силу специфики диалогов увеличение скорости напрямую влияет на качество результата.

Любая команда пользователя проходит через определенный «конвейер»:

Распознание голоса. На этом этапе возможны потери, когда человек говорит слишком тихо или допускает ошибки в словах.
Обработка большой языковой моделью (LLM).
Принятие решения.
Синтез голоса.

Между голосовым запросом и ответом ИИ возникала существенная пауза. Ассистент молчал — пользователь не понимал, работает он или нет. Это сказывалось на комфорте взаимодействия с ботом.

Мы проделали большую работу по снижению задержки ответа. Сейчас его скорость составляет 2-3 секунды на сообщение. Попытка нарастить ее до половины секунды сказалась на качестве — оно оставалось высоким исключительно на простых диалогах, общих фразах, без сложных химических терминов и значений

Текущая цель — свести задержку ответа ассистента к нулю за счет корректировки архитектуры.

«Марфуша» разбирается в химии

Решение готово и проходит заключительный этап отладки на стороне заказчика. С помощью нашего голосового ассистента сотрудники клиента получили возможность освободить руки, быстрее решать поставленные задачи, отказаться от необходимости вносить данные в тетрадь — теперь любая информация добавляется голосом сразу в базу.

Лаборант может диктовать результаты текущих проб, запрашивать ранее внесенные значения, корректировать прошлые результаты. Искусственный интеллект проговаривает ту информацию, которую вносит, что минимизирует возникновение ошибок.

Интерфейс веб-версии интуитивно понятен. Но мы все равно предоставили клиенту инструкции по работе с ним и провели серию демонстраций. С нашим решением лаборатории нефтехимической компании стали технологичными и отвечающими современным требованиям рынка.

В планах CYFER — работа над ускорением «Марфуши» и придание диалогам с ней «человечности». Постараемся сделать все, чтобы использование AI-ассистента стало еще более комфортным.

Результат внедрения голосового ассистента в лаборатории

Решение готово и проходит заключительный этап отладки на стороне заказчика. С помощью нашего голосового ассистента сотрудники клиента получили возможность освободить руки, быстрее решать поставленные задачи, отказаться от необходимости вносить данные в тетрадь — теперь любая информация добавляется голосом сразу в базу.

Лаборант может диктовать результаты текущих проб, запрашивать ранее внесенные значения, корректировать прошлые результаты. Искусственный интеллект проговаривает ту информацию, которую вносит, что минимизирует возникновение ошибок.

Интерфейс веб-версии интуитивно понятен. Но мы все равно предоставили клиенту инструкции по работе с ним и провели серию демонстраций. С нашим решением лаборатории нефтехимической компании стали технологичными и отвечающими современным требованиям рынка.

В планах CYFER — работа над ускорением «Марфуши» и придание диалогам с ней «человечности». Постараемся сделать все, чтобы использование AI-ассистента стало еще более комфортным.

Результат внедрения голосового ассистента в лаборатории

Вопросы по внедрению голосового ассистента в компании

?

Вопросы по внедрению голосового ассистента в компании

?

Резюме

Технологический стэк

Обработка речи и NLP: Whisper API, Google Speech-to-Text
Искусственный интеллект и ML: TensorFlow, PyTorch, специальные модели, обученные на лабораторных данных
Интеграция: API для соединения с LIMS, базами данных и другими системами
Интерфейс: Голосовой (динамик, микрофон) и текстовый (дисплей, приложение)

Ниша AI-решения

Нефтехимическая промышленность и автоматизация работы лаборантов

Особенности ассистента

Распознавание сложных химических терминов, чисел и дробей
Минимизация задержки ответа (2-3 секунды на сообщение)
Возможность управления протоколами, пробами и параметрами голосом
Быстрая авторизация с использованием голосового пин-кода

Этапы работы Марфуши

Распознавание голоса: Использование NLP для точного преобразования речи в текст, включая профессиональные термины
Контекстная проверка: Ассистент анализирует введенные данные, проверяет их на соответствие лабораторным стандартам
Обратная связь: Ассистент подтверждает данные (озвучивает или показывает на дисплее) и предлагает исправления при необходимости
Запись данных: После подтверждения данные автоматически сохраняются в систему управления лабораторной информацией (LIMS)
Интеграция и отчетность: Данные автоматически встраиваются в существующие рабочие процессы, что позволяет генерировать отчеты в реальном времени

Ускорение процесса работы с данными на 40%
Снижение ошибок до 0,5% благодаря системной проверке голосовых команд
Увеличение продуктивности сотрудников и концентрации на ключевых операциях за счет устранения рутинных задач
Уникальная возможность бесперебойного доступа к данным в реальном времени

Готовое решение помогает упростить работу лаборантов, повысить точность данных и внедрить современные технологии в строгие ограничения производства

Результат

Резюме

Технологический стэк

Обработка речи и NLP: Whisper API, Google Speech-to-Text
Искусственный интеллект и ML: TensorFlow, PyTorch, специальные модели, обученные на лабораторных данных
Интеграция: API для соединения с LIMS, базами данных и другими системами
Интерфейс: Голосовой (динамик, микрофон) и текстовый (дисплей, приложение)

Ниша AI-решения

Нефтехимическая промышленность и автоматизация работы лаборантов

Особенности ассистента

Распознавание сложных химических терминов, чисел и дробей
Минимизация задержки ответа (2-3 секунды на сообщение)
Возможность управления протоколами, пробами и параметрами голосом
Быстрая авторизация с использованием голосового пин-кода

Этапы работы Марфуши

Распознавание голоса: Использование NLP для точного преобразования речи в текст, включая профессиональные термины
Контекстная проверка: Ассистент анализирует введенные данные, проверяет их на соответствие лабораторным стандартам
Обратная связь: Ассистент подтверждает данные (озвучивает или показывает на дисплее) и предлагает исправления при необходимости
Запись данных: После подтверждения данные автоматически сохраняются в систему управления лабораторной информацией (LIMS)
Интеграция и отчетность: Данные автоматически встраиваются в существующие рабочие процессы, что позволяет генерировать отчеты в реальном времени

Ускорение процесса работы с данными на 40%
Снижение ошибок до 0,5% благодаря системной проверке голосовых команд
Увеличение продуктивности сотрудников и концентрации на ключевых операциях за счет устранения рутинных задач
Уникальная возможность бесперебойного доступа к данным в реальном времени

Готовое решение помогает упростить работу лаборантов, повысить точность данных и внедрить современные технологии в строгие ограничения производства

Результат

Внедрите наш голосовой ассистент в ваши рабочие процессы и трансформируйте рутинные операции в быстрые и точные цифровые решения!

Узнайте, как ваш бизнес может получить выгоду от технологий
AI и RAG. Закажите консультацию у CYFER уже сегодня!

ОБСУДИТЬ ПРОЕКТ ИНТЕГРАЦИИ

Внедрите наш голосовой ассистент в ваши рабочие процессы и трансформируйте рутинные операции в быстрые и точные цифровые решения!

Узнайте, как ваш бизнес может получить выгоду от технологий
AI и RAG. Закажите консультацию у CYFER уже сегодня!

ОБСУДИТЬ ПРОЕКТ ИНТЕГРАЦИИ