Для того чтобы подготовить данные для обучения Бота, мы можем провести кластеризацию имеющихся диалогов с пользователями и клиентами (майнинг интентов). История диалогов разбивается на тематики, и в каждой тематике оказываются примеры реплик Собеседников и готовые ответы на них Оператора. Примеры высказываний Собеседников в дальнейшем включаются в обучающую выборку фраз для интентов, а ответы Оператора используются при прописывании ответов Бота в Диалоговом Сценарии.
Формат данных для кластеризации следующий:
Таблица формата CSV;
Каждое сообщение (MESSAGE) располагается в отдельной строке таблицы;
Каждому диалогу присвоен уникальный ID номер (DIALOG_ID) – ID диалога должен быть числом;
Все сообщения в каждом отдельном диалоге обладают разметкой того, к кому они относятся (к клиенту или к Оператору): MESSAGE_TYPE равен 0, если это сообщение Собеседника, равен 1, если это сообщение Оператора.
Сообщения внутри диалога сопровождаются датой и временем отправки: DIALOG_DT.
Внутри строк сообщения должны быть удалены все кавычки.
Пример файла с данными в правильном формате доступен по