Преобразование табличных данных в естественный язык для индексации в поисковой системе

#search #nlp #tabular #bert-language-model #question-answering

Вопрос:

Как преобразовать табличные данные, содержащие различные столбцы / строки, как показано ниже, в более читаемый (естественный язык), чтобы их можно было индексировать для последующих задач поисковой системы. Я знаю, что у нас есть TAPAS (ТАПАС: Слабо контролируемый анализ таблиц с помощью предварительной подготовки), вариант BERT (Google), который специально разработан для QnA табличных данных (Ответы на вопросы). Но проблема в том, что у нас есть существующий поисковый сервис, размещенный в облаке, который способен читать текст на естественном языке и отвечать на основе этого. Поэтому, индексируя целые данные (текст, таблицы), мы теряем ценную информацию в таблицах, поскольку теряются внутренние связи между строками и столбцами. Результатом являются некачественные ответы на информацию внутри таблицы или отсутствие ответа вообще.

Ниже приведен пример: Какое преобразование лучше для табличных данных в читаемый (на естественном языке) формат для семантического поиска без потери контекста. В настоящее время у нас есть рабочее решение, но контекст теряется, поскольку теряется связь, присущая элементам столбцов / строк. Следовательно, выдача некачественных / отсутствие ответов. Если бы мы могли каким-то образом сохранить эту неотъемлемую связь, используя в качестве естественного языка семантический поиск, это улучшило бы качество ответов.

Пожалуйста, обратитесь к приведенному ниже примеру таблицы.

введите описание изображения здесь

Образец 1:

Вопрос: Какая часть функции 2 разрешена в PREMIUM_COMPANY для имени 4

Ответ: Целочисленное значение

Образец 2:

Вопрос: Разрешена ли функция 2 в PREMIUM_COMPANY для имени 7 / Имени 8

Ответ: Разрешено в списке 1 / Не разрешено по имени 8

Отвечая вручную, мы можем сохранить связь между двумя параметрами в столбце/строке, в то время как она теряется, когда мы преобразуем эти таблицы html в обычный текст для индексирования. Наша проблема здесь заключается в том, чтобы решить эту проблему. Существует значительный объем табличных данных, которые являются ценными.

Возможная идея, но сложная для интеграции в существующий сервис, состоит в том, чтобы создать отдельную структуру данных (индекс) для табличных данных и применить TAPAS ее для получения ответов. Нам все еще нужно знать, как помечать табличные данные, чтобы активировать их, когда на вопрос существует возможный ответ.

Не могли бы вы ответить, пожалуйста, если у вас есть какие-либо знания в этой области.