Размер входных данных, разрешенных в AllenNLP - Прогнозе при использовании предиктора

#pytorch #prediction #allennlp

Вопрос:

у кого-нибудь есть представление о том, каков предел размера входного текста, который может быть передан методу прогнозирования(отрывок, вопрос) предикторов AllenNLP.

Я пробовал с отрывком из 30-40 предложений, что работает нормально. Но в конечном счете это не работает для меня, когда я передаю какой-то значительный объем текста вокруг заявления 5K.

Ответ №1:

Какую модель вы используете? Некоторые модели усекают входные данные, другие пытаются обрабатывать входные данные произвольной длины, используя подход со скользящим окном. В последнем случае ограничение будет зависеть от объема памяти, доступной в вашей системе.

1. Привет @petew, я использую transformer-qa и bidaf-модель. Мой ввод содержит около 2 миллионов токенов. В системе, которую я использую, 24vcpus, память 448 ГБ.

2. Вопрос действительно в том, какую самую длинную последовательность вы когда-либо пытались отправить в модель?