Фильтр фрейма данных по текстовому содержимому

#nlp #artificial-intelligence #recurrent-neural-network #fuzzy-logic

Вопрос:

У меня есть csv-файл, который содержит кучу отзывов. Моя работа состоит в том, чтобы определить, какой аспект продукта A или B больше нравится клиентам. Сначала мне нужно отфильтровать отзывы, которые на самом деле говорят об этих двух аспектах. Это «Струна» и «Поликат».

Я подумал о сопоставлении нечетких строк с помощью библиотеки fuzzywuzzy, чтобы получить все упоминания, даже если они написаны неправильно. Я реализовал это, но я чувствую, что это не дает мне удовлетворительного решения. (Оставляет мне примерно 6% от общего числа отзывов).

Я также думал об использовании рекуррентной нейронной сети, но, поскольку набор данных охватывает только 5000 обзоров, я задаюсь вопросом, может ли это также не подойти.

Какое из двух вы бы развернули, или что-то совсем другое?