Очистка данных — удаление завершающих фраз

#python #pandas #data-analysis #data-cleaning

Вопрос:

Я очищаю некоторые данные и задаюсь вопросом, как удалить завершающие фразы. Я не хочу избавляться от всех чисел, так как у некоторых ароматов есть числа. Первая таблица-это предварительно очищенные данные, вторая таблица-это то, что мне нужно.

Аромат
Апельсин 5 мл
Вишня
Клубника 5 мг/мл
аромат № 1
Маракуйя 1.
Цветущая вишня
Аромат
Оранжевый
Вишня
Клубника
аромат № 1
Маракуйя
Цветущая вишня

Ответ №1:

Как и любая очистка данных, для этого требуется знание всего набора данных, поэтому помощь, которую вы можете получить, минимальна. Тем не менее, я подготовил регулярное выражение, которое вы можете использовать для удаления чисел, пробелов, единиц ( ml , mg ), косых черт ( / ) и точек ( . ) из конца строк:

 s*b[/mglds.] $  

Вы можете использовать его вот так:

 df['Flavor'] = df['Flavor'].str.replace(r's*b[/mglds.] 



, '', regex=True)