#python #pandas #data-analysis #data-cleaning
Вопрос:
Я очищаю некоторые данные и задаюсь вопросом, как удалить завершающие фразы. Я не хочу избавляться от всех чисел, так как у некоторых ароматов есть числа. Первая таблица-это предварительно очищенные данные, вторая таблица-это то, что мне нужно.
Аромат |
---|
Апельсин 5 мл |
Вишня |
Клубника 5 мг/мл |
аромат № 1 |
Маракуйя 1. |
Цветущая вишня |
Аромат |
---|
Оранжевый |
Вишня |
Клубника |
аромат № 1 |
Маракуйя |
Цветущая вишня |
Ответ №1:
Как и любая очистка данных, для этого требуется знание всего набора данных, поэтому помощь, которую вы можете получить, минимальна. Тем не менее, я подготовил регулярное выражение, которое вы можете использовать для удаления чисел, пробелов, единиц ( ml
, mg
), косых черт ( /
) и точек ( .
) из конца строк:
s*b[/mglds.] $
Вы можете использовать его вот так:
df['Flavor'] = df['Flavor'].str.replace(r's*b[/mglds.]
, '', regex=True)