#python #pandas #dfply
Вопрос:
Я ищу простой способ определить функцию, которая будет последовательно соединять таблицы при запуске. Я довольно новичок в Python, но мне была поставлена задача создать пакет, который в значительной степени зависит от соединений для успешной работы.
Я проделал много работы в R, но закончу ее на Python (если только я просто не упрусь в стену). Цель состоит в том, чтобы автоматизировать полную задачу, в которую можно было бы вставить фрейм данных, пропустить его через функцию, а затем представить в нескольких разных представлениях. Для этого потребуется одна функция для каждого представления. Из — за этого существуют
Это ужасно, и, поскольку я знаком с dplyr, я пытаюсь использовать dfply для достижения этой цели.
def get_hcc(df, df2, df3):
df = (df >> inner_join(df2, by=[('col1', 'col2'), ('col1', 'col3')]))
df = df.drop_duplicates()
df = (df3 >> left_join(df, by = 'col4'))
return df
Если у кого-нибудь есть лучшие идеи о том, как это сделать, мы будем очень признательны!
Спасибо.
Комментарии:
1. пожалуйста, представьте образец фрейма данных/фреймов данных с ожидаемым результатом. Похоже, это можно решить с помощью Панд или оболочек панд.
2. pandas.pydata.org/docs/reference/api/pandas. DataFrame.join.html