Создание определяемой пользователем функции для соединений (Python)

#python #pandas #dfply

Вопрос:

Я ищу простой способ определить функцию, которая будет последовательно соединять таблицы при запуске. Я довольно новичок в Python, но мне была поставлена задача создать пакет, который в значительной степени зависит от соединений для успешной работы.

Я проделал много работы в R, но закончу ее на Python (если только я просто не упрусь в стену). Цель состоит в том, чтобы автоматизировать полную задачу, в которую можно было бы вставить фрейм данных, пропустить его через функцию, а затем представить в нескольких разных представлениях. Для этого потребуется одна функция для каждого представления. Из — за этого существуют

Это ужасно, и, поскольку я знаком с dplyr, я пытаюсь использовать dfply для достижения этой цели.

 def get_hcc(df, df2, df3):
    df = (df >> inner_join(df2, by=[('col1', 'col2'), ('col1', 'col3')]))
    df = df.drop_duplicates()
    df = (df3 >> left_join(df, by = 'col4'))
    return df
 

Если у кого-нибудь есть лучшие идеи о том, как это сделать, мы будем очень признательны!

Спасибо.

Комментарии:

1. пожалуйста, представьте образец фрейма данных/фреймов данных с ожидаемым результатом. Похоже, это можно решить с помощью Панд или оболочек панд.

2. pandas.pydata.org/docs/reference/api/pandas. DataFrame.join.html