Пересечение двух фреймов данных без итерации

#python #pandas

#python #панды

Вопрос:

Итак, у меня есть два df

Номер один:

     Latitude    Longitude   Area
0   -25.66026   28.0914     HappyPlace
1   -25.67923   28.10525    SadPlace
2   -30.68456   19.21694    AveragePlace
3   -30.12345   22.34256    CoolPlace
4   -15.12546   17.12365    BadPlace
  

Номер два:

     Latitude    Longitude   Population
0   -25.66026   28.0914     5000
1   -25.14568   28.10525    1750
2   -30.68456   19.21694    6000
3   -30.65375   22.34256    8000
4   -15.90458   17.12365    5600
  

Я хочу получить места с одинаковой широтой / долготой, поэтому я знаю население. Самое главное, что мне просто нужны пересечения для моего реального проекта

результирующий df:

     Latitude    Longitude   Area
0   -25.66026   28.0914     HappyPlace
2   -30.68456   19.21694    AveragePlace
  

Я пробовал:

 pd.merge(df1, df2, on=['LATITUDE'], how='inner')
  

Не работает возвращает странный df

 set(df1['LATITUDE']).intersection(set(df2['LATITUDE'))
df1[(df1['LATITUDE'] == df2['LATITUDE'])]
df1.where(df1.LATITUDE == df2.LATITUDE)
  

All возвращает ошибку ValueError: можно сравнивать только объекты серии с одинаковыми метками

(Фактический Df очень и очень большой, оба столбца являются плавающими)

Комментарии:

1. Вы хотите: df1[df1['LATITUDE'].isin(df2['LATITUDE'])]

2. Спасибо, что работает, но кто-нибудь может объяснить, почему pd.merge() не сработал?

Ответ №1:

pd.merge() сбой с a KeyError , потому LATITUDE что это неправильный ключ.

Следующий MCVE работает так, как ожидалось.

 import pandas as pd
import numpy as np
print(pd.__version__)

df1_string = """-25.66026   28.0914     HappyPlace
-25.67923   28.10525    SadPlace
-30.68456   19.21694    AveragePlace
-30.12345   22.34256    CoolPlace
-15.12546   17.12365    BadPlace"""

df2_string = """-25.66026   28.0914     5000
-25.14568   28.10525    1750
-30.68456   19.21694    6000
-30.65375   22.34256    8000
-15.90458   17.12365    5600"""

df1 = pd.DataFrame([x.split() for x in df1_string.split('n')], columns=['Latitude', 'Longitude', 'Population'])
df2 = pd.DataFrame([x.split() for x in df2_string.split('n')], columns=['Latitude', 'Longitude', 'Population'])
result = pd.merge(df1, df2, on=['Latitude'], how='inner')
print(set(df1['Latitude']).intersection(set(df2['Latitude'])))
print(df1[(df1['Latitude'] == df2['Latitude'])])
print(df1.where(df1.Latitude == df2.Latitude))

print(result)

  

производит

 0.24.2
{'-25.66026', '-30.68456'}
    Latitude Longitude    Population
0  -25.66026   28.0914    HappyPlace
2  -30.68456  19.21694  AveragePlace
    Latitude Longitude    Population
0  -25.66026   28.0914    HappyPlace
1        NaN       NaN           NaN
2  -30.68456  19.21694  AveragePlace
3        NaN       NaN           NaN
4        NaN       NaN           NaN
    Latitude Longitude_x  Population_x Longitude_y Population_y
0  -25.66026     28.0914    HappyPlace     28.0914         5000
1  -30.68456    19.21694  AveragePlace    19.21694         6000