#python #pandas
#python #панды
Вопрос:
Итак, у меня есть два df
Номер один:
Latitude Longitude Area
0 -25.66026 28.0914 HappyPlace
1 -25.67923 28.10525 SadPlace
2 -30.68456 19.21694 AveragePlace
3 -30.12345 22.34256 CoolPlace
4 -15.12546 17.12365 BadPlace
Номер два:
Latitude Longitude Population
0 -25.66026 28.0914 5000
1 -25.14568 28.10525 1750
2 -30.68456 19.21694 6000
3 -30.65375 22.34256 8000
4 -15.90458 17.12365 5600
Я хочу получить места с одинаковой широтой / долготой, поэтому я знаю население. Самое главное, что мне просто нужны пересечения для моего реального проекта
результирующий df:
Latitude Longitude Area
0 -25.66026 28.0914 HappyPlace
2 -30.68456 19.21694 AveragePlace
Я пробовал:
pd.merge(df1, df2, on=['LATITUDE'], how='inner')
Не работает возвращает странный df
set(df1['LATITUDE']).intersection(set(df2['LATITUDE'))
df1[(df1['LATITUDE'] == df2['LATITUDE'])]
df1.where(df1.LATITUDE == df2.LATITUDE)
All возвращает ошибку ValueError: можно сравнивать только объекты серии с одинаковыми метками
(Фактический Df очень и очень большой, оба столбца являются плавающими)
Комментарии:
1. Вы хотите:
df1[df1['LATITUDE'].isin(df2['LATITUDE'])]
2. Спасибо, что работает, но кто-нибудь может объяснить, почему pd.merge() не сработал?
Ответ №1:
pd.merge()
сбой с a KeyError
, потому LATITUDE
что это неправильный ключ.
Следующий MCVE работает так, как ожидалось.
import pandas as pd
import numpy as np
print(pd.__version__)
df1_string = """-25.66026 28.0914 HappyPlace
-25.67923 28.10525 SadPlace
-30.68456 19.21694 AveragePlace
-30.12345 22.34256 CoolPlace
-15.12546 17.12365 BadPlace"""
df2_string = """-25.66026 28.0914 5000
-25.14568 28.10525 1750
-30.68456 19.21694 6000
-30.65375 22.34256 8000
-15.90458 17.12365 5600"""
df1 = pd.DataFrame([x.split() for x in df1_string.split('n')], columns=['Latitude', 'Longitude', 'Population'])
df2 = pd.DataFrame([x.split() for x in df2_string.split('n')], columns=['Latitude', 'Longitude', 'Population'])
result = pd.merge(df1, df2, on=['Latitude'], how='inner')
print(set(df1['Latitude']).intersection(set(df2['Latitude'])))
print(df1[(df1['Latitude'] == df2['Latitude'])])
print(df1.where(df1.Latitude == df2.Latitude))
print(result)
производит
0.24.2
{'-25.66026', '-30.68456'}
Latitude Longitude Population
0 -25.66026 28.0914 HappyPlace
2 -30.68456 19.21694 AveragePlace
Latitude Longitude Population
0 -25.66026 28.0914 HappyPlace
1 NaN NaN NaN
2 -30.68456 19.21694 AveragePlace
3 NaN NaN NaN
4 NaN NaN NaN
Latitude Longitude_x Population_x Longitude_y Population_y
0 -25.66026 28.0914 HappyPlace 28.0914 5000
1 -30.68456 19.21694 AveragePlace 19.21694 6000