Создайте ключ с цветовой кодировкой для точечной диаграммы matplotlib с определенными цветами

#python #pandas #matplotlib #legend #scatter-plot

Вопрос:

Вот данные:

 import pandas as pd

data = {'letter': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X'], 'color': ['#FF0000', '#FF7F00', '#FFD400', '#FFFF00', '#BFFF00', '#6AFF00', '#00EAFF', '#0095FF', '#0040FF', '#AA00FF', '#FF00AA', '#EDB9B9', '#E7E9B9', '#B9EDE0', '#B9D7ED', '#DCB9ED', '#8F2323', '#8F6A23', '#4F8F23', '#23628F', '#6B238F', '#000000', '#737373', '#CCCCCC'], 'percent': [0.59, 0.569, 0.343, 0.791, 0.099, 0.047, 0.387, 0.232, 0.262, 0.177, 0.522, 0.317, 0.252, 0.617, 0.644, 0.571, 0.382, 0.12, 0.281, 0.855, 0.283, 1.0, 0.844, 0.499], 'score': [0.541, 0.399, 0.625, 0.584, 0.83, 0.859, 0.62, 0.618, 0.545, 0.536, 0.513, 0.563, 0.592, 0.276, 0.037, 0.0, 0.5, 0.653, 0.485, 0.213, 0.44, 0.0, 0.308, 0.35]}
df = pd.DataFrame(data)

# display(df.head())
  letter    color  percent  score
0      A  #FF0000    0.590  0.541
1      B  #FF7F00    0.569  0.399
2      C  #FFD400    0.343  0.625
3      D  #FFFF00    0.791  0.584
4      E  #BFFF00    0.099  0.830
 

Где крайний левый столбец-это индекс.

Этот код создает точечную диаграмму:

 df.plot.scatter(x='percent', y='score', color=df['color'])
 

введите описание изображения здесь

Справа я хочу иметь ключ, указывающий, какой цвет представляет какую букву. В идеале это должен быть список сплошных цветных прямоугольников и буквы. Я не смог найти решение, в котором можно было бы использовать выбранные ими цвета, но мне нужно такое поведение, так как будет несколько графиков, которые должны быть закодированы одинаковым образом.

Ответ №1:

Вы можете использовать .legend метод объекта Axes:

 import matplotlib.lines as mlines

ax = df.plot.scatter(x='percent', y='score', color=df['color'])

ax.legend(handles=[mlines.Line2D([], [], color=r['color'], marker='.', linestyle='None',
                                 markersize=9, label=r['letter'])
                   for _, r in df.iterrows()
                  ],
          ncol=3,
          bbox_to_anchor=(1, 1)
         )
 

пользовательская легенда

nb. На мой взгляд, вам не следует перебирать ~10 цветных элементов, это сильно влияет на читабельность

Поскольку у вас есть один элемент на цвет, вы можете напрямую аннотировать точки:

 ax = df.plot.scatter(x='percent', y='score', color=df['color'])

for _, r in df.iterrows():
    ax.annotate(r['letter'], (r['percent'], r['score']), ha='left', va='bottom')
 

аннотация точечной диаграммы

Комментарии:

1. Спасибо вам за предложение прокомментировать пункты. Имена, связанные с каждой точкой в фактических данных, на самом деле намного длиннее, но я посмотрю, что мой соавтор думает об использовании сокращений.

2. @SteeleFarnsworth Хорошо, спасибо за отзыв. Из любопытства, почему вы выбрали другой ответ?

3. Только потому, что предоставленный код решает проблему более лаконично. Я также ценю ваш ответ.

Ответ №2:

Вы можете использовать mpatches.Патч для пользовательской легенды.

 import matplotlib.patches as mpatches

ax = df.plot.scatter(x='percent', y='score', color=df['color'])

colorlist = zip(df['letter'], df['color'])
handles = [mpatches.Patch(color=colour, label=label) for label, colour in colorlist]
labels = df['letter']

ax.legend(handles, labels, ncol=2, bbox_to_anchor=(1, 1))
 

результат matplotlib

В качестве альтернативы вы можете использовать сиборн

 import seaborn as sns

ax = sns.scatterplot(x=df['percent'], y=df['score'], palette=df['color'].tolist(), hue=df['letter'])
ax.legend(ncol=2, bbox_to_anchor=(1, 1))
 

результат seaborn