Python plotly: установка ширины поля в прямоугольном графике пропорционально количеству строк в этой категории

#python #boxplot #plotly-python

#python #boxplot #plotly-python

Вопрос:

У меня есть такой фрейм данных в Python:

 import numpy  as np
import pandas as pd

import plotly.graph_objects  as go
import plotly.figure_factory as ff

np.random.seed(1234)
df = pd.DataFrame(np.random.randn(10, 4),
                  columns=['Col1', 'Col2', 'Col3', 'Col4'])

df['id'] = range(1, len(df.index) 1)

df


# making a long dataframe
# sorting the dataframe by value (i.e. randomly)
long_df = df.melt(id_vars = ['id'], 
                          var_name   = 'type', 
                          value_name = 'value').sort_values(by='value')

long_df['id'] = range(1, len(long_df.index) 1)
long_df.head()

long_df = long_df.drop(long_df[long_df.id < 10].index)
long_df.head()

long_df['type'].value_counts().sort_index()
 

и я создал boxplot, используя эти команды:

 box_plot= ff.create_facet_grid(
    long_df,
    x = 'type',
    y = 'value',

    trace_type = 'box', 
    color_name = 'type',
    color_is_cat = True,
    width = 1000,
    ggplot2 = False,
    showlegend = False,
)

box_plot.show()
 

введите описание изображения здесь
Есть ли какой-нибудь способ установить ширину поля пропорционально количеству строк в этой категории? (аналогично тому, как это делает R). Я ожидаю, что ширина поля будет в таком порядке (от тонкой до толстой): col2 (n = 5) -> col4 (n = 7) -> col1 (n = 9) -> col3 (n = 10)

Ответ №1:

Это можно сделать с помощью matplotlib:

 import numpy  as np
import pandas as pd
import matplotlib.pyplot as plt

np.random.seed(1234)
df = pd.DataFrame(np.random.randn(10, 4),
                  columns=['Col1', 'Col2', 'Col3', 'Col4'])

df['id'] = range(1, len(df.index) 1)

# making a long dataframe
# sorting the dataframe by value (i.e. randomly)
long_df = df.melt(id_vars=['id'],
                  var_name='type',
                  value_name='value').sort_values(by='value')

long_df['id'] = range(1, len(long_df.index) 1)
long_df = long_df.drop(long_df[long_df.id < 10].index)
long_df['type'].value_counts().sort_index()

cols = ['red', 'green', 'blue', 'orange']
plt.style.use('ggplot')
fig, ax = plt.subplots()

for i, col in enumerate(sorted(long_df['type'].unique(), key=lambda c: long_df[long_df['type'] == c].shape[0])):
    col_df = long_df[long_df['type'] == col]
    bp = plt.boxplot(col_df['value'],
                     positions=[i*120],
                     widths=len(col_df['value'])*10,
                     patch_artist=True,
                     labels=[col]
                     )
    for element in ['boxes', 'whiskers', 'fliers', 'means', 'medians', 'caps']:
        plt.setp(bp[element], color=f'xkcd:dark {cols[i]}')
    for patch in bp['boxes']:
        patch.set(facecolor=f'xkcd:light {cols[i]}')

plt.xlabel('type')
plt.show()
 

Или, если вы предпочитаете что-то ближе к R:

 from plotnine import ggplot, aes, geom_boxplot
import numpy  as np
import pandas as pd

np.random.seed(1234)
df = pd.DataFrame(np.random.randn(10, 4),
                  columns=['Col1', 'Col2', 'Col3', 'Col4'])

df['id'] = range(1, len(df.index) 1)

# making a long dataframe
# sorting the dataframe by value (i.e. randomly)
long_df = df.melt(id_vars=['id'],
                  var_name='type',
                  value_name='value').sort_values(by='value')

long_df['id'] = range(1, len(long_df.index) 1)
long_df = long_df.drop(long_df[long_df.id < 10].index)

type_list = long_df['type'].value_counts(ascending=True).index.tolist()
long_df['type'] = pd.Categorical(long_df['type'], categories=type_list)

p = ggplot(long_df)   aes(x='type', y='value', fill='type')   geom_boxplot(varwidth = True, alpha=0.8, show_legend=False)
print(p)
 

Комментарии:

1. Вау! Я не знал о plotnine. Спасибо за представление этой библиотеки. Есть ли какой-нибудь способ сделать графики интерактивными?

2. Я никогда этого не делал, но это кажется возможным , если не простым.