Как добавить строку y = x, специфичную для серии, к фасетной (или аналогичной) двухосевой диаграмме в Altair?

#python #axis #facet #altair

#python #ось #фасет #altair

Вопрос:

Любые предложения о том, как фасетировать двухосевую диаграмму, а затем добавлять строку к каждой диаграмме при y=x использовании Altair? Проблема в том, что линия y=x должна соответствовать масштабу ряда, специфичного для данных, отображаемых в каждой фасетной диаграмме.

Ссылки:

  1. тема проблемы altair github с фасетами
  2. проблема altair github с отображением оси

Ниже приведен код, который воспроизводит проблему.

 import altair as alt
from vega_datasets import data

source = data.anscombe().copy()
source['line-label'] = 'x=y'
source = pd.concat([source,source.groupby('Series').agg(x_diff=('X','diff'), y_diff=('Y','diff'))],axis=1)
source['rate'] = source.y_diff/source.x_diff
source['rate-label'] = 'rate-of-change'


base = alt.Chart().encode(
    x='X:O',
)

scatter = base.mark_circle(size=60, opacity=0.30).encode(
    y='Y:Q',
    color=alt.Color('Series:O', scale=alt.Scale(scheme='category10')),
    tooltip=['Series','X','Y']
)

line_x_equals_y = alt.Chart().mark_line(color= 'black', strokeDash=[3,8]).encode(
    x=alt.X('max(X)',axis=None),
    y=alt.Y('max(X)',axis=None), # note: it's intentional to set max(X) here so that X and Y are equal.
    color = alt.Color('line-label') # note: the intent here is for the line label to show up in the legend
    )

rate = base.mark_line(strokeDash=[5,3]).encode(
    y=alt.Y('rate:Q'),
    color = alt.Color('rate-label',),
    tooltip=['rate','X','Y']
)

scatter_rate = alt.layer(scatter, rate, data=source)
  

Попытки решения

проблема: диаграмма не является двухосевой (и это не включает line_x_equals_y )

 scatter_rate.facet('Series',columns=2).resolve_axis(
        x='independent',
        y='independent',
        )
  

введите описание изображения здесь

проблема: ошибка Javascript

 alt.layer(scatter_rate, line_x_equals_y, data=source).facet('Series',columns=2).resolve_axis(
        x='independent',
        y='independent',
        )
  

проблема: ошибка Javascript

 chart_generator =  (alt.layer(line_x_equals_y, scatter_rate, data = source, title=f"Series {val}").transform_filter(alt.datum.Series == val).resolve_scale(y='independent',x='independent') 
             for val in source.Series.unique()) 

alt.concat(*(
    chart_generator
), columns=2)
  

Цель

  1. scatter_rate является ли фасетная (по сериям) двухосевая диаграмма с отдельными масштабами подходящей для диапазона значений.
  2. каждая фасетная диаграмма содержит строку y=x , которая идет от (0,0) до y=max(X) значения отдельной диаграммы.

Ответ №1:

Вы можете сделать это, создав свои слои как обычно и вызвав facet() метод на диаграмме слоев. Единственное требование заключается в том, чтобы все слои совместно использовали одни и те же исходные данные; нет необходимости создавать фасет вручную, и нет необходимости в поздней привязке данных для фасетов в текущей версии Altair:

 import altair as alt
from vega_datasets import data
import pandas as pd

source = data.anscombe().copy()
source['line-label'] = 'x=y'
source = pd.concat([source,source.groupby('Series').agg(x_diff=('X','diff'), y_diff=('Y','diff'))],axis=1)
source['rate'] = source.y_diff/source.x_diff
source['rate-label'] = 'line y=x'

source_linear = source.groupby(by=['Series']).agg(x_linear=('X','max'), y_linear=('X', 'max')).reset_index().sort_values(by=['Series'])

source_origin = source_linear.copy()
source_origin['y_linear'] = 0
source_origin['x_linear'] = 0

source_linear = pd.concat([source_origin,source_linear]).sort_values(by=['Series'])

source = source.merge(source_linear,on='Series').drop_duplicates()

scatter = alt.Chart(source).mark_circle(size=60, opacity=0.60).encode(
    x='X:Q',
    y='Y:Q',
    color='Series:N',
    tooltip=['X','Y','rate']
)

rate = alt.Chart(source).mark_line(strokeDash=[5,3]).encode(
    x='X:Q',
    y='rate:Q',
    color = 'rate-label:N'
)

line_plot = alt.Chart(source).mark_line(color= 'black', strokeDash=[3,8]).encode(
    x=alt.X('x_linear', title = ''),
    y=alt.Y('y_linear', title = ''),
    shape = alt.Shape('rate-label', title = 'Break Even'),
    color = alt.value('black')
)

alt.layer(scatter, rate, line_plot).facet(
    'Series:N'
).properties(
    columns=2
).resolve_scale(
    x='independent',
    y='independent'
)
  

введите описание изображения здесь

Комментарии:

1. Спасибо @jakevdp. Я думаю, единственное, чего нам обоим здесь не хватает, — это rate двойная ось. Я все еще пытаюсь понять, как ее добавить.

Ответ №2:

Это решение строит желаемую линию в y=x масштабе для данных на каждой диаграмме; однако точки дублируются на этапе слияния, и я не уверен, как добавить скорость с двумя осями.

Получить данные

 source = data.anscombe().copy()
source['line-label'] = 'x=y'
source = pd.concat([source,source.groupby('Series').agg(x_diff=('X','diff'), y_diff=('Y','diff'))],axis=1)
source['rate'] = source.y_diff/source.x_diff
source['rate-label'] = 'line y=x'
  

Создайте данные строки Y = X

 source_linear = source.groupby(by=['Series']).agg(x_linear=('X','max'), y_linear=('X', 'max')).reset_index().sort_values(by=['Series'])

source_origin = source_linear.copy()
source_origin['y_linear'] = 0
source_origin['x_linear'] = 0

source_linear = pd.concat([source_origin,source_linear]).sort_values(by=['Series'])
  

Объединение линейных данных

 source = source.merge(source_linear,on='Series').drop_duplicates()
  

Построение диаграмм

 scatter = alt.Chart().mark_circle(size=60, opacity=0.60).encode(
    x=alt.X('X', title='X'),
    y=alt.Y('Y', title='Y'),
    #color='year:N',
    tooltip=['X','Y','rate']
)

line_plot = alt.Chart().mark_line(color= 'black', strokeDash=[3,8]).encode(
    x=alt.X('x_linear', title = ''),
    y=alt.Y('y_linear', title = ''),
    shape = alt.Shape('rate-label', title = 'Break Even'),
    color = alt.value('black')
)
  

Диаграммы фасетов вручную

 chart_generator =  (alt.layer(scatter, line_plot, data = source, title=f"{val}: Duplicated Points w/ Line at Y=X").transform_filter(alt.datum.Series == val) 
             for val in source.Series.unique())
  

Объединение диаграмм

 chart = alt.concat(*(
    chart_generator
), columns=3)

chart.display()
  

введите описание изображения здесь

Ответ №3:

Это решение включает в себя скорость, но не является двойной осью Y с одной осью и rate с другой.

 import altair as alt
from vega_datasets import data
import pandas as pd

source = data.anscombe().copy()
source['line-label'] = 'x=y'
source = pd.concat([source,source.groupby('Series').agg(x_diff=('X','diff'), y_diff=('Y','diff'))],axis=1)
source['rate'] = source.y_diff/source.x_diff
source['rate-label'] = 'rate of change'
source['line-label'] = 'line y=x'

source_linear = source.groupby(by=['Series']).agg(x_linear=('X','max'), y_linear=('X', 'max')).reset_index().sort_values(by=['Series'])

source_origin = source_linear.copy()
source_origin['y_linear'] = 0
source_origin['x_linear'] = 0

source_linear = pd.concat([source_origin,source_linear]).sort_values(by=['Series'])

source = source.merge(source_linear,on='Series').drop_duplicates()

scatter = alt.Chart(source).mark_circle(size=60, opacity=0.60).encode(
    x=alt.X('X', title='X'),
    y=alt.Y('Y', title='Y'),
    color='Series:N',
    tooltip=['X','Y','rate']
)

line_plot = alt.Chart(source).mark_line(color= 'black', strokeDash=[3,8]).encode(
    x=alt.X('x_linear', title = ''),
    y=alt.Y('y_linear', title = ''),
    shape = alt.Shape('line-label', title = 'Break Even'),
    color = alt.value('black')
)

rate =  alt.Chart(source).mark_line(strokeDash=[5,3]).encode(
    x=alt.X('X', axis=None, title = 'X'),
    y=alt.Y('rate:Q'),
    color = alt.Color('rate-label',),
    tooltip=['rate','X','Y']
)

alt.layer(scatter, line_plot, rate).facet(
    'Series:N'
).properties(
    columns=2
).resolve_scale(
    x='independent',
    y='independent'
).display()
  

введите описание изображения здесь