выберите данные из массива numpy, чтобы результирующие данные соответствовали нормальному распределению

#python #numpy

#python #numpy

Вопрос:

Я пытаюсь выполнить выборку данных (строк) из 2-d массива numpy, чтобы после выборки / выбора определенный столбец результирующих данных соответствовал нормальному распределению. Существует ли какой-либо существующий метод для этого?

Чтобы уточнить, что я пытаюсь сделать, я запускаю регрессионную модель, чтобы предсказать, сколько топлива самолет сожжет во время выруливания. Одна из независимых переменных — это то, сколько времени у самолета отключается один или два двигателя во время руления (отключение двигателя во время руления нормально). В данных на значительной части рейсов работают все двигатели, следовательно, вышеуказанная независимая переменная равна нулю. Таким образом, эти данные на самом деле не помогают, когда я интерпретирую коэффициент независимой переменной. Вот почему я хотел бы выполнить выборку данных, чтобы сделать эту независимую переменную нормальной.

Надеюсь, это поможет понять цель.

Комментарии:

1. Что вы уже пробовали? Какие ошибки вы получаете?

2. Нет, такого метода не существует, потому что вопрос не имеет смысла в том виде, в каком он написан. Вы не можете «заставить» данные следовать нормальному распределению, если это уже не сделано. Как бы вы выбрали двоичный массив из единиц и 0, чтобы результирующий выбор был нормально распределен? Какова ваша фактическая цель? Почему вы хотите, чтобы ваши результирующие данные были нормально распределены? Вы запрашиваете случайную выборку существующих данных?

3. Спасибо за ваше обновление, но это не делает вопрос более ответственным. Данные, которые вы описываете, представляют собой длительность, которая по определению неотрицательна. В обычном распределении есть поддержка (-inf, inf) , поэтому эта переменная не может быть нормально распределена . Вы неявно указываете на это, когда говорите, что «на значительной части рейсов все двигатели работают, следовательно, вышеуказанная независимая переменная равна нулю». Да, это правильно, и почему это не может быть гауссово. Ваша модель данных должна учитывать это, а не пытаться встроить данные в неправильную модель.