Найти nlargest из двух столбцов (для твитов на python)

#python #pandas #twitter

#python #pandas #Twitter

Вопрос:

У меня есть .csv твитов, и я хочу найти лучшие твиты, которые я определяю для своих целей как твиты с наибольшим количеством RTS И избранных. Я знаю, что могу использовать nlargest для этого следующим образом:

toptweets = tweets.nlargest(10, [‘retweet_count’, ‘favorite_count’])

Однако я знаю, что получу немного другие результаты, если изменю порядок столбцов в скобках, потому что приведенный выше код упорядочивается по наибольшим значениям в retweet_count, А ЗАТЕМ в favorite_count (источник: http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas .DataFrame.nlargest.html ).

Однако я ищу способ упорядочения твитов, который не ставит один столбец выше другого и дает мне твиты с наибольшими значениями в обоих столбцах. Есть идеи?

1. Я думаю, что вам нужно иметь некоторые дополнительные критерии, которые делают значения одного столбца самыми большими по сравнению с другими. Любой способ, который я могу придумать, если вы хотите просмотреть их одновременно, будет смотреть на один, а затем на другой. Вы также можете объединить столбцы в один, а затем отсортировать его от самого большого к самому маленькому.

Вопрос:

Комментарии:

Вам также может понравиться

Ошибка Spark KafkaUtils DirectStream: свойство security.protocol, ssl.truststore.location недопустимо

Ошибка открытия SqlConnection внутри TransactionScope

как вывести переменную после запроса POST в node.js?