Как статистически сравнить категориальные столбцы с помощью python

#python #pandas #statistics #binary

#питон #панды #Статистика #двоичный

Вопрос:

Я вычислил некоторые оценки сходства, используя различные методы, такие как косинус, Джаккард, используя трансформаторы предложений и т. Д. Затем оценка сходства была преобразована в двоичную форму (x=1, если xgt;0,5, иначе 0).Результат выглядит следующим образом:

 import pandas as pd  df = pd.DataFrame.from_dict(  {  "q1": [  "What is the step by step guide to invest in share market in india?",  "What is the story of Kohinoor (Koh-i-Noor) Diamond?",  "How can I increase the speed of my internet connection while using a VPN?",  "Why am I mentally very lonely? How can I solve it?",  "Which one dissolve in water quikly sugar, salt, methane and carbon di oxide?",  ],  "q2": [  "What is the step by step guide to invest in share market?",  "What would happen if the Indian government stole the Kohinoor (Koh-i-Noor) diamond back?",  "How can Internet speed be increased by hacking through DNS?",  "Find the remainder when [math]23^{24}[/math] is divided by 24,23?",  "Which fish would survive in salt water?",  ],  "cos_sim": [1, 0, 0, 0, 1],  "jac_sim": [1, 0, 1, 1, 1],  "sentrf_sim": [1, 0, 1, 0, 0],  "gensim_sim": [0, 0, 1, 1, 1],  } )  

Я хочу статистически сравнить (больше, чем просто средние значения) столбцы флага сходства между собой. ( cos_sim , jac_sim , sentrf_sim , gensim_sim ).

Может быть, какие-то пропорции и т. Д.

Есть какие-нибудь данные? Спасибо

Комментарии:

1. здравствуйте, не могли бы вы, пожалуйста, объяснить, каков ваш желаемый результат? я не понял, что ты пытаешься сделать

2. «Статистически сравнить» довольно расплывчато. На какие вопросы вы хотели бы ответить? Вы пытаетесь оценить взаимное согласие между парами мер сходства? Вы пытаетесь определить кластеры пар вопросов, которые имеют схожие степени сходства? Или что-то еще?