cross_val_score возвращает nan-список результатов в scikit learn

#python-3.x #pandas #machine-learning #scikit-learn #multilabel-classification

#python-3.x #панды #машинное обучение #scikit-learn #многоуровневая классификация

Вопрос:

Я пытаюсь справиться с несбалансированным multi label dataset использованием cross validation , но scikit learn cross_val_score возвращается nan list of values при запуске классификатора. Вот код:

 import pandas as pd
import numpy as np
data = pd.DataFrame.from_dict(dict, orient = 'index') # save the given data below in dict variable to run this line

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.multiclass import OneVsRestClassifier

multilabel = MultiLabelBinarizer()
y = multilabel.fit_transform(data['Tags']) 
from nltk.corpus import stopwords 
stop_words = set(stopwords.words('english')) 
tfidf = TfidfVectorizer(stop_words = stop_words,max_features= 40000, ngram_range = (1,3))
X = tfidf.fit_transform(data['cleaned_title'])

from skmultilearn.model_selection import IterativeStratification
k_fold = IterativeStratification(n_splits=10, order=1)


from sklearn.linear_model import LogisticRegression
from sklearn.metrics import jaccard_score
class_weight = {0:1,1:10}
lr = LogisticRegression(class_weight = class_weight, n_jobs = -1)
scores = cross_val_score(lr, X, y, cv=k_fold, scoring = 'f1_micro')
scores
 

Вот данные (первые 10 строк) с использованием data.head(10).to_dict()

 {0: {'Tags': ['python', 'list', 'loops', 'for-loop', 'indexing'],
  'cleaned_title': 'for loop we use any local variable   what if we use any number present in a list  ',
  'cleaned_text_of_ques': 'in the for   loop we use any local variable   what if we use any number in a list   what will be the output   a   [ 1 2 3 4 5 6 ] b   [ ] for a[ 1 ] in a   b append a[ 1 ]   print b  '},
 1: {'Tags': ['python', 'loops', 'tkinter', 'algorithm-animation'],
  'cleaned_title': 'contain a mainloop [ duplicate ]',
  'cleaned_text_of_ques': 'my code be a bubble sort that i be try to visualise   but i be struggle to find a way to make a block of code only be use once   i also think that if i could only mainloop a section that would'},
 2: {'Tags': ['android',
   'android-lifecycle',
   'activity-lifecycle',
   'onsaveinstancestate'],
  'cleaned_title': 'when onrestoreinstancestate be not call  ',
  'cleaned_text_of_ques': 'docs describe when onrestoreinstancestate be call   this method be call after onstart     when the activity be be re   initialize from a previously save state   give here in savedinstancestate  '},
 3: {'Tags': ['python', 'r', 'bash', 'conda', 'spyder'],
  'cleaned_title': 'point conda r to already   instal version of r',
  'cleaned_text_of_ques': 'my problem have to do with the fact that rstudio and conda be point to different version of r  my r and rstudio be instal independent of anaconda   and everything be work great   in my    '},
 4: {'Tags': ['android',
   'firebase',
   'firebase-realtime-database',
   'android-recyclerview'],
  'cleaned_title': 'how to use a recycleview with several different layout   accord to the datum collect in firebase   [ close ]',
  'cleaned_text_of_ques': 'i have a problem   there be day that i do research and test code   but nothing work   my application will have a window where i will post datum take in firebase   use a recycleview   with the'},
 5: {'Tags': ['html', 'css', 'layout'],
  'cleaned_title': 'how to create side by side layout of an image and label  ',
  'cleaned_text_of_ques': 'i have be try for a while now and can not seem to achive the bellow design    exploreitem   background   color     353258       rgba 31   31   31   1       border   1px solid   4152f1   color  '},
 6: {'Tags': ['php', 'jquery', 'file'],
  'cleaned_title': 'php jquery ajax   _ files[ file   ] undefined index error',
  'cleaned_text_of_ques': 'i have a form that upload image file and it be not work   i have try submit and click event   the error appear when i have remove the if statement   thank in advance for your help  '},
 7: {'Tags': ['python', 'pandas', 'dataframe'],
  'cleaned_title': 'how to update value in pandas dataframe in a for loop  ',
  'cleaned_text_of_ques': 'i be try to make a data frame that can store variable coeff value after each iteration   i be able to plot the graph after each iteration   but when i try to insert the value in the data frame'},
 8: {'Tags': ['xpath', 'web-scraping', 'scrapy'],
  'cleaned_title': 'scrapy   how can i handle a random number of element  ',
  'cleaned_text_of_ques': 'i have a scrapy crawler that i can comfortably acquire the first desire paragraph   but sometimes there be a second or third paragraph   response xpath f string   h2[contains text           card   ] '},
 9: {'Tags': ['bootstrap-4', 'tabs', 'collapse'],
  'cleaned_title': 'collapse three column with bootstrap',
  'cleaned_text_of_ques': 'i be try to make three tab with cross   reference with one tab visible at the time   i be use the bootstrap v4 collapse scheme with functionality support by jquery   here be the example   https  '}}
 

Вот как я получаю переменную cross_val_score in scores
array([nan, nan, nan, nan, nan, nan, nan, nan, nan, nan]) . В нем должно быть каждое значение в диапазоне 0-1 . Однако это происходит с every algorithm model .

Комментарии:

1. svc или lr ?

2. @MaximeKan извините, это была ошибка ввода. это lr внутри cross_val_score , хотя проблема та же. можете ли вы мне здесь помочь?

Ответ №1:

У вас есть набор данных с несколькими метками, что означает, что ваша y-переменная будет иметь более 1 столбца после ее преобразования, логистическая регрессия с ней не работает:

 lr.fit(X,y)

ValueError: y should be a 1d array, got an array of shape (10, 32) instead.
 

Вот почему вы получаете nan. Вам нужно выбрать классификатор, см. Справочную информацию sklearn для параметров. Кроме того, я не уверен, IterativeStratification работает ли с несколькими метками, поэтому, если вы используете KFold, это работает:

 from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold
kf = KFold(n_splits=5)

clf = DecisionTreeClassifier()
scores = cross_val_score(clf, X, y, cv=kf, scoring = 'f1_micro')
 

Комментарии:

1. стратификация skmultilearn говорит, что она лучше работает с данными с несколькими метками. Я видел какую-то статью, в которой говорится, что kfold может не работать с несколькими метками. Что вы скажете об этом?

2. Более того, если я использую функцию train_test_split, а затем использую logistic или LinearSVC, он работает с классификацией меток.

3. Я не говорю, лучше ли один, это вопрос его использования cross_val_score . Вы можете использовать IterativeStratification , но для этого требуется больше работы. или даже не используя cross_val_score

4. логистическая регрессия работает для нескольких меток, то есть, если вы передаете data[‘Tags’] как y, это сработает. Если вы уже использовали MultiLabelBinarizer, он не работает

Ответ №2:

Я думаю, вам нужно изменить модель внутри строки результатов:

 scores = cross_val_score(lr, X, y, cv=k_fold, scoring = 'f1_micro')
scores