Как применить данные пула или обработки при передаче в Catboost

#python #numpy #dataframe #machine-learning #catboost

#питон #тупой #фрейм данных #машинное обучение #catboost

Вопрос:

Я хочу загрузить свои тренировочные данные в catboost, но это выдает ошибку. Я попытался применить пул, но выдал ту же ошибку. Как мне преобразовать данные, чтобы передать их в catboost. Работает ли catboost с НЛП? В какую форму мне нужно преобразовать данные?

 My data
"idx": 0, "passage": {"text": ""(1) Издательство Viking Press совместно с компанией TradeMobile выпустят мобильное приложение, посвященное Анне Франк, передает The Daily Telegraph. (2) Программа будет включать в себя фрагменты из дневника Анны, озвученные британской актрисой Хеленой Бонэм Картер. (3) Помимо этого, в приложение войдут фотографии и видеозаписи, документы из архива Фонда Анны Франк, план здания в Амстердаме, где Анна с семьей скрывались от нацистов, и факсимильные копии страниц дневника. (4) Приложение, которое получит название Anne Frank App, выйдет 18 октября. (5) Интерфейс программы будет англоязычным. (6) На каких платформах будет доступно Anne Frank App, не уточняется. Анна Франк родилась в Германии в 1929 году. (7) Когда в стране начались гонения на евреев, Анна с семьей перебрались в Нидерланды. (8) С 1942 года члены семьи Франк и еще несколько человек скрывались от нацистов в потайных комнатах дома в Амстердаме, который занимала компания отца Анны. (9) В 1944 году группу по доносу обнаружили гестаповцы. (10) Обитатели "Убежища" (так Анна называла дом в дневнике) были отправлены в концлагеря; выжить удалось только отцу девочки Отто Франку. (11) Находясь в "Убежище", Анна вела дневник, в котором описывала свою жизнь и жизнь своих близких. (12) После ареста книгу с записями сохранила подруга семьи Франк и впоследствии передала ее отцу Анны. (13) Дневник был впервые опубликован в 1947 году. (14) Сейчас он переведен более чем на 60 языков."", "questions": [{"question": "О чем дневник Анны Франк?", "answers": [{"idx": 0, "text": "Дневник об отметках Анны."}, {"idx": 1, "text": "Дневник о школьных годах девочки Анны."}, {"idx": 2, "text": "О жизни еврейской девочки во время гонения евреев нацистами."}, {"idx": 3, "text": "Анна описывала свою жизнь и жизнь близких, когда скрывалась от нацистов."}], "idx": 0}, {"question": "Каким будет приложение Anne Frank App?", "answers": [{"idx": 4, "text": "Приложение будет платным."}, {"idx": 5, "text": "Приложение будет англоязычным."}, {"idx": 6, "text": "Приложение будет на еврейском языке."}, {"idx": 7, "text": "Приложение будет посвящено Анне Франк и основано на записях в её дневнике."}], "idx": 1} {"question": "Какая информация войдет в новой мобильное приложение?", "answers": [{"idx": 8, "text": "Карта Нидерландов."}, {"idx": 9, "text": "Программа будет включать в себя фрагменты из дневника Анны, озвученные британской актрисой Хеленой Бонэм Картер."}, {"idx": 10, "text": "Видеозаписи Анны Франк."}, {"idx": 11, "text": "В приложение войдут фотографии и видеозаписи, документы из архива Фонда Анны Франк, план здания в Амстердаме, где Анна с семьей скрывались от нацистов, и факсимильные копии страниц дневника."}], "idx": 2}, {"question": "Где скрывались члены семьи Франк и другие евреи?", "answers": [{"idx": 12, "text": "В концлагере."}, {"idx": 13, "text": "В Германии."}, {"idx": 14, "text": "Они скрывались в "Убежище"."}, {"idx": 15, "text": "Они скрывались от нацистов в потайных комнатах дома в Амстердаме."}], "idx": 3}, {"question": "Как Анна называла место, где она и ее семья скрывались от нацистов?", "answers": [{"idx": 16, "text": "Она называла его Убежищем."}, {"idx": 17, "text": "Убежище."}, {"idx": 18, "text": "Потайная комната."}, {"idx": 19, "text": "Амстердамом."}, {"idx": 20, "text": "Концлагерем."}], "idx": 4}, {"question": "Как будет называться приложение, посвященное Анне Франк и включающее фрагменты ее дневника?", "answers": [{"idx": 21, "text": "Отто Франк."}, {"idx": 22, "text": "Анна Франк."}, {"idx": 23, "text": "Анна Ванна."}, {"idx": 24, "text": "Хелена Бонэм Картер."}, {"idx": 25, "text": "Anne Frank App."}], "idx": 5}, {"question": "Когда в первый раз была опубликована книга с записями Анны Франк? ", "answers": [{"idx": 26, "text": "В 1946 году."}, {"idx": 27, "text": "Тогда был 1948 год."}, {"idx": 28, "text": "Тогда был 1947 год."}, {"idx": 29, "text": "В 1947 году."}, {"idx": 30, "text": "В 1948 году."}], "idx": 6}, {"question": "На сколько языков переведён дневник?", "answers": [{"idx": 31, "text": "Более чем на 60 языков."}, {"idx": 32, "text": "Более 300."}, {"idx": 33, "text": "Более 100."}, {"idx": 34, "text": "Более 60."}, {"idx": 35, "text": "Более чем на 100 языков."}], "idx": 7}, {"question": "Кто озвучивал фрагменты книжки с записями, впервые опубликованной в 1947 году?", "answers": [{"idx": 36, "text": "Хелена Бонэм Картер."}, {"idx": 37, "text": "Милена Бонэм Картер."}, {"idx": 38, "text": "Актриса Анна Картер."}, {"idx": 39, "text": "Анна Картер."}, {"idx": 40, "text": "Актриса Хелена Бонэм Картер."}], "idx": 8}, {"question": "Где родилась автор книги, на основе которой издательство Viking Press выпустит мобильное приложение?", "answers": [{"idx": 41, "text": "Девочка родилась в Нидерландах."}, {"idx": 42, "text": "В Германии."}, {"idx": 43, "text": "Девочка родилась в Германии."}, {"idx": 44, "text": "В Польше."}, {"idx": 45, "text": "В Нидерландах."}], "idx": 9}]}}

 
 from catboost import CatBoostRegressor
clf = CatBoostRegressor()
clf.fit(X_train, y_train, verbose=False, plot=True)
predictions = clf.predict(X_test)


Error:
TypeError                                 Traceback (most recent call last)
_catboost.pyx in _catboost.get_float_feature()

_catboost.pyx in _catboost._FloatOrNan()

_catboost.pyx in _catboost._FloatOrNanFromString()

TypeError: Cannot convert 'b'(1) xd0x9dxd0xbe xd0xbbxd1x8exd0xb4xd0xb8 xd0xbdxd0xb5 xd0xbcxd0xbexd0xb3xd1x83xd1x82 xd1x81xd1x83xd1x89xd0xb5xd1x81xd1x82xd0xb2xd0xbexd0xb2xd0xb0xd1x82xd1x8c xd0xb1xd0xb5xd0xb7 xd0xbfxd1x80xd0xb8xd1x80xd0xbexd0xb4xd1x8b, xd0xbfxd0xbexd1x8dxd1x82xd0xbexd0xbcxd1x83 xd0xb2 xd0xbfxd0xb0xd1x80xd0xbaxd0xb5 xd1x81xd1x82xd0xbexd1x8fxd0xbbxd0xb8 xd0xb6xd0xb5xd0xbbxd0xb5xd0xb7xd0xbexd0xb1xd0xb5xd1x82xd0xbexd0xbdxd0xbdxd1x8bxd0xb5 xd1x81xd0xbaxd0xb0xd0xbcxd0xb5xd0xb9xd0xbaxd0xb8 xe2x80x94 xd0xb4xd0xb5xd1x80xd0xb5xd0xb2xd1x8fxd0xbdxd0xbdxd1x8bxd0xb5 xd0xbcxd0xbexd0xbcxd0xb5xd0xbdxd1x82xd0xb0xd0xbbxd1x8cxd0xbdxd0xbe xd0xbbxd0xbexd0xbcxd0xb0xd0xbbxd0xb8. (2) xd0x92 xd0xbfxd0xb0xd1x80xd0xbaxd0xb5 xd0xb1xd0xb5xd0xb3xd0xb0xd0xbbxd0xb8 xd1x80xd0xb5xd0xb1xd1x8fxd1x82xd0xb8xd1x88xd0xbaxd0xb8, xd0xb2xd0xbexd0xb4xd0xb8xd0xbbxd0xb0xd1x81xd1x8c xd1x88xd0xbfxd0xb0xd0xbdxd0xb0, xd0xbaxd0xbexd1x82xd0xbexd1x80xd0xb0xd1x8f xd1x80xd0xb0xd0xb7xd0xb2xd0xbbxd0xb5xd0xbaxd0xb0xd0xbbxd0xb0xd1x81xd1x8c xd0xb8xd0xb3xd1x80xd0xbexd0xb9 xd0xb2 xd0xbaxd0xb0xd1x80xd1x82xd1x8b, xd0xbfxd1x8cxd1x8fxd0xbdxd0xbaxd0xbexd0xb9, xd0xb4x...

During handling of the above exception, another exception occurred:

CatBoostError                             Traceback (most recent call last)
<ipython-input-16-9f6fad2923e4> in <module>()
----> 1 clf.fit(X_train, y_train, verbose=False, plot=True)
      2 predictions = clf.predict(X_test)

5 frames
/usr/local/lib/python3.6/dist-packages/catboost/core.py in _init(self, data, label, cat_features, text_features, embedding_features, pairs, weight, group_id, group_weight, subgroup_id, pairs_weight, baseline, feature_names, thread_count)
    964             baseline = np.reshape(baseline, (samples_count, -1))
    965             self._check_baseline_shape(baseline, samples_count)
--> 966         self._init_pool(data, label, cat_features, text_features, embedding_features, pairs, weight, group_id, group_weight, subgroup_id, pairs_weight, baseline, feature_names, thread_count)
    967 
    968 

_catboost.pyx in _catboost._PoolBase._init_pool()

_catboost.pyx in _catboost._PoolBase._init_pool()

_catboost.pyx in _catboost._PoolBase._init_objects_order_layout_pool()

_catboost.pyx in _catboost._set_data()

_catboost.pyx in _catboost._set_data_from_generic_matrix()

_catboost.pyx in _catboost.get_float_feature()

CatBoostError: Bad value for num_feature[non_default_doc_idx=0,feature_idx=0]="(1) Но люди не могут существовать без природы, поэтому в парке стояли железобетонные скамейки — деревянные моментально ломали. (2) В парке бегали ребятишки, водилась шпана, которая развлекалась игрой в карты, пьянкой, драками, «иногда насмерть». (3) «Имали они тут и девок...» (4) Верховодил шпаной Артемка-мыло, с вспененной белой головой. (5) Людочка сколько ни пыталась усмирить лохмотья на буйной голове Артемки, ничего у неё не получалось. (6) Его «кудри, издали напоминавшие мыльную пену, изблизя оказались что липкие рожки из вокзальной столовой — сварили их, бросили комком в пустую тарелку, так они, слипшиеся, неподъёмно и лежали. (7) Да и не ради причёски приходил парень к Людочке. (8) Как только её руки становились занятыми ножницами и расчёской, Артемка начинал хватать её за разные места. (9) Людочка сначала увёртывалась от хватких рук Артемки, а когда не помогло, стукнула его машинк