#python #pandas #dataframe #scikit-learn #tf-idf
#python #pandas #фрейм данных #scikit-learn #tf-idf
Вопрос:
Я хочу распечатать документ по термину матрица. Работает без проблем в небольших документах. Например, 10000 документов, но 25000 документов выдают ошибку
Системная информация
Time of this report: 4/23/2019, 21:08:52
Machine name: DESKTOP-71B1MM1
Machine Id: {D2C93244-A7B3-49EC-8F35-AC173B92F828}
Operating System: Windows 10 Pro 64-bit (10.0, Build 17763) (17763.rs5_release.180914-1434)
Language: Turkish (Regional Setting: Turkish)
System Manufacturer: FUJITSU
System Model: ESPRIMO P420
BIOS: V4.6.5.4 R1.46.0 for D3230-A1x (type: UEFI)
Processor: Intel(R) Core(TM) i5-4570 CPU @ 3.20GHz (4 CPUs), ~3.2GHz
Memory: 16384MB RAM
Available OS Memory: 16318MB RAM
Page File: 11041MB used, 52340MB available
Windows Dir: C:WINDOWS
DirectX Version: DirectX 12
DX Setup Parameters: Not found
User DPI Setting: 120 DPI (125 percent)
System DPI Setting: 96 DPI (100 percent)
DWM DPI Scaling: Disabled
Miracast: Available, with HDCP
from sklearn.feature_extraction.text import TfidfVectorizer
Tfidf_Vector = TfidfVectorizer(min_df = 0., max_df = 1., use_idf = True)
Tfidf_Matrix = Tfidf_Vector.fit_transform(normalized_documents.ravel())
Tfidf_Matrix = Tfidf_Matrix.toarray()
features = Tfidf_Vector.get_feature_names()
Tfidf_df = pd.DataFrame(np.round(Tfidf_Matrix, 3), columns = features)
Комментарии:
1. Вы можете сообщить об этом как о проблеме в репозитории pandas git: github.com/pandas-dev/pandas/issues