Как импортировать файлы .data и .lisp из репозитория машинного обучения UCI?

#python #pandas

#python #pandas

Вопрос:

Вот ссылка на данные, которые я хочу импортировать. Это файлы .data, .names и .lisp. Как вы импортируете их в Python в виде фрейма данных? Я пытался:

 df = pd.read_table('http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data', sep='')
  

А также pd.read_csv() но это не работает, поскольку файлы не являются CSV. Спасибо за любую помощь!

Ответ №1:

Вам нужно определить разделитель при использовании read_table . В этом случае ваши столбцы разделяются , . Вы также должны установить, header=None поскольку файл данных не содержит заголовков (имен столбцов). Хотя read_table это могло бы сработать, сейчас это устарело, поэтому вы можете использовать read_csv вместо этого.

 import pandas as pd

df = pd.read_csv(
    'http://archive.ics.uci.edu/ml/machine-learning-databases/credit-screening/crx.data', 
    sep=',', 
    header=None
)

print(df)

     0      1       2  3  4   5   6       7  8  9   10 11 12     13     14 15
0    b  30.83   0.000  u  g   w   v   1.250  t  t   1  f  g  00202      0   
1    a  58.67   4.460  u  g   q   h   3.040  t  t   6  f  g  00043    560   
2    a  24.50   0.500  u  g   q   h   1.500  t  f   0  f  g  00280    824   
3    b  27.83   1.540  u  g   w   v   3.750  t  t   5  t  g  00100      3   
4    b  20.17   5.625  u  g   w   v   1.710  t  f   0  f  s  00120      0   
5    b  32.08   4.000  u  g   m   v   2.500  t  f   0  t  g  00360      0   
6    b  33.17   1.040  u  g   r   h   6.500  t  f   0  t  g  00164  31285   
7    a  22.92  11.585  u  g  cc   v   0.040  t  f   0  f  g  00080   1349   
...
[690 rows x 16 columns]