Считывание файла в панды в размере куска, убедившись, что каждый уникальный уровень категориальной функции будет присутствовать

#python #pandas #numpy

Вопрос:

у меня есть довольно интересное задание, которое я хотел бы выполнить. Предположим, у нас есть набор данных для классификации текста

Что я хотел бы сделать, так это прочитать файл в больших размерах. Однако также убедитесь, что каждый отдельный уникальный класс будет присутствовать в каждой отдельной партии.

Это код для этого:

 data = pd.read_json("https://raw.githubusercontent.com/koaning/tokenwiser/main/data/oos-intent.jsonl", lines = True, chunksize=2_000)

Однако это приведет к загрузке данных в хронологическом порядке, и поскольку классы отсортированы вместе, это не так.

Вопрос:

Вам также может понравиться

Использование простого отношения Один ко многим RedBean и CodeIgniter

firebase.auth().signInAnonymously() как поддерживать сеанс?

Как преобразовать столбец из таблицы в наборе данных в строку, разделенную запятыми в C #?