Считывание файла в панды в размере куска, убедившись, что каждый уникальный уровень категориальной функции будет присутствовать

#python #pandas #numpy

Вопрос:

у меня есть довольно интересное задание, которое я хотел бы выполнить. Предположим, у нас есть набор данных для классификации текста

Что я хотел бы сделать, так это прочитать файл в больших размерах. Однако также убедитесь, что каждый отдельный уникальный класс будет присутствовать в каждой отдельной партии.

Это код для этого:

 data = pd.read_json("https://raw.githubusercontent.com/koaning/tokenwiser/main/data/oos-intent.jsonl", lines = True, chunksize=2_000)  

Однако это приведет к загрузке данных в хронологическом порядке, и поскольку классы отсортированы вместе, это не так.