#python #pandas #numpy
Вопрос:
у меня есть довольно интересное задание, которое я хотел бы выполнить. Предположим, у нас есть набор данных для классификации текста
Что я хотел бы сделать, так это прочитать файл в больших размерах. Однако также убедитесь, что каждый отдельный уникальный класс будет присутствовать в каждой отдельной партии.
Это код для этого:
data = pd.read_json("https://raw.githubusercontent.com/koaning/tokenwiser/main/data/oos-intent.jsonl", lines = True, chunksize=2_000)
Однако это приведет к загрузке данных в хронологическом порядке, и поскольку классы отсортированы вместе, это не так.