Как разместить примеры данных для R-пакетов на Github

#r #github

#r #github

Вопрос:

Я экспериментирую с GitHub и создал небольшой пакет для использования моими коллегами. Они устанавливают его вместе с devtools пакетом и install_github() работают непосредственно R . У меня также есть несколько примеров данных и файл R-Markdown, который показывает использование всех функций в пакете и может быть опубликован через страницы GitHub.

Я хотел бы знать, что было бы наилучшей практикой, позволяющей другим использовать эти примеры данных для изучения пакета.

Я могу придумать два разных варианта:

  1. Разместите данные в отдельном каталоге, который не является частью установки, и попросите людей загрузить его вручную или использовать что-то вроде download.file() функции из R в начале примера сценария для загрузки всех данных, которые могут быть упакованы в zip.
  2. Сделайте часть данных частью установки пакета, однако для этого потребуется, чтобы данные были довольно маленькими, что сложно в моем конкретном случае (объем данных составляет 10 МБ).

В идеале примеры в R-документации ( .Rd файлы в man папке) также могут использовать те же примеры, что и в файле markdown. также в этом случае вариант (2) кажется благоприятным.

Может ли кто-нибудь дать мне несколько советов, что было бы лучшим способом, своего рода «отраслевым стандартом», если таковой имеется.

Комментарии:

1. Однажды я сохранил некоторые данные в .Rds формате ( saveRDS ), загрузил в figshare, а затем прочитал их напрямую с URL-адреса (см. Строку 29 здесь: gist.github.com/adibender/28041453a2a8c3e42c09484a55668d55 )

2. Я бы сказал, что 1) — лучший вариант. Вы даже можете создать функцию для выполнения такой работы и включить ее в свой пакет. Вы можете найти пример того, что моя команда сделала для распространения примера корпуса для NLP. github.com/quanteda/quanteda.corpora/blob/master/R/download.R