Приблизительно, сколько времени должно занять обучение textsum, чтобы снизить средние потери до приличного значения

#tensorflow #deep-learning #textsum

#tensorflow #глубокое обучение #textsum

Вопрос:

Я работаю над тем, чтобы заставить реализацию textsum работать, и недавно получил свои собственные данные. Вчера вечером я начал тренироваться против 38000 статей. Сегодня утром, когда я посмотрел на среднюю потерю, я был около 5.2000000. Например, когда я играл с набором игрушек textsum, я смог быстро опуститься примерно до 0,0000054, однако это было только против примерно 20 статей.

Я надеялся, что кто-то, у кого было немного больше опыта, мог бы дать мне некоторые ожидания относительно того, сколько времени займет обучение. В настоящее время я запускаю это на Nvidia 980M. На прошлой неделе я действительно хотел попробовать экземпляр AWS g2.2xlarge, но я обнаружил, что по иронии судьбы, казалось, что моя локальная машина обрабатывает данные быстрее, чем Grid 520. Я все еще хочу протестировать экземпляры P2, а также Google Cloud, но пока я думаю, что просто буду работать со своей локальной машиной.

Любая информация, которую кто-нибудь может предоставить здесь, относительно того, чего мне следует ожидать? Спасибо!

Ответ №1:

Поэтому я просто собираюсь ответить на этот вопрос сам, поскольку на данный момент я в значительной степени могу это сделать. Одна вещь, которую я нашел интересной из другого сообщения, заключается в том, что с большим набором данных вам действительно не следует тренироваться ниже 1 в отношении значения «средней потери». Это потому, что затем вы начинаете «переобучаться». Таким образом, в моем текущем обучении по 40 тыс. статей с использованием Nvidia 980M на моем ноутбуке, в файле vocab содержится 65997 слов, и в среднем потребовалось около дня, чтобы уменьшить «среднюю потерю» на одно целое число. Итак, в настоящее время я вижу цифры от 1,2 до 2,8.

—— Редактировать —— Когда я запустил decode против данных с моей средней потерей в приведенных выше числах, результаты были довольно плохими. Подумав об этом больше, я понял, что мой набор данных, вероятно, не является «большим» набором данных. Такие, как Xin Pan и другие, которые имеют доступ к набору данных Gigaword, проводят обучение по более чем 1 миллиону статей. Поэтому я чувствую, что мои 40 тыс. статей — ничто по сравнению. Кроме того, когда было сделано приведенное выше утверждение, я не уверен, имел ли он в виду среднюю потерю 1 или это было бы 0,01. В любом случае, сейчас я обращаюсь к Tensorboard, чтобы несколько визуализировать «переобучение», и я продолжаю свое обучение, пока не получу меньшую среднюю потерю. Я добавлю к этому позже, когда мои результаты будут лучше.

Надеюсь, это дает небольшую ссылку для тех из вас, кто задается тем же вопросом.

Комментарии:

1. В настоящее время возникает та же проблема. Что в итоге произошло с вашей моделью?

2. Ребята, вы получили лучший результат?