Перенос обучения в совершенно другую область и задачу

#machine-learning #transfer-learning

#машинное обучение #передача-обучение

Вопрос:

Я читал некоторые статьи и сообщения в блогах о передаче обучения. Что я понял, так это то, что некоторые говорят «разные», а другие говорят «разные, но похожие». Теперь я в замешательстве.

Скажите, что,

D является доменом. T это задача.
a является исходным, следовательно, исходным является домен Da , а исходной задачей является Ta .
a' отличается, но похож на a.
b отличается от a.
Ms является ли исходная модель изученной из Da и Ta .
Mt является целевой моделью.

В какой комбинации целевой домен-задача Ms может передавать свои знания в Mt?

 1. (Da, Tb)
2. (Db, Ta)
3. (Da', Tb)
4. (Db, Ta')
5. (Da', Ta)
6. (Da, Ta')
7. (Da', Ta')
8. (Db, Tb)
  

Честно говоря, я знаю, что 5, 6, 7 возможны, поскольку так сказано в статье. И я сомневаюсь, что 8 сработает (не так ли?).

Но как насчет 1, 2, 3, 4, где либо домен, либо задача — b?

Комментарии:

1. Это сложный вопрос, и я думаю, что ответ все еще открыт для исследования. По моему опыту, предварительно подготовленная модель всегда лучше, чем начинать с нуля, даже при переносе в совершенно другую область / задачу. Кстати, вы должны связать документ, который вы упоминаете в своем вопросе.

Ответ №1:

Это зависит от того, насколько отличаются исходный и целевой домены. Если исходный и целевой домены не имеют сходства, то вы не сможете улучшить свою модель для задачи в целевом домене путем предварительной подготовки в домене задачи. Однако, если есть сходства, например, любой домен изображений практически с любым другим доменом изображений, а набор данных вашего исходного домена большой, перенос вашей модели из исходного домена в целевой домен, вероятно, поможет упорядочить вашу модель и улучшить обобщение в целевом домене. Особенно, если набор данных целевого домена невелик.

В глубоком обучении вы хотите повторно инициализировать (переобучать на основе случайных весов) больше слоев (сверху вниз) и выполнить более тонкую настройку в зависимости от того, насколько различаются ваши исходный и целевой домены и исходные и целевые задачи.

Ответ №2:

Что такое «домен»?

В области обработки естественного языка (NLP) проводится множество исследований по адаптации к предметной области, и вы можете получить некоторую выгоду во всех случаях (# 1- # 8), которые вы описываете относительно того, что NLP назвал бы «разными областями» — например, текст в новостной ленте против текста твита против текста отчета по клинической радиологии; да, даже в # 8.

Однако у вас может быть больше разных «доменов» (которые на самом деле нельзя было бы назвать доменами IMHO) — например, английский текст против китайского текста; или английский текст против английских аудиозаписей. Даже в этих случаях возможно выполнить некоторое перенос обучения, но гораздо более ограниченное; так что это действительно зависит от того, где вы проводите границу между «это другой домен» и «это совершенно другой тип входных данных».