Удаление как в R dataset

#r

#r

Вопрос:

Я работаю над корпусом твитов, содержащих, как я полагаю, символы Юникода <U 0001F195>, <U 00A0>, <U 0085>, <U 0092>, <U 393C> и многое другое. Они не следуют одному и тому же шаблону, некоторые находятся между предложениями, некоторые в конце, а другие в начале. Есть ли способ удалить их все?

Я нашел много похожих вопросов, но ни один из них, похоже, не работает в моем случае или, по крайней мере, не для всех. Я попытался использовать gsub и sub в tm_map следующим образом:

 corpus <- tm_map(corpus, content_transformer(sub), pattern = "<U 00A0>", replacement = '')
 

Но это не работает.

Ответ №1:

 corpus <- tm_map(corpus, content_transformer(gsub), pattern = '<[^>] >', replacement = ' ')
corpus <- tm_map(corpus, content_transformer(gsub), pattern = '<[^>] ><[^>] >', replacement = ' ')