#r
#r
Вопрос:
Я работаю над корпусом твитов, содержащих, как я полагаю, символы Юникода <U 0001F195>, <U 00A0>, <U 0085>, <U 0092>, <U 393C>
и многое другое. Они не следуют одному и тому же шаблону, некоторые находятся между предложениями, некоторые в конце, а другие в начале. Есть ли способ удалить их все?
Я нашел много похожих вопросов, но ни один из них, похоже, не работает в моем случае или, по крайней мере, не для всех. Я попытался использовать gsub и sub в tm_map следующим образом:
corpus <- tm_map(corpus, content_transformer(sub), pattern = "<U 00A0>", replacement = '')
Но это не работает.
Ответ №1:
corpus <- tm_map(corpus, content_transformer(gsub), pattern = '<[^>] >', replacement = ' ')
corpus <- tm_map(corpus, content_transformer(gsub), pattern = '<[^>] ><[^>] >', replacement = ' ')