Удаление как в R dataset

Вопрос:

Я работаю над корпусом твитов, содержащих, как я полагаю, символы Юникода , , , ,  и многое другое. Они не следуют одному и тому же шаблону, некоторые находятся между предложениями, некоторые в конце, а другие в начале. Есть ли способ удалить их все?

Я нашел много похожих вопросов, но ни один из них, похоже, не работает в моем случае или, по крайней мере, не для всех. Я попытался использовать gsub и sub в tm_map следующим образом:

 corpus <- tm_map(corpus, content_transformer(sub), pattern = "<U 00A0>", replacement = '')

Но это не работает.

Ответ №1:

 corpus <- tm_map(corpus, content_transformer(gsub), pattern = '<[^>] >', replacement = ' ')
corpus <- tm_map(corpus, content_transformer(gsub), pattern = '<[^>] ><[^>] >', replacement = ' ')

Вопрос:

Ответ №1:

Вам также может понравиться

Конвейер Дженкинса создает определенные ветви при извлечении / pr

Добавьте элементы пользовательского интерфейса в forgeviewer в angular

что аргумент в анонимной функции представляет в именованной функции?