You are currently viewing Маркировка текста с помощью NLTK в Python

Маркировка текста с помощью NLTK в Python

Для запуска приведенной ниже программы на python в вашей системе должен быть установлен инструментарий для естественного языка (NLTK).
Модуль NLTK-это массивный набор инструментов, призванный помочь вам со всей методологией обработки естественного языка (NLP).
Для установки NLTK выполните следующие команды в своем терминале.

  • sudo pip установить nltk
  • Затем введите оболочку python в свой терминал, просто набрав python
  • Тип импорт nltk
  • nltk.скачать(‘все’)

Вышеуказанная установка займет довольно много времени из-за огромного количества токенизаторов, блоков, других алгоритмов и всех корпусов, которые необходимо загрузить.

  • Corpus – Основной текст, единственное число. Тела-это множественное число от этого.
  • Лексикон– Слова и их значения.
  • Токен – каждая “сущность”, являющаяся частью того, что было разделено на основе правил. Например, каждое слово является маркером, когда предложение “маркируется” словами. Каждое предложение также может быть маркером, если вы выделили предложения из абзаца.Таким образом, в основном маркировка включает в себя разделение предложений и слов из основной части текста.
# import the existing word and sentence tokenizing
# libraries
from nltk.tokenize import sent_tokenize, word_tokenize

text = "Natural language processing (NLP) is a field " + \
	"of computer science, artificial intelligence " + \
	"and computational linguistics concerned with " + \
	"the interactions between computers and human " + \
	"(natural) languages, and, in particular, " + \
	"concerned with programming computers to " + \
	"fruitfully process large natural language " + \
	"corpora. Challenges in natural language " + \
	"processing frequently involve natural " + \
	"language understanding, natural language" + \
	"generation frequently from formal, machine" + \
	"-readable logical forms), connecting language " + \
	"and machine perception, managing human-" + \
	"computer dialog systems, or some combination " + \
	"thereof."

print(sent_tokenize(text))
print(word_tokenize(text))`

Выход:

[‘Natural language processing (NLP) is a field of computer science, artificial intelligence and computational linguistics concerned with the interactions between computers and human (natural) languages, and, in particular, concerned with programming computers to fruitfully process large natural language corpora.’, ‘Challenges in natural language processing frequently involve natural language understanding, natural language generation (frequently from formal, machine-readable logical forms), connecting language and machine perception, managing human-computer dialog systems, or some combination thereof.’]
[‘Natural’, ‘language’, ‘processing’, ‘(‘, ‘NLP’, ‘)’, ‘is’, ‘a’, ‘field’, ‘of’, ‘computer’, ‘science’, ‘,’, ‘artificial’, ‘intelligence’, ‘and’, ‘computational’, ‘linguistics’, ‘concerned’, ‘with’, ‘the’, ‘interactions’, ‘between’, ‘computers’, ‘and’, ‘human’, ‘(‘, ‘natural’, ‘)’, ‘languages’, ‘,’, ‘and’, ‘,’, ‘in’, ‘particular’, ‘,’, ‘concerned’, ‘with’, ‘programming’, ‘computers’, ‘to’, ‘fruitfully’, ‘process’, ‘large’, ‘natural’, ‘language’, ‘corpora’, ‘.’, ‘Challenges’, ‘in’, ‘natural’, ‘language’, ‘processing’, ‘frequently’, ‘involve’, ‘natural’, ‘language’, ‘understanding’, ‘,’, ‘natural’, ‘language’, ‘generation’, ‘(‘, ‘frequently’, ‘from’, ‘formal’, ‘,’, ‘machine-readable’, ‘logical’, ‘forms’, ‘)’, ‘,’, ‘connecting’, ‘language’, ‘and’, ‘machine’, ‘perception’, ‘,’, ‘managing’, ‘human-computer’, ‘dialog’, ‘systems’, ‘,’, ‘or’, ‘some’, ‘combination’, ‘thereof’, ‘.’]

Итак, мы создали токены, которые изначально являются предложениями, а затем словами.