Пара R — NLP — Экстракт

#r #nlp #udpipe

Вопрос:

  • Привет, ребята, я новичок в алгоритме НЛП с Р. Я хотел бы извлечь пару ( ГЛАГОЛ-существительное) из pdf-файла? Я застрял на теме частоты слов. Например, «Представлять интересы клиентов в уголовных и гражданских судебных разбирательствах и других судебных разбирательствах, составлять юридические документы, управлять или консультировать клиентов по юридическим сделкам. Может специализироваться в одной области или может широко практиковать во многих областях права».
  • Я хотел бы извлечь из них глагол-существительное. Что бы я сделал?

Ответ №1:

 > library(udpipe)
> docs <- "Represent clients in criminal and civil litigation and other legal proceedings, draw up legal documents, or manage or advise clients on legal transactions. May specialize in a single area or may practice broadly in many areas of law."
> docs <- setNames(docs, "doc1")
> anno <- udpipe(docs, object = "english", udpipe_model_repo = "bnosac/udpipe.models.ud")
> anno <- cbind_dependencies(anno, type = "parent")
> subset(anno, upos_parent %in% c("NOUN", "VERB") amp; upos %in% c("NOUN", "VERB"), 
         select = c("doc_id", "paragraph_id", "sentence_id", "token", "token_parent", "dep_rel", "upos", "upos_parent"))
   doc_id paragraph_id sentence_id        token token_parent dep_rel upos upos_parent
2    doc1            1           1      clients    Represent     obj NOUN        VERB
7    doc1            1           1   litigation    Represent     obl NOUN        VERB
11   doc1            1           1  proceedings   litigation    conj NOUN        NOUN
13   doc1            1           1         draw    Represent    conj VERB        VERB
16   doc1            1           1    documents         draw     obj NOUN        VERB
19   doc1            1           1       manage    documents    conj NOUN        NOUN
21   doc1            1           1       advise      clients    conj NOUN        NOUN
22   doc1            1           1      clients    Represent     obj NOUN        VERB
25   doc1            1           1 transactions      clients    nmod NOUN        NOUN
32   doc1            1           2         area   specialize     obl NOUN        VERB
35   doc1            1           2     practice   specialize    conj VERB        VERB
39   doc1            1           2        areas     practice     obl NOUN        VERB
41   doc1            1           2          law        areas    nmod NOUN        NOUN