Попытка извлечь географические координаты из файла .pdf с помощью python3

#python-3.x #pdfminer

#python-3.x #pdfminer

Вопрос:

Я пытаюсь извлечь географические координаты в формате UTM из файла .pdf с помощью python3 в операционной системе Ubuntu со следующим кодом:

 from pathlib import Path
import textract 
import numpy as np
import re
import os
import pdfminer

def main(_file):
    try:
        text = textract.process(_file, method="pdfminer")
    except textract.exceptions.ShellError as ex:
        print(ex)
        return
    with open("%s.csv" % Path(_file).name[: -len(Path(_file).suffix)], 
"w ") as _file:

# find orders and DNIs

        coords = re.compile(r"d?.?d . d ,d{2}")                                                                                                                                                               
        results = re.findall(coords, text.decode())
        if results:
            _file.write("|".join(results))

if __name__ == "__main__":
    _file = "/home/cristian33/python_proj/folder1/buscarco.pdf"
    main(_file)
  

когда я запускаю его, выдает следующую ошибку:

Команда pdf2txt.py /home/cristian33/python_proj/folder1/buscarco.pdf завершилась с ошибкой, поскольку исполняемый файл pdf2txt.py не установлен в вашей системе. Пожалуйста, убедитесь, что установлены соответствующие зависимости перед использованием textract:

 http://textract.readthedocs.org/en/latest/installation.html
  

кто-нибудь знает, почему эта ошибка?

Спасибо

Комментарии:

1. вы установили все пакеты , используя pip install pdf2text и pip install textract ?

2. можете ли вы настроить python path, а затем снова установить пакеты. Google как настроить python path в ubuntu

3. извините, но pdf2text — это то же самое, что pdf2txt?

4. наконец я смог запустить скрипт, проблема заключалась в том, что я устанавливал pip способом python2, и я должен использовать этот способ: sudo python3 -m pip install -U pip extract