#python-3.x #pdfminer
#python-3.x #pdfminer
Вопрос:
Я пытаюсь извлечь географические координаты в формате UTM из файла .pdf с помощью python3 в операционной системе Ubuntu со следующим кодом:
from pathlib import Path
import textract
import numpy as np
import re
import os
import pdfminer
def main(_file):
try:
text = textract.process(_file, method="pdfminer")
except textract.exceptions.ShellError as ex:
print(ex)
return
with open("%s.csv" % Path(_file).name[: -len(Path(_file).suffix)],
"w ") as _file:
# find orders and DNIs
coords = re.compile(r"d?.?d . d ,d{2}")
results = re.findall(coords, text.decode())
if results:
_file.write("|".join(results))
if __name__ == "__main__":
_file = "/home/cristian33/python_proj/folder1/buscarco.pdf"
main(_file)
когда я запускаю его, выдает следующую ошибку:
Команда pdf2txt.py /home/cristian33/python_proj/folder1/buscarco.pdf
завершилась с ошибкой, поскольку исполняемый файл pdf2txt.py
не установлен в вашей системе. Пожалуйста, убедитесь, что установлены соответствующие зависимости перед использованием textract:
http://textract.readthedocs.org/en/latest/installation.html
кто-нибудь знает, почему эта ошибка?
Спасибо
Комментарии:
1. вы установили все пакеты , используя pip install pdf2text и pip install textract ?
2. можете ли вы настроить python path, а затем снова установить пакеты. Google как настроить python path в ubuntu
3. извините, но pdf2text — это то же самое, что pdf2txt?
4. наконец я смог запустить скрипт, проблема заключалась в том, что я устанавливал pip способом python2, и я должен использовать этот способ: sudo python3 -m pip install -U pip extract