#machine-learning #nlp #stanford-nlp
#машинное обучение #nlp #stanford-nlp
Вопрос:
Я получаю сообщение об ошибке при запуске StanfordCoreNLP, чтобы получить мнение, как показано ниже: в настоящее время я на версии 4.0.0, не могли бы вы посоветовать?
SentimentCostAndGradient: предупреждение: Дерево неправильно бинаризовано: (ROOT (: —) (S (VB let) (SBARQ (NP ‘s) (@SBARQ (ADVP just) (@SBARQ (VBP говорит) (SQ (S (VBG предполагает) (SBAR (NP you) (VP (@VP (@VP (VBP get) (NP (JJ поддерживает) (NN законодательство))) (NP (DT это) (NN год))) (PP (В в) (NP (DT the) (@NP (NNP Техас) (NN законодательный орган))))))) (@SQ (, ,) (@SQ (SBARQ (WHNP что) (SQ (VBZ ‘s) (NP (NP (DT the) (@NP (NN time) (NN line))) (PP (IN to) (S (получение VBG) (S (NP (DT an) (@NP (NNP AMI) (NN program))) (VP развернуто))))))) (@SQ (, ,) (@SQ (@SQ (MD должен) (NP мы)) (VP (@VP (@VP (@VP (VB скажем) (, ,)) (INTJ справа)) (, ,)) (S (ADVP so) (VP (@VP (@VP (VBG начиная) (PP (В от) (NP середина года))) (NP (DT это) (NN год))) (ADVP и далее))))))))))))) (. ?)) Исключение в потоке «main» java.lang.Ошибка утверждения: дерево неправильно бинаризовано в edu.stanford.nlp.sentiment.SentimentCostAndGradient.forwardPropagateTree(SentimentCostAndGradient.java:532) в edu.stanford.nlp.sentiment.SentimentCostAndGradient.forwardPropagateTree(SentimentCostAndGradient.java:512) в edu.stanford.nlp.pipeline.SentimentAnnotator.doOneSentence (SentimentAnnotator.java:115) в edu.stanford.nlp.pipeline.SentenceAnnotator.annotate(SentenceAnnotator.java:102) в edu.stanford.nlp.pipeline.AnnotationPipeline.annotate(AnnotationPipeline.java:76) в edu.stanford.nlp.pipeline.StanfordCoreNLP.annotate(StanfordCoreNLP.java:640) в edu.stanford.nlp.pipeline.StanfordCoreNLP.annotate(StanfordCoreNLP.java:650) в edu.stanford.nlp.pipeline.StanfordCoreNLP.processFiles(StanfordCoreNLP.java:1245) в edu.stanford.nlp.pipeline.StanfordCoreNLP.processFiles(StanfordCoreNLP.java: 1079) в edu.stanford.nlp.pipeline.StanfordCoreNLP.run(StanfordCoreNLP.java: 1362) в edu.stanford.nlp.pipeline.StanfordCoreNLP.main(StanfordCoreNLP.java: 1408)
Текст, который я ввожу в модуль StanfordCoreNLP:
Вы меня слышите? Итак, несколько дополнительных вопросов, если сможете. Во-первых, позвольте мне просто затронуть некоторые детали здесь, касающиеся кредита и увеличения капитала. Что вы думаете о своих [своего рода] показателях долга, где они находятся сегодня? Очевидно, что от агентств уже поступили некоторые комментарии. Но — и куда вам нужно идти? Я знаю, вы сказали, что не собираетесь сегодня вдаваться в подробности об общем количестве необходимого капитала, но просто хотите убедиться, что мы понимаем, где вы находитесь сегодня и куда вам нужно идти с точки зрения кредита. И я предполагаю, что вы хотите сохранить свои текущие соответствующие рейтинги. Понял, хорошо. И затем позвольте мне вернуться к этому повороту, насколько я понимаю, в отношении от 50 до 150 мегаватт — или, скорее, к росту за пределами закупок, может быть, лучший способ сказать это, верно? Итак, вы выполнили запрос запроса. Вы уже объявили эти результаты. Но затем на слайдах здесь вы говорите о покупке, похоже, дополнительного кванта, если я … если вы будете. Не могли бы вы немного рассказать об этом? И затем, чтобы внести ясность, очевидно, что вы присудили — или вы предлагаете присудить PPA здесь. Может ли это быть потенциальной ситуацией с собственной передачей? И, на самом деле, может быть, даже — позвольте мне расширить это, является ли изначально предоставленная емкость запроса предложений потенциально ситуацией с собственной передачей? И каковы сроки для этого, если вы не возражаете напомнить мне? Просто с точки зрения этого — я знаю, что в этом году у вас есть это небольшое описание в целом о том, когда вы выполняете эти контракты. Но, возможно, временная шкала конкретно связана с build-own-transfer, BOT, частью этого. Понял, отлично. И затем, извините, последний, только в отношении усилий AMI. Что касается сроков, о чем вы думаете — давайте просто скажем, предположим, что в этом году в законодательном органе штата Техас будет принято поддерживающее законодательство, каковы сроки развертывания программы AMI, скажем, правильно, начиная с середины этого года и далее? В руководстве 2019 года какой уровень снижения скорости предполагается в отношении как …, так и в отношении Техаса, как для передачи, так и для распространения? Хорошо. Поскольку, судя по тому, как вы это записываете, может показаться, что передача должна быть доступна для летнего пика, в то время как увеличение распределения может отсутствовать для летнего пика. Нет, я, конечно, ценю это и понимаю это. Но из запроса на 16 миллионов долларов, исходя из предположения, что эти совокупные доллары одобрены, исходя из графика времени, сколько реально попадает в ’19 против ’20? Хорошо. Кроме того, с точки зрения справедливости, что такое — с точки зрения вашего руководства, каково предположение о количестве акций с точки зрения увеличения справедливости для вашего руководства на 2019 год? Кроме того, вы подали и — ожидаете запроса на утверждение. Это было до 200 миллионов долларов. Я думаю, вы можете помочь нам с точки зрения … с точки зрения времени с точки зрения того, как … за какие годы или как вы думаете об этом? Предполагает ли эта гибкость также возможность финансирования акционерного капитала, если вы сможете достичь соглашения с некоторыми победителями запроса предложений о создании для покупки, как описывал Жюльен? Не могли бы вы рассказать нам немного о том, что вы видели в прогнозе погоды в первом квартале на данный момент? Хорошо. И можете ли вы дать нам какое-либо представление о том, что вы уже видели в законодательном органе штата Техас с точки зрения AMI? Хорошо. И насколько … вы дали нам некоторое представление о том, как может выглядеть DCRF в этом году. Как вы думаете, эти цифры похожи на то, как могут выглядеть базовые годовые показатели? Или вы настолько отстали, что это может быть немного выше обычного в будущем? Так что, может быть, как половина? Предполагая, что рост вашего клиента и нагрузки продолжается с одинаковой скоростью, это … это, возможно, предполагает, что примерно половина будет соответствовать ожидаемой скорости. ДА. Я понимаю, что в … с законодательным органом предпринимаются усилия по наделению PUCT возможностью использовать прогнозируемые тестовые годы для оценки случаев, чтобы помочь смягчить отставание в регулировании. Мне просто интересно, что вы … что вы знаете об этих усилиях и статусе и каковы, по вашему мнению, перспективы. ДА. Я думаю, что я имел в виду generation rider, вероятно, в более широком контексте. Но вы — если это сейчас сосредоточено особенно на гонщике поколения, я думаю, что вы — как вы это видите прямо сейчас? Извините, ребята, за продолжение здесь. Но я просто хотел уточнить это, что вы думаете о своей заработанной прибыли, запеченной в руководстве ’19 здесь? Опять же, я знаю, что вы говорите о нормализованной погоде, но я просто хочу понять, заработали ожидания ROE и как они устанавливаются. И я действительно, очевидно, что я спрашиваю больше на стороне распространения, чем на стороне передачи, если мы можем вникнуть в это. Понял. Но среднее значение, отраженное на стороне распределения между 2 юрисдикциями, немного ниже 9% на стороне распределения.
Вот как я запустил модель, я на версии 4.1.0:
java -mx3g -cp "/home/cxiao/release_date/stanford-corenlp-4.1.0/*" edu.stanford.nlp.pipeline.StanfordCoreNLP -props.q1
Для props.q1:
annotators = tokenize, ssplit, pos, parse, sentiment
outputFormat = JSON
outputDirectory = /path_to/standard_input/fail/
timeout = 500000
output.includeText = False
parse.model = edu/stanford/nlp/models/srparser/englishSR.ser.gz
continueOnAnnotateError = True
filelist = /path_to/stanford-corenlp-4.1.0/q/flist1.lst
Для списка файлов:
/pathto/failed_file.txt
Комментарии:
1. Не могли бы вы объяснить, как вы это используете? Если я помещу весь текст в файл и запущу его следующим образом, я не получу ошибку с текущим CoreNLP: java edu.stanford.nlp.pipeline. StanfordCoreNLP -аннотаторы «tokenize, ssplit, pos, parse, sentiment» —file foo.txt
2. Обратите внимание, что он использует 4.1.0
3. @John Я добавил, как я работал, к сути моего вопроса. Я тоже использовал 4.1.0, но все же произошел сбой.
4. @StanfordNLPHelp Я использовал 4.1.0, все еще та же ошибка. Добавлены команды и файл свойств, которые я использовал, в исходное сообщение. Спасибо.
5. @John Привет! Я заметил, что если я удалю строку parse.model = edu/stanford/nlp/models/srparser/englishSR.ser.gz судя по файлу свойств, модель действительно работает. Но могу ли я узнать, почему я не могу использовать этот анализатор?
Ответ №1:
Это действительно непонятная ошибка в анализаторе sr, вызванная небольшим количеством обучающих деревьев в одном из недавно добавленных обучающих наборов, нарушающих предположение, что все деревья заканчиваются на S, FRAG и т. Д., А Затем переходят в ROOT как унарный переход. Ошибка, возникающая здесь, является лишь частью предложения, вызывающего проблему, и анализатор sr пытался разделить это предложение на две части с двумя отдельными корнями. На самом деле, проблема еще более странная, поскольку это вызвало ошибку только ниже по потоку, когда у одного из этих корней было 3 или более частей.
В любом случае, ошибку можно исправить, установив, что КОРНЕВЫЕ узлы находятся только на самом верху дерева. Это исправление находится в этой ветви исходного дерева:
https://github.com/stanfordnlp/CoreNLP/tree/fix_sr_binary
Если вы не видите там ветку, это означает, что она уже была объединена в
https://github.com/stanfordnlp/CoreNLP/tree/dev
Планируется опубликовать новый релиз в ближайшие несколько недель, после чего вы можете просто использовать новый релиз, а не создавать из исходного кода, чтобы получить это исправление.
Редактировать: вы специально хотите это изменение
https://github.com/stanfordnlp/CoreNLP/commit/10881ca4727b6d114e5157d2aa547bceac18d294
Все, что было раньше, не сможет загружать старые модели, поскольку в readObject требуется взломать, чтобы заставить его загружать старые модели, и мы собираемся переделать модели с обновленными правилами перехода