Как кратко изложить основное содержание статьи на веб-странице?

#java #jsoup #summarization #boilerpipe #classifier4j

#java #jsoup #обобщение #boilerpipe #classifier4j

Вопрос:

Я пытаюсь написать обобщитель статей для HTML-страниц. До сих пор я использовал boilerpipe и Classifier4J.

 //url can be any url in String
public String getArticleSummaryFromUrl() {
    private Document doc = Jsoup.connect(url).get();;
    String summary = "";
    String article = "";    
    try {
        article = ArticleExtractor.INSTANCE.getText(doc.html());    
        System.out.println("Article      >>"   article);
        SimpleSummariser ss = new SimpleSummariser();       
        summary = ss.summarise(article, 4);
        } catch (BoilerpipeProcessingException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }       
        return summary;
}
 

Но в большинстве случаев код не дает желаемых результатов, поскольку построение предложения выполнено неправильно.

Я пытаюсь реализовать что-то столь же аккуратное, как http://smmry.com /.

Кто-нибудь знает какую-нибудь библиотеку Java, которая делает это за вас?

Комментарии:

1. Почему бы тогда не использовать smmry API? smmry.com/api

2. @FredericKlein Я не хочу зависеть от внешних вызовов. Служба, которую я создаю, уже содержит много обработки. Я не хочу выполнять какие-либо другие внешние вызовы, а также не хочу зависеть от внешних API.