ANTLR3 реализовал сходство Jaccard для сравнения двух файлов Java

#java #similarity

#java #сходство

Вопрос:

Смотрите этот код, это из JCCD API, который я переделал. ^_^

  BufferedReader in = new BufferedReader(new FileReader(f.getFile()));
    String filePath = f.getNama(); // getName of file
    final Antlr3JavaLexer lexer = new Antlr3JavaLexer();
    lexer.preserveWhitespacesAndComments = false;
    try {
        lexer.setCharStream(new ANTLRReaderStream(in));

    } catch (IOException e) {
        e.printStackTrace();
        return false;
    }


    StringBuilder sbu = new StringBuilder();
    while (true) {
        org.antlr.runtime.Token token = lexer.nextToken();
        if (token.getType() == lexer.EOF) {
           break;
        }
        sbu.append(token.getType());
            System.out.println(token.getType());
    }
 

это дает мне такой результат для TestFileOne.java

 876116423877916429791644323742916418167432388167444266238816449164291643016743444242877916429791641179164432310329164351674323742916420164432316461643016444426623164616430164444242881644442879010116429164164224143234242[]
 

и это TestFileTwo.java

 876116423877916429791644323742916418167432388167444266238816449164291643016743444242877916429791641179164432310329164351674323742916420164432316461643016444426623164616430164444242881644442879010116429164164224143234242[]
 

теперь мой вопрос в том, кто-нибудь может дать мне подсказку или предложение по реализации сходства jaccard для ожидаемого результата, такого как результат, подобный проценту сходства обоих?
Большое вам спасибо…

Комментарии:

1. Ваш вопрос недостаточно конкретен («может ли кто-нибудь помочь» или «дать подсказку» редко подходят для SO). Вы пробовали: google.com/search ? q = java jaccard

2. Мистер Барт, возможно, вы можете привести мне пример?