#elasticsearch #elasticsearch-2.0
#elasticsearch #elasticsearch-2.0
Вопрос:
Я использую ElasticSearch 2.4.1. Когда я выполняю следующий запрос, все документы оцениваются 1.0. Почему?
Я получаю такое же поведение, если удаляю «bool» и просто выполняю сопоставление в одном поле.
Запрос:
{
"query" :
{
"bool": {
"must" : [
{"match" : { "last" : { "query" : "SMITH" , fuzziness: 2.0}} }
],
"should" : [
{"match" : {"first" :{ "query" : "JOE", fuzziness: 1.0, boost: 99.0}}}
]
}
}
}
Объясните, почему одно совпадение дает мне:
1.0 = sum of:
1.0 = ConstantScore( (last:1mith^0.8 last:1smith^0.8 last:4mith^0.8 last:amith^0.8 last:asmith^0.8 last:bsmith^0.8 last:csmith^0.8 last:dsmith^0.8 last:emith^0.8 last:esmith^0.8 last:fsmith^0.8 last:hmith^0.8 last:hsmith^0.8 last:imith^0.8 last:ismith^0.8 last:jmith^0.8 last:jsmith^0.8 last:ksmith^0.8 last:lsmith^0.8 last:msith^0.8 last:msmith^0.8 last:nsmith^0.8 last:omith^0.8 last:osmith^0.8 last:psmith^0.8 last:qsmith^0.8 last:rsmith^0.8 last:saith^0.8 last:samith^0.8 last:scmith^0.8 last:seith^0.8 last:shith^0.8 last:simith^0.8 last:simth^0.8 last:skith^0.8 last:slith^0.8 last:smaith^0.8 last:smath^0.8 last:smdith^0.8 last:smeth^0.8 last:smfith^0.8 last:smich^0.8 last:smidh^0.8 last:smidth^0.8 last:smieth^0.8 last:smigh^0.8 last:smiht^0.8 last:smiih^0.8 last:smiith^0.8 last:smith) (first:aoe^0.6666666 first:bjoe^0.6666666 first:boe^0.6666666 first:coe^0.6666666 first:djoe^0.6666666 first:doe^0.6666666 first:eoe^0.6666666 first:foe^0.6666666 first:goe^0.6666666 first:hoe^0.6666666 first:ioe^0.6666666 first:j0e^0.6666666 first:jae^0.6666666 first:jbe^0.6666666 first:jce^0.6666666 first:jee^0.6666666 first:jeo^0.6666666 first:jge^0.6666666 first:jhe^0.6666666 first:jhoe^0.6666666 first:jie^0.6666666 first:jioe^0.6666666 first:jke^0.6666666 first:jle^0.6666666 first:jme^0.6666666 first:jne^0.6666666 first:jnoe^0.6666666 first:joa^0.6666666 first:joae^0.6666666 first:job^0.6666666 first:jobe^0.6666666 first:joc^0.6666666 first:joce^0.6666666 first:jod^0.6666666 first:jode^0.6666666 first:joe first:joea^0.6666666 first:joeb^0.6666666 first:joec^0.6666666 first:joed^0.6666666 first:joee^0.6666666 first:joef^0.6666666 first:joeg^0.6666666 first:joeh^0.6666666 first:joei^0.6666666 first:joej^0.6666666 first:joek^0.6666666 first:joel^0.6666666 first:joem^0.6666666 first:joen^0.6666666)^99.0), product of:
1.0 = boost
1.0 = queryNorm
0.0 = match on required clause, product of:
0.0 = # clause
0.0 = weight(_type:mytype in 327) [], result of:
0.0 = score(doc=327,freq=1.0), with freq of:
1.0 = termFreq=1.0
Сопоставление типов:
{
"ourindex1": {
"mappings": {
"people": {
"properties": {
"city": {
"type": "string"
},
"first": {
"type": "string"
},
"last": {
"type": "string"
},
"middle": {
"type": "string"
},
"state": {
"type": "string"
},
"street": {
"type": "string"
},
"suffix": {
"type": "string"
},
"suite": {
"type": "string"
},
"territory": {
"type": "string"
},
"zip5": {
"type": "string"
}
}
}
}
}
}
Редактировать: упрощенное воспроизведение:
- Загрузите чистую версию elasticsearch 2.4.1 и запустите ее
-
Создайте новый индекс с:
POST /newindex/people
{«первый»: «ДЖО», «последний»: «СМИТ», «улица»: «ПЕРВАЯ УЛИЦА 1», «город»: «ЛОС-АНДЖЕЛЕС», «штат»: «КАЛИФОРНИЯ», «средний»: «»}
-
Выполните следующий запрос:
{ «запрос»: {«совпадение»: { «последний»: { «запрос»: «SMITHX», нечеткость: 1.0} } }}
Когда я это делаю, возвращаемый документ оценивается как 1.0, и в объяснении говорится что-то о ConstantScore.
Редактировать 2: похоже, что мои шаги по воспроизведению включали непреднамеренную ложь
Библиотека, которую мое приложение использует для связи с elasticsearch (elastic4s), похоже, искажает запрос, так что он становится:
{"query" : { "query" : {"match" : { "last" : { "query" : "SMITHX", fuzziness: 1.0} } }}}
(Обратите внимание, что дополнительный «запрос». Этот искаженный запрос возвращает результаты, которые я ожидал, но со счетом = 1.0.) Я думал, что уже пробовал выполнить запрос напрямую с помощью curl, но, очевидно, нет.
Комментарии:
1. Я попробовал тот же запрос и, похоже, у меня работает. Не могли бы вы опубликовать некоторые из ваших данных?
2. @JianpingLiu Я добавил шаги воспроизведения, которые включают некоторые образцы данных.
Ответ №1:
Это происходит из-за ключевого слова double query. Итак, в основном это работает следующим образом — внутренний запрос выбирает обращения и выдает что-то вроде этого:
{
"took": 7,
"timed_out": false,
"_shards": {
"total": 5,
"successful": 5,
"failed": 0
},
"hits": {
"total": 2,
"max_score": 0.30685285,
"hits": [
{
"_index": "my_index",
"_type": "people",
"_id": "2",
"_score": 0.30685285,
"_source": {
"first": "JOHN",
"last": "SMITHS",
"street": "2 SECOND STREET",
"city": "LA",
"state": "CA",
"middle": ""
}
},
{
"_index": "my_index",
"_type": "people",
"_id": "1",
"_score": 0.30685282,
"_source": {
"first": "JOE",
"last": "SMITH",
"street": "1 FIRST STREET",
"city": "LOS ANGELES",
"state": "CA",
"middle": ""
}
}
]
}
}
это полностью правильный ответ с правильной оценкой, но затем появляется второй запрос, который не изменил набор результатов, а только «съел» оценку и заменил ее на 1.0. Итак, вам нужно исправить использование elastic4s
Комментарии:
1. Да. На всякий случай, если кто-то придет сюда через Google: я делал
search in ("index" -> type") rawQuery("{query: { bool : ... }}")
я должен был делать:search in ("index" -> "type") rawQuery("{bool:...}")