Elasticsearch - rozdělení textu na termy a základní dotazy

Elasticsearch = systém pro fulltextové vyhledávání
založen na Apache Lucene, používá strukturu Skip list
Elasticsearch komunikuje pomocí REST (representational state transfer)
- Pro komunikaci se serverem lze použít libovolého REST klienta.
  - Např. curl, rozšíření REST Client do VS Code, …

Rozdělení textu na termy (Tokenizace)

V Elasticsearch se indexace dokumentů skládá z několika kroků, ve kterých je text rozdělen na menší části nazývané “termy” nebo “tokeny”.
Proces tokenizace:
1. Analýza: Text je zpracován analyzátorem. To je kombinace tokenizeru a filterů
  - Tokenizer: rozděluje text na tokeny, obvykle na základě mezery a interpunkce.
  - Token filtr: modifikuje tokeny, například převádění na malá písmena, odstranění stop slov, synonyma, atd.
  - Například řetězec "The Hobbit, or There and Back Again" se přeloží na termy: "the", "hobbit", "or", "there", "and", "back", "again".
2. Indexace (Indexing): Tokeny jsou poté přidány do invertovaného indexu, který mapuje termíny na místa jejich výskytu v dokumentech.

POST /index/_search 
{
	"query": query 
}

Příklad požadavku

{
  "query": {
		"term": {
			"status": "active"
		}
	}
}

{
	"hits": {
		"total": {
			"value": hits_count,
		},
		"hits": hits 
	}
}

{
"_id": document_id
"_source": document
}

{
	"match_all": { }
}

Dotaz match zasáhne dokumenty, které mají v položce name hodnotu vyhovující predikátu value_query.

{  
	"match": {
	name: value_query 
	}
}

{  
	"query": {
	    "match": {
	      "title": {
			"query": "THE, HoBBit"
	      }
		} 
	}
}

{  
	"query": query_string, 
	"operator": "AND"
}