ElasticSearch词项生成器之分词器-ElasticSearch零基础到实战

当前位置:　首页>> 技术小册>> ElasticSearch零基础到实战

分词器（tokenizer）是Elasticsearch中的一个关键组件，它负责将文本转换为一系列词项（terms），以便能够进行索引和搜索。在本文中，我们将深入了解Elasticsearch的分词器，包括什么是分词器，如何定义和配置分词器，以及一些示例代码，展示如何使用分词器来处理文本。

**什么是分词器？**

在Elasticsearch中，分词器是一个负责将文本分解成一系列词项（terms）的组件。一个词项是指索引中可以搜索的最小单元，通常是单词或数字等。例如，当您在Elasticsearch中搜索“Elasticsearch的分词器”，它会将搜索查询转换为一组词项，如“Elasticsearch”，“的”，“分词器”。这些词项可以在索引中进行匹配，以找到与查询相关的文档。

Elasticsearch内置了多个分词器，包括标准分词器（standard tokenizer）、简单分词器（simple tokenizer）、路径分词器（path tokenizer）等。此外，Elasticsearch还支持自定义分词器，可以根据具体应用场景的需要进行定制。

**如何定义和配置分词器？**

在Elasticsearch中，可以通过Mapping来定义和配置分词器。Mapping是Elasticsearch中文档类型（Document Type）的描述方式，它定义了文档中的字段以及如何处理这些字段的数据。在Mapping中，可以指定每个字段使用哪种分词器，以及其他分词器的相关配置参数。

下面是一个示例Mapping，其中定义了一个名为“title”的字段，并使用标准分词器对其进行分词：
```asp
PUT /my_index
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "standard"
      }
    }
  }
}

```
在这个示例中，我们使用PUT命令来创建名为“my_index”的索引。然后，在mappings字段中，我们定义了一个名为“title”的字段，类型为“text”。接着，我们指定该字段使用标准分词器（analyzer字段）。

除了标准分词器之外，Elasticsearch还支持多种其他的内置分词器，如简单分词器（simple tokenizer）、路径分词器（path tokenizer）等。下面是一个使用简单分词器的示例Mapping：
```asp
PUT /my_index
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "simple"
      }
    }
  }
}

```
在这个示例中，我们将“title”字段的分词器改为简单分词器。

除了使用内置的分词器之外，Elasticsearch还支持自定义分词器。自定义分词器可以使用Elasticsearch提供的分词器API进行定义和配置。下面是一个使用自定义分词器的示例Mapping：
```asp
PUT /my_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      },
      "tokenizer": {
        "my_tokenizer": {
          "type": "ngram",
          "min_gram": 2,
          "max_gram": 3,
          "token_chars": [
            "letter",
            "digit"
          ]
        }
      }
    }
  },
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  }
}

```
在这个示例中，我们使用PUT命令创建名为“my_index”的索引，并使用settings字段定义了一个名为“my_analyzer”的自定义分词器。该分词器使用了一个名为“my_tokenizer”的自定义分词器，其中“ngram”指定了分词器的类型，而“min_gram”和“max_gram”则指定了词项的最小和最大长度。最后，“token_chars”指定了词项的字符类型。

**使用示例**

下面我们来看几个使用分词器的示例代码。在这些示例中，我们将使用Elasticsearch的Java API来执行相关操作。

使用标准分词器对文本进行分词
下面是一个使用标准分词器对文本进行分词的示例代码：
```asp
String text = "Elasticsearch的分词器";
Analyzer analyzer = new StandardAnalyzer();
TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(text));
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
tokenStream.reset();
while (tokenStream.incrementToken()) {
    String term = charTermAttribute.toString();
    System.out.println(term);
}
analyzer.close();

```
在这个示例中，我们首先定义了一个名为“text”的文本字符串，然后创建了一个标准分词器对象，并使用tokenStream方法对文本进行分词。接着，我们通过TokenStream的incrementToken方法逐个获取每个词项，并通过CharTermAttribute来获取词项的文本内容。

使用简单分词器对文本进行分词
下面是一个使用简单分词器对文本进行分词的示例代码：
```asp
String text = "Elasticsearch的分词器";
Analyzer analyzer = new SimpleAnalyzer();
TokenStream tokenStream = analyzer.tokenStream("title", new StringReader(text));
CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
tokenStream.reset();
while (tokenStream.incrementToken()) {
    String term = charTermAttribute.toString();
    System.out.println(term);
}
analyzer.close();

```

该分类下的相关小册推荐：

ElasticSearch入门与实践