elasticsearch如何使用Ngram实现任意位数手机号搜索_F11

分享到

elasticsearch如何使用Ngram实现任意位数手机号搜索

相关技巧 来源：互联网作者：佚名发布时间：2024-05-18 22:55:15 人浏览

摘要

Ngram自定义分词案例当对keyword类型的字段进行高亮查询时，若值为123asd456，查询sd4，则高亮结果是＜em＞123asd456＜em＞。那么，有没有办法只对sd4高亮呢？用一句话来概括问题：明明只想查询

Ngram自定义分词案例

当对keyword类型的字段进行高亮查询时，若值为123asd456，查询sd4，则高亮结果是＜em＞123asd456＜em＞。那么，有没有办法只对sd4高亮呢？用一句话来概括问题：明明只想查询ID的一部分，但高亮结果是整个ID串，此时应该怎么办？

实战问题拆解

###定义索引

PUT my_index_0602

{

"mappings": {

"properties": {

"phoneNum": {

"type": "keyword"

}

####批量写入数据

POST my_index_0602/_bulk

{"index":{"_id":1}}

{"phoneNum":"13511112222"}

{"index":{"_id":2}}

{"phoneNum":"13844248474"}

###执行模糊检索和高亮显示

POST my_index_0602/_search

{

"highlight": {

"fields": {

"phoneNum": {}

}

"query": {

"bool": {

"should": [

{

"wildcard": {

"phoneNum": "*1111*"

}

]

}

高亮检索结果如下。

也就是说，整个字符串都呈现为高亮状态了，没有达到预期。

检索过程中选择使用wildcard是为了解决子串匹配的问题，wildcard的实现逻辑类似于MySQL的like模糊匹配。传统的text标准分词器，包括中文分词器ik、英文分词器english、standard等都不能解决上述子串匹配问题。

而实际业务需求是这样的：一方面要求输入子串能召回全串；另一方面要求检索的子串实现高亮。对此，只能更换一种分词来实现，即Ngram。

Ngram分词器定义

Ngram分词定义

Ngram是一种基于统计语言模型的算法。Ngram基本思想是将文本里面的内容按照字节大小进行滑动窗口操作，形成长度是N的字节片段序列。此时每一个字节片段称为gram。对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间。列表中的每一种gram就是一个特征向量维度。

该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其他任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram（二元语法）和三元的Tri-Gram（三元语法）。

Ngram分词示例

以“你今天吃饭了吗“这一中文句子为例，它的Bi-Gram分词结果如下。

Ngram分词应用场景

场景1：文本压缩、检查拼写错误、加速字符串查找、文献语种识别。

场景2：自然语言处理自动化领域得到新的应用。如自动分类、自动索引、超链的自动生成、文献检索、无分隔符语言文本的切分等。

场景3：自然语言的自动分类功能。针对Elasticsearch检索，Ngram针对无分隔符语言文本的分词（比如手机号检索），可提高检索效率（相较于wildcard检索和正则匹配检索来说）

Ngram分词实战

###定义索引

PUT my_index_0603

{

"settings":{

"number_of_shards":1,

"number_of_replicas":0,

"index.max_ngram_diff" : 10,

"analysis":{

"analyzer":{

"phoneNo_analyzer":{

"tokenizer": "phoneNo_analyzer"

}

"tokenizer":{

"phoneNo_analyzer":{

"type": "ngram",

"min_gram": 4,

"max_gram": 11,

"token_chars": [

"letter","digit"

]

}

"mappings":{

"dynamic":"strict",

"properties":{

"phoneNo":{

"type":"text",

"analyzer": "phoneNo_analyzer"

}

####批量写入数据

POST my_index_0603/_bulk

{"index":{"_id":1}}

{"phoneNo":"13511112222"}

{"index":{"_id":2}}

{"phoneNo":"13844248474"}

POST my_index_0603/_analyze

{

"analyzer": "phoneNo_analyzer",

"text": "13511112222"

}

POST my_index_0603/_search

{

"highlight": {

"fields": {

"phoneNo": {}

}

"query": {

"bool": {

"should": [

{

"match_phrase": {

"phoneNo": "1111"

}

]

}

您可能感兴趣的文章 :

ElasticSearch写入流程介绍

原文链接 :

Tag : ElasticSearch(4)

Prometheus + Grafana构建强大的监控和数据可视化系统

1. Grafana 是什么开始前首先要问一个问题，Grafana 到底是什么。 Grafana 是一个监控仪表系统，它是由 Grafana Labs 公司开源的的一个系统监测
elasticsearch如何使用Ngram实现任意位数手机号搜索

Ngram自定义分词案例当对keyword类型的字段进行高亮查询时，若值为123asd456，查询sd4，则高亮结果是＜em＞123asd456＜em＞。那么，有没有办法只
prometheus之Pushgateway安装和使用方法

一、Pushgateway概述 1.1 Pushgateway简介 Pushgateway是prometheus的一个组件，prometheus server默认是通过exporter主动获取数据（默认采取pull拉取数据），
基于QGIS的研究区域遥感影像裁切下载方法(以岳麓

之前有朋友曾经跟我交流反馈，想根据一个研究区域的矢量范围，去下载这个研究区域内的高清遥感影像作为底图，而不想要其它区域的。
vscode安装扩展Volar失败的解决方案

练习v3的项目时，发现vscode要安装volar扩展打开vscode扩展，搜索该扩展，下载时，总是提示Failed to install vue.volar.无法安装。点击尝试手动下
使用SQOOP抽数到Hive遇到的问题详细介绍

使用SQOOP抽数到Hive遇到问题前置条件 1.源端数据库类型为Mysql 2.目标端是Hive库，beeline为1.1.0 3.Hive建表时使用了分桶，并且加入了stored as o
typescript 实现RabbitMQ死信队列和延迟队列(订单10分

Manjaro安装RabbitMQ 安装 1 sudo pacman -S rabbitmq rabbitmqadmin 启动管理模块 1 2 sudo rabbitmq-plugins enable rabbitmq_management sudo rabbitmq-server 管理界面 http:/
VSCode隐藏侧边栏文件或文件夹的方法

VSCode 如何隐藏侧边栏文件或文件夹开发时有些文件根部就会动，可能是运行的环境或者缓存，可能是其他的文件。但是又不能删除，影响
油猴脚本开发详解+油猴爬虫脚本的介绍

在日常的爬虫工作和学习中经常用到油猴，真的感觉是浏览器最强插件，当油猴与爬虫结合的时候一个问题令人难以解决，到底该管这种方
Idea中使用git查看历史版本的教程

有好几次同事到我电脑用idea查看git管理的历史记录，每次都说我的idea看不了历史版本，叫我到他电脑上去看，很晕，为什么,原来是我自己