一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

这篇具有很好参考价值的文章主要介绍了一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

说到全文检索的分词,多半讲到的是中(日韩)文分词,少有英文等拉丁文系语言,因为英语单词天然就是分词的。
但更少讲到阿拉伯数字。比如金额,手机号码,座机号码等等。

以下不是传统的从0开始针对mysql全文索引前世今生讲起。
我更喜欢从一个小问题入手,见缝插针的将相关的知识点,以非时间线性顺序零散穿插起来。

从一个线上的BUG说起

我们有一张人口表,里面的数据有多种数据源合并而来,因此每个用户的手机号可能有多个。
这也很好理解,有的人就是有多个手机号,有的人就是经常换手机号,对吧。
现在有个功能需要通过手机号去关联用户。

因为手机号有多个,所以要么使用like进行模糊匹配。用户表有上千万条记录,这样的效率肯定是不能接受的。

select * from t_user where phone like '%13112345678%'

要么使用另一个折中的方案,将手机号单独成表,用户表对手机号表一对多关联。
这种方式效率上能接受,但需要改变现有数据结构,故放弃。

select u.id,u.username,u.phone from t_user u LEFT JOIN t_user_phone p on u.id = p.user_id where p.phone = '13112345678'

最终选用全文索引。(mysql 5.7.6+)

先在用户表针对手机号创建一个全文索引。
使用内置分词引擎ngram

CREATE FULLTEXT INDEX idx_full_text_phone ON t_user (phone) WITH PARSER ngram;

当使用手机模糊查询关联用户时可使用以下语句。

  1. 布尔模式模糊检索
select * from t_user where match(phone) AGAINST('13996459860' in boolean mode)
  1. 自然语言模式。mysql默认为此模式,所以第2条sql没有显式指定时,仍然为自然语言模式。
select * from t_user where match(phone) AGAINST('13996459860' in NATURAL LANGUAGE mode)
或
select * from t_user where match(phone) AGAINST('13996459860')

根据我们的需求,查询手机号需要全匹配才算命中。所以选择布尔模式。
自然语言模式做不到。
关于布尔模式和自然语言模式的区别,后面做介绍。


以上算是简单的背景介绍。

但是
万恶的但是,虽迟但到

有一天产品过来告诉我,某个手机号关联出来上百个人。
他问,这种情况是正常的吗?

他如果直接说你这里有个bug,我可能直接就怼回去了(bushi 🤣
但是他说得这么委婉,我反而没底了。 🙈


不要对一个程序员说:你的代码有Bug。他的第一反应是:①你的环境有问题吧;②S13你会用吗?
如果你委婉地说:你这个程序和预期的有点不一致,你看看是不是我的使用方法有问题?
他本能地会想:woco!是不是出Bug了!

直觉告诉我这不正常,不然这个人是搞电诈或者海王吗?

我拿手机号去数据库里查询。使用布尔模式全文检索,确实关联出来多个人。
但也确实是个BUG.

我们来完整地模拟一下。
先创建一张测试用户表。
phone字段加上全文索引,使用ngram分词器。

CREATE TABLE `t_user` (
  `id` int(11) NOT NULL,
  `username` varchar(10) COLLATE utf8_bin DEFAULT NULL,
  `phone` varchar(50) COLLATE utf8_bin DEFAULT NULL,
  PRIMARY KEY (`id`),
  FULLTEXT KEY `idx_full_text_phone` (`phone`) /*!50100 WITH PARSER `ngram` */ 
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

插入几条测试数据

-- ----------------------------
-- Records of t_user
-- ----------------------------
INSERT INTO `t_user` VALUES ('1', '张三', '13996459860,15987569874,0797-12345');
INSERT INTO `t_user` VALUES ('2', '李四', '0797-6789');
INSERT INTO `t_user` VALUES ('3', '王五', '0797-94649');

正常情况下

select * from t_user where match(phone) AGAINST('13996459860' in boolean mode)
select * from t_user where match(phone) AGAINST('13996459860' in NATURAL LANGUAGE mode)
select * from t_user where match(phone) AGAINST('13996459860')

都能得到
一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

异常情况

select * from t_user where match(phone) AGAINST('0797-12345' in boolean mode)

得到结果
一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

可以看到后面两条记录不是预期的结果。
也是产品经理反映的问题。

大家应该都猜到了,就是座机号的原因。嗯,用户有个座机,这很河狸嘛。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

都是广义上的联系方式嘛。

看起来,这条SQL是将包含0797的数据行都返回了,但我使用的是布尔模式,要求全部匹配上0797-12345才返回。

我猜可能是'-'导致分词的问题,将其分成了两部份。


分词器


分词就是对需要进行搜索的关键词进行拆分。MySQL最初支持全文索引时,使用的是parser (拉丁语法分词器,通过空格来分词),
如英文I am programmer ,天然可以通过空格拆分成I am programmer3个单词,这也就是前文说的英语天然没有分词的问题。

但对于像中文这类不以空格拆分词语的语言来说无法适用。
因此MYSQL5.7.6后提供了n_gram parser字符长度分词器) ,对中文的全文索引支持更友好,分词器的使用也很简单,创建索引时添加 WITH PARSER ngram即为使用n_gram parser(字符长度分词器),不加则默认使用传统parser(拉丁语法空格分词器)。

注意字符长度分词器这几个字,故名思义,它就是按字符的长度来分词的,之所以单独提出来,是区别于基于NLP自然语义的分词,如复旦分词等。

比如我是程序员这个短句,如果按照自然语义分析来进行分词的话,它可能会分成 程序 程序员等。
断不可能分出来序员。除非分词器有问题。

n_gram parser分词器就有可能。 mysql默认分词长度为2,可在my.cnf里进行配置,ngram_token_size = 2指定分词长度。

针对不同的分词长度,我是程序员这个短句可以有以下多种分词效果。


ngram_token_size=1: '我', '是', '程', '序', '员'
ngram_token_size=2: '我是', '是程', '程序' , '序员' 
ngram_token_size=3: '我是程', '是程序' , '程序员'
...
ngram_token_size=5: '我是程序员'
...
最大ngram_token_size=10

我的测试库ngram_token_size为2,加个字段简单测试一下。

单个字搜不到,因为最小分词单位为2。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

搜索程序序员都能得到正确的结果。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索
一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索



以上是汉字的分词,回到今天的正题,对于阿拉伯数字呢?
如金额23.45元,手机号13912345678,座机号0797-12345678,日期2023-01-01等等。

针对上面说到的BUG,座机号0797-12345678关联出来了多个带0797但-后面不相同的号码,
我一开始以为是-的问题。它将0797-12345678分成了079712345678两部份。

但通过这一小节的n_gram parser的介绍,我们知道它是基于长度的分词器,那么原因肯定就不是这样的。

通过以下两句SQL可以证明它是两两拆分的。

select * from t_user where match(phone) AGAINST('7-' in NATURAL LANGUAGE mode)
select * from t_user where match(phone) AGAINST('07' in boolean mode)

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

7-07都能将3条记录全部匹配出来。

但是在布尔模式下,7-搜索不出来。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

为什么呢?

这里mysql把7-中的-当成逻辑运算符了,而不是整体当作一个搜索关键词。


stopword


内置的MySQL全文解析器将单词与stopword 列表中的条目进行比较。如果一个单词在stopword列表当中,则该单词将从索引中排除。

对于ngram解析器,stopword处理的执行方式不同。ngram解析器不排除与stopword中的条目相等的令牌,而是排除包含stopword的令牌。

例如,假设ngram_token_size=2,包含a,b的文档将被解析为a,,b
如果逗号被定义为stopword,则a,,b都将从索引中排除,因为它们包含逗号。


同理,如果stopword当中包含-,同时ngram_token_size=4,那么座机号0797-1789就被拆分成两个大的部份,07971789
其中 797-1 97-17 7-178 等都将被排除。

如此以上猜想成立的话,就有可能导致开头的BUG。 前提是wordstop当中包含-

在innodb当中,stopword可以通过INFORMATION_SCHEMA.INNODB_FT_DEFAULT_STOPWORD表来查看。
可以通过此表来自定义删除或添加stopword,从而改变分词规则。

通过查看,可以发现'-'并不在stopword当中,所以上面的猜想是错误的,并不是这个原因导致的BUG。

mysql> SELECT * FROM INFORMATION_SCHEMA.INNODB_FT_DEFAULT_STOPWORD;
+-------+
| value |
+-------+
| a     |
| about |
| an    |
| are   |
| as    |
| at    |
| be    |
| by    |
| com   |
| de    |
| en    |
| for   |
| from  |
| how   |
| i     |
| in    |
| is    |
| it    |
| la    |
| of    |
| on    |
| or    |
| that  |
| the   |
| this  |
| to    |
| was   |
| what  |
| when  |
| where |
| who   |
| will  |
| with  |
| und   |
| the   |
| www   |
+-------+
36 rows in set (0.00 sec)

布尔模式的逻辑运算符


mysql全文检索有两种最常用的方式。自然语言模式和布尔模式。


自然语言模式


对于自然语言模式搜索,搜索项被转换为ngram项的并集。例如,字符串abc(假设ngram_token_size=2)被转换为ab bc。给定两个文档,一个包含ab,另一个包含abc,搜索词ab bc匹配这两个文档。

可以简单的理解为,将搜索关键词再拆分,与文档进行模式匹配。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

上图所示,文档中包含12和'0997'都被命中了。


布尔模式


对于布尔模式搜索,搜索项被转换为ngram短语搜索。例如,字符串abc(假设ngram_token_size=2)被转换为ab bc。给定两个文档,一个包含ab,另一个包含abc,搜索短语ab bc只匹配包含abc的文档。

可以理解为不会对关键词进行再拆分,相当于对搜索关键词进行全匹配。

使用相同的测试数据和相当的搜索关键词,使用布尔模式搜索。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

结果为空。 没有数据被命中。


但是

在布尔模式下搜索0797-12345命中了0797-946490797-1789
但不会命中'07','09','12'等。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

我只能解释为,布尔模式下,搜索关键词0797-12345中的'-'被当成语法了,导致无形中被拆分成了079712345两部份。

但是,我从mysql官网没有找到证据。 所以此点存疑。各位看官要有自己的思考,不要被我误导!

跟上一小节当中'7-'没有命中任何记录一样,也是布尔模式下语法的原因。

现在我们来讨论一下布尔模式下的逻辑运算符问题。

布尔模式的逻辑运算符

  1. +
    select * from t_user where match(phone) AGAINST('a +b' in boolean mode)
    其中 + 会被识别成逻辑运算符,而不是将a +b作为一个整体,以下同理。
    'a +b' 指'a'和'b'必须同时出现才满足搜索条件。
  2. -
    select * from t_user where match(phone) AGAINST('0797 -12345' in boolean mode)
    0797 -123450797必须包含,但不包含12345才能满足搜索条件。
    以下查询排除了包含0797-12345的记录。
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索
    注意-前后空格 0797 -12345才表示包含0797 同时不包含12345.
    0797-12345等于0797 - 12345,它并不等于0797 -12345
    有图为证:
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索
  3. > <
    提高/降低该条匹配数据的权重值。不管使用>还是 <,其权重值均大于没使用其中任何一个的。
    select * from t_user where match(phone) AGAINST('0797(>94649 <12345)' in boolean mode)
    表示匹配0797,同时包含94649的列往前排,包含12345的往后排
    select * from t_user where match(phone) AGAINST('a > b' in NATURAL LANGUAGE mode)
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索
  4. ()
    相当于表达式分组,参考上一个例子。
  5. *
    通配符,只能在字符串后面使用
  6. "
    完全匹配,被双引号包起来的单词必须整个被匹配。
    select * from t_user where match(phone) AGAINST('"0797-1789"' in boolean mode)
    "0797-1789"中不可再分。其它包含0797-1234等记录就不再匹配。
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

解决方案


现在,让我们回到最初的美好。
我们遇到了一个问题,一个座机号0979-1789全文检索返回了不完全匹配的记录。

一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

那么,想要完全匹配,需要怎么做呢。
经过上面的旅程,我们有了两种方案。

  1. 使用 ""
    将座机号包起来,"0979-1789",表示此搜索关键词不可再分。自然就能全匹配。
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索
  2. 主动拆分,再使用+
    我们知道,之所以座机号能将不完全匹配的记录查询出来,是因为将座机号当中的"-"当成了逻辑运算符,从而导致了座机号被拆分成了两部份。
    那我们先主动将座机号拆分两部份,再使用逻辑运算符"+",表示两部份都必须包含才能返回。
    一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索

建议使用第一种方法。

其它的电话号码表示方法,比如区号+电话号码,023+12345678,国际长途0086-10-1234567或+86-573-82651630,610-643-4567等。
这里面涉及到+-等逻辑运算符,用第一种方法最安全。

倒排索引

全文索引即是倒排索引。
好像这种说法,在lucene或者elasticsearch更流行。

文末还是简单说一下它的原理。


传统数据库索引的方式是,【表->字段】。而倒排索引的方式是先将字段进行分词,然后将单词跟文档进行关联,变为【文档 -> 单词】,并将记录其它更为强大的信息(文档编号、词项频率、词项的位置、词项开始和结束的字符位置可以被存储)。

 有两篇文章:

1 我是程序员

2 我热爱写程序

先分词(这里假设以自然语义分词)

1 【我】【是】【程序】【程序员】

2 【我】【热爱】【写】【程序】

 

前面文章对关键字,经倒排后变成关键字对文章

 

关键字 文章号
1,2
1
程序 1,2
程序员 1
热爱 2
2

 

为了快速定位和节省存储大小,还需要加上关键字出现频率和位置。  

关键字 文章号(频率) 位置
1(1) 1
  2(1) 1
1(1) 2
程序 1(1) 3
  2(1) 4
程序员 1(1) 4
热爱 1(1) 1
1(1) 3

如果我要对“程序”进行搜索,能就能快速定位到文档1,2,并且能直接知道它在文档当中出现了多少次,分别出现在哪里。

小结

关于分词,mysql有两种引擎,一种是基于空格的拉丁语系模式,默认就是这种。如'i love you'拆分为i love you三部份。
在5.7.6以后,针对中日韩文字内置了一种基于长度的分词器,n_gram parser。
此分词器并不区分中文和阿拉伯数字,两种文本分词的标准是一样的。
但一些特殊的文本里面带有布尔模式下的逻辑运算符(+-><*())的时候需要特别注意。


同时,mysql全文索引本身有很多限制,该用elasticsearch的时候也该大胆上:

1:只支持char、varchar、text类型。
2:MySQL的全文索引只有全部在内存中的时候,性能才非常好。如果内存无法装载全部索引,那么性能可能会非常慢(可以为全文索引设置单独的键缓存(key cache),保证不会被其他的索引缓存挤出内存)
3:相比其它的索引类型,当insert、update和delete操作进行时,全文索引的操作代价非常大。而且全文索引会有更多的碎片,可能需要做更多的optimize table操作。
4:全文索引优先级在索引中最高,即便这时有更合适的索引可用,MySQL也会放弃性能比较,优先使用全文索引。
5:全文索引不存储索引列的实际值,也就不可能用作索引覆盖扫描。
6:除了相关性排序,全文索引不能用作其他的排序。如果查询需要做相关性以外的排序操作,都需要使用文件排。



参考:
https://dev.mysql.com/doc/refman/8.0/en/fulltext-search-ngram.html
https://dev.mysql.com/doc/refman/8.0/en/fulltext-stopwords.html文章来源地址https://www.toymoban.com/news/detail-449136.html

到了这里,关于一个线上全文索引BUG的排查:关于类阿拉件数字的分词与检索的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 中文数字与阿拉伯数字:数字符号的文化交融

    中文数字是古代中国人用来表示数字的一种符号系统,其起源可以追溯到古代汉字演变过程中。阿拉伯数字则源自印度,通过阿拉伯传入欧洲,成为现代世界通用的数字表示方式。中文数字与阿拉伯数字在历史上有交流和影响,但两者符号系统和表达方式存在差异。 中文数字

    2024年03月21日
    浏览(40)
  • 关于一个SFTP问题报错排查过程

    📓问题概述 日常运维工单为用户在文件服务器上建立账户之后,用户反馈登录报错;通过相邻网段服务器进行sftp登录报错如下: 百度一下过去经验,通过重启sshd服务和检查sshd_config配置都没问题。一筹莫展!!! 📌排查思路 尝试通过winscp客户端sftp登录,报连接异常情况

    2024年02月10日
    浏览(31)
  • JS实现阿拉伯数字转中文

    这个函数首先定义了两个数组,一个用于存储 0 到 9 的中文字符,另一个用于存储各个位的单位(如十、百、千等)。然后,它使用一个循环,从个位开始处理数字,每次处理一位。如果当前位是 0,它会检查前一位是否也是 0,如果不是,则在结果字符串中添加一个 “零”

    2024年02月13日
    浏览(39)
  • JavaScript中 将阿拉伯数字转为汉字

    在JavaScript中,可以使用以下代码将阿拉伯数字转换为汉字: 这段代码中,我们首先定义了两个数组: digits 和 units ,分别代表数字和单位。然后,我们将输入的数字转换成字符串,并逐个处理每一位数字。如果当前数字为0,我们不需要输出汉字,但需要考虑上一个数字是否

    2024年02月16日
    浏览(42)
  • MySQL一个关于derived table的bug描述与规避

    MySQL对derived table的优化处理与使用限制 同事遇到一个有意思的语句,说一条SQL在MySQL8.0.25版本运行出的结果明显与给定的where条件不符,而在8.0.26版本上是正常的,语句上加了一个无关的用户变量后在8.0.25版本上结果才是正确的,想不通这是怎么回事,这么有意思的事情自然

    2024年02月09日
    浏览(23)
  • 线上FullGC问题排查实践——手把手教你排查线上问题

    作者:京东科技 韩国凯 问题起因是我们收到了jdos的容器CPU告警,CPU使用率已经达到104% 观察该机器日志发现,此时有很多线程在执行跑批任务。正常来说,跑批任务是低CPU高内存型,所以此时考虑是FullGC引起的大量CPU占用(之前有类似情况,告知用户后重启应用后解决问题

    2024年02月02日
    浏览(38)
  • 【Java】阿拉伯数字转汉字(完全符合中文阅读习惯)(支持所有整数类型)

    网上看过很多实现,但都有 BUG,不是多余0没有处理,就是很多生成的汉字字符串根本不符合中文阅读习惯(各位代码写完测试的时候用例多搞一点啊) 刚好公司有个项目就要实现这个小功能,顾把自己的实现分享出来 看代码前,先观察一下结果是否满足各位的预期 用例输

    2024年02月09日
    浏览(31)
  • 记录关于智能家居的路程的一个bug___Segmentation fault(段错误)

    其实发生段错误的情况有很多: 其实在项目的开发中最有可能的错误就是①和②,考虑到本项目数组用的比较少,所以主要是考虑错误①指针的误用。 有时候错误就是那么离谱,声音也算是一种设备????? 有时候又没有段错误 怀疑是多线程的问题,把线程一个一个注释

    2024年04月15日
    浏览(27)
  • 线上问题排查回答(转载)

    面试官:「你是怎么定位线上问题的?」 这个面试题我在两年社招的时候遇到过,前几天面试也遇到了。我觉得我每一次都答得中规中矩,今天来梳理复盘下,下次又被问到的时候希望可以答得更好。 下一次我应该会按照这个思路去答: 1、如果线上出现了问题,我们更多的

    2023年04月27日
    浏览(42)
  • 【面试】线上 CPU 100% 问题排查

    回答套路一般为:线上服务器没有排查过,线上服务器只有运维才有操作权限。在平时开发的时候,在测试服务器上排查过。 2.1、将代码打包成 jar 包 参考: 点我 2.2、传到服务并运行 运行好的效果如下 3.1、拿到进程 id 通过 top 命令,就可以看到让 cpu 100% 的进程 id,pid 就是

    2024年02月11日
    浏览(37)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包