如何从800万数据中快速捞出自己想要的数据?

这篇具有很好参考价值的文章主要介绍了如何从800万数据中快速捞出自己想要的数据?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录
  • 一、需求调研
  • 二、常规思路
  • 四、寻找解决方案
  • 四、说干就干,实现它
    • 1 将like 改为instr函数
    • 2 使用Oracle全文索引

一、需求调研

正如题目所说,我们使用的是Oracle数据库,数据量在800万左右。我们要完成的事情就是在着800万数据中,通过某些字段进行模糊查询,得到我们所需要的结果集。

这是表里的数据,一共7328976 条数据,接近800万

select count(1) from t_material_new;

如何从800万数据中快速捞出自己想要的数据?
这是我们想要的结果,根据耗材名称生产企业名称 或其他字段模糊查询出我们想要的结果集

select * from t_material_new t where (t.耗材名称 like '%一次性%' ) and (t.生产企业名称 like '%洁瑞医用制品%');

如何从800万数据中快速捞出自己想要的数据?

二、常规思路

一听到要模糊查询,我们想到得关键字当然是like了。

like我们常用的有以下三种匹配方式

  • 字段 like '%关键字%' 查询出字段包含”关键字”的记录
  • 字段 like '关键字%' 查询出字段以”关键字”开始的记录
  • 字段 like '%关键字' 查询出字段以”关键字”结束的记录

我们都知道like关键字的查询效率比较低,我们来看下具体查询效率
1、字段 like '%关键字%' 方式

-- 1、查询包含关键字记录 需要花费5.61s
select * from t_material_new t where (t.耗材名称 like '%一次性%' ) and (t.生产企业名称 like '%洁瑞医用制品%');

如何从800万数据中快速捞出自己想要的数据?
2、字段 like '关键字%' 方式

-- 2、查询以”关键字”开始的记录  花费0.203s
select * from t_material_new t where (t.耗材名称 like '真空采血%') and (t.生产企业名称 like '重庆三丰医疗器%');

如何从800万数据中快速捞出自己想要的数据?
3、 字段 like '%关键字' 方式

3、查询以”关键字”结束的记录 花费0.484s
select * from t_material_new t where (t.耗材名称 like '%肠内') and (t.生产企业名称 like '%疗器械有限公司');

如何从800万数据中快速捞出自己想要的数据?
通过以上测试,我们可以得出以下结论

  • 字段 like '%关键字%' 没法走索引,效率极低
  • 字段 like '关键字%'字段 like '%关键字' 可以走到索引,查询效率可以接受

我们让用户通过第二种、或第三种方式检索也不太现实。
那就只能想想办法看能不能优化了。

四、寻找解决方案

遇到问题总是要解决的,然后就去请教大佬了。
如何从800万数据中快速捞出自己想要的数据?

如何从800万数据中快速捞出自己想要的数据?
咨询后小结:
(1)建立函数索引

原来函数也是可以建立索引的,get到新技能了。但是这里的由于函数入参内容的不确定性,没法建立函数索引。这种方案便被否决了

(2)提升硬件质量

作为一名资深打工人,提升硬件质量当然不是由我能决定的了。

以上两种方案都不行,那就只能另辟蹊径了。
问了度娘之后,从网上有找到了两种相对靠谱的方案。
如何从800万数据中快速捞出自己想要的数据?
1、将like 关键字替换为instr 函数
2、建立全文索引

四、说干就干,实现它

1 将like 改为instr函数

① 函数简介

instr 俗称字符查找函数。用于查找目标字符串在源字符串中出现的位置

② 语法格式

-- sourceString 代表源字符串
-- destString  代表目标字符串
-- start 代表从源字符串查找开始位置,默认为1,可以省略 负数表示倒数第几位开始查找
-- appearPosition 代表想从源字符中查找出第几次出现目标字符串destString 默认为1,可以省略
instr(sourceString,destString,start,appearPosition)
instr('源字符串', '目标字符串' ,'开始位置','第几次出现')

③ 举个栗子

-- 省略后两个默认参数
select instr('helloworld','l') from dual; --返回结果:3 即第一次出现"l"的位置是第3位
select instr('helloworld','wo') from dual; --返回结果:6 即第一次出现"wo"的位置是第6位
select instr('helloworld','wr') from dual; --返回结果:0 即未查找到字符串"wr"
--带上后两位参数
select instr('helloworld','l',2,2) from dual;  --返回结果:4 即在"helloworld"的第2位(e)开始,查找第二次出现的"l"的位置是4
select instr('helloworld','l',-2,3) from dual; --返回结果:3 即在"helloworld"的倒数第2(l)号位置开始,往回查找第三次出现的“l”的位置是3

④ 用instr函数改写上面的sql

select * from t_material_new t where (t.耗材名称 like '%一次性%' ) and (t.生产企业名称 like '%洁瑞医用制品%');  -- 得到结果集需要 6.11秒
-- 相当于
select * from t_material_new t where instr(t.耗材名称,'一次性')>0 and instr(t.生产企业名称, '洁瑞医用制品')>0;  -- 得到结果集只需要3.812秒

小结:用instr函数改写like 关键字后,查询效率明显提高了。
但是,还有没有其他方式可以再优化一下呢?
经过小编坚持不懈的问度娘之后,还真找到了另一个方法,那就建立全文索引。
建立全文索引有点复杂,具体操作参照【2使用Oracle全文索引】

2 使用Oracle全文索引

温馨提示:建立索引是需要占用一部分磁盘空间的,这其实也是我们常说的以空间换取时间

① Oracle版本的要求

Oracle 10g或以上版本才支持,其他低版本的就不能使用了

② 建立索引前准备工作

oracle全文检索需要ctxsys用户的支持,我们需要使用ctxsys用户下的ctx_ddl这个包。
在建立全文索引过程中,基本上都在使用这个包。

我们在安装Oracle的时候,ctxsys用户可能没启用。
我们这里要做的有两步
Ⅰ 解锁ctxsys用户,以获得ctx_ddl包的使用权限。

-- 需要以Oracle管理员system用户进行解锁
alter user ctxsys account unlock; 

Ⅱ 将ctx_ddl包的操作权限赋给需要操作的用户

grant execute on ctx_ddl to testuser;  

③创建分析器

oracle text的分析器 ,类似于lucene中的分词器,将需要检索的记录,按照一定的方式进行词组拆分,然后存放在索引表中。检索的时候根据索引表中存放的拆分词组,对传入的关键字进行匹配,并返回匹配结果集。

oracle text中的分析器有3种:

  • basic_lexer:只能根据空格和标点来进行拆分。比如“云南楚雄”,只能拆分为“云南楚雄”一个词组
  • chinese_vgram_lexer:专门的汉语分析器,按字单元进行拆分,比如“云南楚雄”,可以拆分为“云”、“云南“、”南楚”、“楚雄”、“雄”五个词组。这种方式的好处是能够将所有有可能的词组全部保存进索引表,使得数据不会遗漏。
  • chinese_lexer:一种新的汉语分析器,能够认识大部分常用的汉语词汇,并按常用词汇进行拆分存储。比如“云南楚雄”,只会被拆分为“云南”、“楚雄”两个词组。

为了是的需要检索的数据不会出现遗漏,这里我们选择chinese_vgram_lexer 这个分词器

登录我们需要查询数据的用户,以chinese_vgram_lexer 这种分词器方式创建分析器

-- 创建一个“chinese_vgram_lexer”分析器,名称为my_lexer
begin
ctx_ddl.create_preference ('my_lexer', 'chinese_vgram_lexer');  
end;

④ 创建过滤词组
我们在检索数据的时候,通常不需要某些词组进行检索,就如同上面查询条件中的生产企业
我们不希望输入“公司”“有限公司”“有限责任公司”等这样的关键词,也会检索出结果。

我们就可以通过建立过滤词组,以实现创建索引的时候将这些词组过滤掉

-- 创建一个词组过滤器
begin
ctx_ddl.create_stoplist('my_stoplist');  
end;
-- 往词组过滤器中添加过滤关键字
begin
ctx_ddl.add_stopword('my_stoplist','公司');  
ctx_ddl.add_stopword('my_stoplist','股份有限公司');  
ctx_ddl.add_stopword('my_stoplist','有限责任公司');  
end;

⑤ 到了最重要的一步,建立索引
以上所有都是为这一步准备的。

根据需求,我们需要对表t_material_new 中的耗材名称生产企业名称进行检索。
所以我们需要以耗材名称生产企业名称字段建立索引。建立脚本如下

注:以下脚本在执行的时候需要花费一点时间,耐心等待即可

-- 在t_material_new表中的【耗材名称】和【生产企业名称】字段上创建索引,索引类系那个为context类型,该索引用到的分析器为前面定义的my_lexer,该索引用到的过滤词组为前面定义得my_stoplist
create index INDEX_MATERIAL_NAME on t_material_new(耗材名称) indextype is CTXSYS.CONTEXT parameters('lexer my_lexer stoplist my_stoplist'); 

create index INDEX_MATERIAL_PROD on t_material_new(生产企业名称) indextype is CTXSYS.CONTEXT parameters('lexer my_lexer stoplist my_stoplist'); 

创建完索引后,我们会发现当前用户下,关于INDEX_MATERIAL_NAME 索引多了四个表,关于
INDEX_MATERIAL_PROD 也多了四个表。

如何从800万数据中快速捞出自己想要的数据?如何从800万数据中快速捞出自己想要的数据?
其中t_material_new表中【耗材名称】字段被拆分后的词组保存在dr\(index_material_name\)i表中
其中t_material_new表中【生产企业名称】字段被拆分后的词组保存在dr\(index_material_prod\)i表中

我们来查询下表的具体内容看看

select * from dr$index_material_name$i;

如何从800万数据中快速捞出自己想要的数据?

select * from dr$index_material_prod$i;

如何从800万数据中快速捞出自己想要的数据?
⑥ 如何使用索引?

-- 将以上查询sql改下为用全文索引的查询方式 (查询出我们想要的结果集仅仅需要0.312秒)
select * from t_material_new t where contains(t.耗材名称,'一次性')>0 and contains(t.生产企业名称, '洁瑞医用制品')>0; 

到此,基本上已经圆满完成了我们的需求任务。
我们做到了模糊查询从 6.11秒--> 3.812秒--> 0.312秒

可能细心的小伙伴会发现一个问题,
如果表t_material_new 中插入了新的数据,那么分析器中不就没记录到这些词了吗?

小伙伴提的这个问题挺好的,当然我们也有对应的方法解决

⑦ 完善我们的索引

当我们需要修改t_material_new 表中的数据,比如添加、删除、更新等操作时,INDEX_MATERIAL_NAME和INDEX_MATERIAL_PROD索引是不会同步更新数据的,需要我们在程序中手动的更新。

-- 更新同步索引中分词数据
begin
ctx_ddl.sync_index('INDEX_MATERIAL_NAME')  
ctx_ddl.sync_index('INDEX_MATERIAL_PROD')  
end 

当然了我们可以在表t_material_new 上写一个oracle的触发器,当添加、删除、修改操作时,进行索引分词更新;或者创建定时任务定时更新也可以。

定时任务的建立可以参照之前写过的文章
Oralce定时任务实际应用

到此,Oracle模糊查询优化就算完成了,但是还想分享一个小技巧。
怎么将excel 表格中的数据快速导入到Oracle数据库中呢?
要是数据少,都好说。当数据量到几十万、或者几百万的时候就比较难了。
这里推荐用Navicat工具导入
如何从800万数据中快速捞出自己想要的数据?
如何从800万数据中快速捞出自己想要的数据?

个人亲自实测,导入速度还是挺快的。

以上就是文章的全部内容了,希望对你有所帮助文章来源地址https://www.toymoban.com/news/detail-437782.html

到了这里,关于如何从800万数据中快速捞出自己想要的数据?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • GPT-LLM-Trainer:如何使用自己的数据轻松快速地微调和训练LLM

    想要轻松快速地使用您自己的数据微调和培训大型语言模型(LLM)?我们知道训练大型语言模型具有挑战性并需要耗费大量计算资源,包括收集和优化数据集、确定合适的模型及编写训练代码等。今天我们将介绍一种实验性新方法,实现特定任务高性能模型的训练。 我们的目

    2024年02月11日
    浏览(43)
  • 如何查看自己电脑上是否成功安装了Mysql,以及如何查看mysql的安装目录

    1、打开cmd,输入命令:net start mysql查看服务是否启动,若显示已启动则表示安装成功 2、窗口+R,输入services.msc,在弹出的服务窗口中我们可以发现MySQL正在运行中,表示已经安装成功。 双击MySQL,在弹出的界面中可以查看到mysql对应的安装目录

    2024年03月25日
    浏览(65)
  • uniapp 地图如何添加?你要的教程来喽!

    地图在 app 中使用还是很广泛的,常见的应用常见有: 1、获取自己的位置,规划路线。 2、使用标记点进行标记多个位置。 3、绘制多边形,使用围墙标记位置等等。 此篇文章就以高德地图为例,以上述三个常见需求为例,教大家如何在 uniapp 中添加地图。 作为一个不管闲事

    2024年02月11日
    浏览(43)
  • 论文(3)——使用ChatGPT快速提高科研能力!!如何快速构建代码?怎么提高自己的科研能力?如何提高自己的生产力?

    引言 chatGPT大模型用于问问题和debug,NewBing用于搜索论文,cpolit用于写代码…各种各样的工具层出不穷,之前因为课程和各种琐事,也就胡乱接触了一下,并没有进行系统性的总结。 这不,暑假要做系统性的科研了,也要好好写代码了(之前也在好好写代码),就需要好好总

    2024年02月16日
    浏览(50)
  • 爬虫源码---爬取自己想要看的小说

    小说作为在自己空闲时间下的消遣工具,对我们打发空闲时间很有帮助,而我们在网站上面浏览小说时会被广告和其他一些东西影响我们的观看体验,而这时我们就可以利用爬虫将我们想要观看的小说下载下来,这样就不会担心广告的影响了。 Python版本:3.7.3 IDE:PyCharm 所需库

    2024年02月09日
    浏览(43)
  • 程序员在职场中如何让自己的技能快速提高,WEB前端开发工程师如何让自己快速成为团队的核心开发人员?

    今天聊一聊 就是我们在工作中就实际的 工资里面 写代码的过程中怎么提高自己的 一些技能 以及我们怎么样快速成为 就是一个团队的核心开发人 包括我以前 其实我也是一个小迷弟 后来就是慢慢慢慢 包括经历一些项目什么东西 其实现在已经慢慢成为核心开发人员 就是分享

    2023年04月16日
    浏览(63)
  • #R语言#如何筛选出矩阵的中想要的数据行?

    方法一:把矩阵形式改成数据框形式,然后利用subset()函数取出想要的数据。 方法二:不更改矩阵的列名,直接筛选。 My_matrix[,3]0  #筛选出该矩阵第三列的正数

    2024年02月16日
    浏览(32)
  • 一键AI绘画-生成自己想要生成的图片(你懂的)。

    ①、相信大家应该听说过ai绘图,就是通过一些文字描写,去绘制你想要的图片。 ②、因为这里用到的是白嫖colab谷歌服务器无需本地显卡,所以需要能访问谷歌的代理。 https://colab.research.google.com/drive/1_Ma71L6uGbtt6UQyA3FjqW2lcZ5Bjck- ①↑打开由 colab文档链接,登录谷歌账号,左上

    2024年02月03日
    浏览(44)
  • 美容行业如何快速搭建自己的预约小程序?

    现在,搭建一个专属于美容行业的预约小程序不再是只有程序员才能做到的事情了。有了一些小程序制作平台的存在,任何人都可以轻松地制作出自己的小程序。下面,我将揭秘一个快速搭建专属美容行业预约小程序的秘诀。 首先,登录小程序制作平台,并进入后台。在后台

    2024年02月11日
    浏览(54)
  • 基于Docker如何快速部署自己的ChatGPT

    随着OpenAI在2022年底发布的LLM模型-ChatGPT展现出的强大效果,ChatGPT无疑成为了当下炙手可热的明星模型。 现有的基于GPT的开源项目已经非常多,本文以现有的高热度github开源项目chatgpt-web为例,教大家简单快速地搭建属于自己的ChatGPT。 chatgpt-web项目中的部署教程已经非常完整

    2023年04月09日
    浏览(41)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包