ES自己手动高亮

这篇具有很好参考价值的文章主要介绍了ES自己手动高亮。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

背景: es的高亮真的是一言难尽,经常出现各种各样的高亮异常. 如 高亮错位 高亮词错误等等.而且 用wildcardQuery 等 也无法高亮. 可能是我技术不精吧,总是调不好这玩意,因此决定手写高亮 .

废话不多说 直接上代码:
1:第一步 处理高亮词:
这个跟各位的业务有关系,比如有没有用到 近义词 有没有 什么 繁简 纠错等等的转换. 这一步,就是要把 输入词keyword 转成 需要高亮的 词数组[以下代码是我自己业务的处理流程, 各位将就着看,自己理解,对着自己的业务,将就着改]:

    private void checkHighlight (EsPageDTO esPageDTO,IndexQueryDTO objDTO,EsSearchDTO esSearchDTO) {
        if(esPageDTO.getResponseData()== null){
            return;
        }
       Set<String> words = new HashSet<>();
        //查询关键词
        String word = objDTO.getKeyword();
        //实际词
        String actualWord = esPageDTO.getActualWord();
        //标记 查询词
        String keyword = StringUtils.isBlank(actualWord) ? word: actualWord;

        //高亮配置
        QueryHighlightConfigDTO highlightconfig = esSearchDTO.getHighlightconfig();
        //判断是否是高级检索
        Map<String, Object> seniorParams = objDTO.getSeniorParams();
        if(seniorParams == null){
            //如果是精准检索
            if(objDTO.getExactQuery()){
                words.add(word);
            }else{
                //繁体字
                List<String> tWords = new ArrayList<>();
                //添加查询词
                words.add(keyword);
                //从缓存中获取查询词 拆词(选 word 还是 actualWord )
                if(mapCache.get(EsConstants.ES_CACHE_WORD_CUT+keyword) != null){
                    List<String> cutWords = new ArrayList<>();
                    List<OneToManyTrunkDTO>  integration = ((List<OneToManyTrunkDTO>) mapCache.get(EsConstants.ES_CACHE_WORD_CUT + keyword));
                    integration.forEach(item->{
                        String s = item.getWord();
                        if(item.getSeal().contains(ChineseS2THandle.SEAL_T)){
                            tWords.add(s);
                        }else{
                            if(s.contains(",")){
                                cutWords.addAll(Arrays.asList(s.split(",")));
                            }else{
                                cutWords.add(s);
                            }
                        }
                    });
                    words.addAll(cutWords);
                }
                //让这些words经受ES smart分词器洗礼 [繁体字可免除洗礼,因为ik分词器压根无法对繁体字进行准确分词]
                words.addAll(esPlusUtils.testAnalyzer(words.toArray(new String[0]), Analyzer.ik_smart.name())) ;
                //重新添加 tWord
                if(CollectionUtils.isNotEmpty(tWords)){
                    words.addAll(tWords);
                }

                //用新容器 是为了防止 ConcurrentModificationException 因为是异步 words 可能会一边在add 一边在read
                List<String> forFull2Half = new ArrayList<>(words);
                List<String> forHalf2Full = new ArrayList<>(words);

                //全角半角转换[转半角]
                CompletableFuture<Set<String>> full2HalfFuture = CompletableFuture.supplyAsync(() ->
                        this.getHalfWord(forFull2Half)).whenComplete((v, t) ->{
                    words.addAll(v);
                });
                //全角半角转换[转全角]
                CompletableFuture<Set<String>> half2FullFuture = CompletableFuture.supplyAsync(() ->
                        this.getFullWord(forHalf2Full)).whenComplete((v, t) ->{
                    words.addAll(v);
                });
                CompletableFuture.allOf(full2HalfFuture,half2FullFuture).join();
            }
        }
        List<SearchResultVO> responseData = esPageDTO.getResponseData();
        for (SearchResultVO item : responseData) {
            Class<SearchResultVO> itemClass = SearchResultVO.class;
            //获取高亮字段
            List<String> mappingFields = highlightconfig.getMappingFieldsAll();
            Map<String, String> mappingFieldNameAndTypeAll = highlightconfig.getMappingFieldNameAndTypeAll();
            //默认都会给的 起码有个titlt 和 content
            for (String highlightFiled : mappingFields) {
                try {
                    Set<String> queryWords;
                    Field field = itemClass.getDeclaredField(highlightFiled);
                    field.setAccessible(true);
                    String text = field.get(item).toString();
                    //获取 查询词
                    if(seniorParams == null){
                        queryWords = words;
                    }else{
                        Object wordObj = seniorParams.get(highlightFiled);
                        if(null == wordObj || StringUtils.isBlank(wordObj.toString())){
                            //如果查询词是空 就不考虑了
                            continue;
                        }
                        queryWords = new HashSet<>(Collections.singletonList(wordObj.toString()));
                        //这里 没有 搞花里胡哨 的 自定义词拆分 但是  还是会被 分词 所以 还是要走一下 ik
                        queryWords = new HashSet<>(esPlusUtils.testAnalyzer(queryWords.toArray(new String[0]), Analyzer.ik_smart.name()));
                    }
                    String lastText = this.buildHighlight(highlightconfig, text, queryWords,EsFiledsEnum.TEXT.getType().equals(mappingFieldNameAndTypeAll.get(highlightFiled)));
                    field.set(item,lastText);
                } catch (NoSuchFieldException | IllegalAccessException ignored) {
                }
            }
        }
    }

第二步 高亮

private String buildHighlight(QueryHighlightConfigDTO highlightconfig,String text,Set<String> wordsparam,Boolean cut){
        //高亮前缀
        String preTags = String.format("<span style=\"color:%s\" >",highlightconfig.getColour()) ;
        //高亮后缀
        String postTags = "</span>";

       // 已经高亮的 就不处理了  -- 目前已经放弃 ES 高亮了
        if(text.contains("<span")){
            //应该校准一下 但是太复杂了 以后再说吧 尽量在前面避免 高亮不准 毕竟高亮不准 肯定是有异常原因的
            return text;
        }
        //把words 进行排序 长字段 优先
        List<String> words = wordsparam.stream().sorted(Comparator.comparing(String::length).reversed()).collect(Collectors.toList());
        if(!cut){
            for (String s : words) {
                if(text.contains(s)){
                    text = text.replaceAll(s,preTags+s+postTags);
                }
            }
            return text;
        }
        //片段大小
        int fragmentSize = highlightconfig.getFragmentSize() == null ? 50 : highlightconfig.getFragmentSize();
        //关键词字数
        int numOfFragment = highlightconfig.getNumOfFragment() == null ? 3:highlightconfig.getNumOfFragment();
        //未匹配返回长度
        int noMatchSize = highlightconfig.getNoMatchSize() == null ? 0 : highlightconfig.getNoMatchSize() ;

        List<Integer[]> partSection = new ArrayList<>();
//        List<String> maxWords = new ArrayList<>();
//        words.forEach(item->maxWords.addAll(Arrays.asList(item.split(""))));
        int alreadyFindnumOfFragment = 0;
        //已使用的Words
        List<String> alreadyUseWord = new ArrayList<>();
        for (String s : words) {
            if(text.contains(s)){
                //根据关键词字数 去截取片段
                for (int i = 0; i <numOfFragment;i++) {
                    if(alreadyFindnumOfFragment == numOfFragment){
                        break;
                    }
                    int index = find(text, s, i + 1);
                    if(index == -1){
                        break;
                    }
                    int section = index+s.length();
                    //片段大小 前后 一半 ?
                    //计算 fragmentSize 的 前一半 和 后一半
                    int firstHalf  = fragmentSize/2;
                    int secondHalf  = fragmentSize/2 + fragmentSize%2;
                    int start = Math.max(section - firstHalf, 0);
                    int end = Math.min(section + secondHalf, text.length()-1);
                    partSection.add(new Integer[]{start,end});
                    alreadyUseWord.add(s);
                    alreadyFindnumOfFragment++;
                }
            }else{
                // sb.append(text.substring(Math.min((noMatchSize + 1), text.length()+1)));
            }
        }
        //整合区间
        List<Integer[]> lastSection = new ArrayList<>();
        if(CollectionUtils.isEmpty(partSection)){
            return  text;
        }
        //按区间起始时间给区间排序
        partSection.sort(Comparator.comparing(item->item[0]));
        Integer lastStart  = 0;
        Integer lastEnd = 0;
        for (int i = 0; i < partSection.size(); i++) {
            Integer currentStart = (partSection.get(i))[0];
            Integer currentEnd = (partSection.get(i))[1];
            if(i == 0){
                lastStart = currentStart;
                lastEnd =  currentEnd;
            }else{
                //有交集(不可能出现等于,因为字符都是有长度的)
                if(lastEnd > currentStart){
                    lastEnd = currentEnd;
                }else{
                    lastSection.add(new Integer[]{lastStart,lastEnd});
                    lastStart = currentStart;
                    lastEnd = currentEnd;
                }
            }
            //最后了
            if(i ==  partSection.size()-1){
                lastSection.add(new Integer[]{lastStart,lastEnd});
            }
        }
        StringBuilder sb = new StringBuilder();
        for (Integer[] integers : lastSection) {
            sb.append(text, integers[0], integers[1]+1);
        }
        String result = sb.toString();
        for (String s : alreadyUseWord) {
            try {
                result = result.replace(s,preTags+s+postTags);
            } catch (Exception e) {
                e.printStackTrace();
            }
        }
       return result;
    }
 /**
     * 字符串中某字符 第N次出现的位置
     * */
    public static int find( String text, String part, int n) {
        int x = text.indexOf(part);;
        if (n == 1) {
            return x;
        }
        for (int i = 1; i < n; i += 1) {
            x = text.indexOf(part, x + 1);
        }
        return x;
    }

优化方向

目前效率总体来说还是相当哇塞的,不用太过担心…如果对效率有更高的要求可以参考下面:
使用Aho-Corasick算法
简单地说,Aho-Corasick算法是针对多关键词的文本搜索。无论我们要搜索多少关键字或文本长度有多长,它都有O(n)时间复杂度。
可用来优化自定义高亮

目前还没功夫换,等有空再说吧!
大概就是这些,有什么问题欢迎评论区讨论和指正.文章来源地址https://www.toymoban.com/news/detail-531220.html

到了这里,关于ES自己手动高亮的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【ES数据库】Elasticsearch安装使用

    Elasticsearch 和 MongoDB/Redis 类似,是非关系型数据库,从索引文档到文档能被搜索到只有一个轻微的延迟,是采用Restful API标准的可扩展和高可用的实时数据分析的全文搜索工具 Elastic Search 的实现原理是,利用内置分词器(Analyzer)对数据库文本进行分词,将解析出的和数据

    2024年02月04日
    浏览(41)
  • 【es数据库】python 使用Elasticsearch数据库

    Elasticsearch是一个开源的高扩展性搜索引擎,它可以快速地存储、搜索和分析大量的数据。 使用Python语言和Elasticsearch,可以轻松地创建和操作“数据库”和“数据库表”,而且具备分布式和高扩展性的特点,适用于大规模数据存储与搜索场景。 ES是一种文档数据库,它并不像

    2024年02月12日
    浏览(42)
  • elasticsearch 安装 (es数据库安装详细)

    以下操作在debian11下,其它linux版本相同 安装的是8.6.2版本(2023.3),可以直接复制使用 以下操作默认在root下进行,如果切换用户会说明 1.下载安装包 注意:如果要安装kibana,版本尽量要一致 主体程序从这里下载 链接: es 2.创建es的用户 3.创建es存储位置 存放在/var/es(根据自

    2024年02月05日
    浏览(48)
  • 知识点13--spring boot整合elasticsearch以及ES高亮

    本章知识点沿用知识点12的项目,介绍如何使用spring boot整合ES,没有ES的去我主页 各类型大数据集群搭建文档--大数据原生集群本地测试环境搭建三 中可以看到ES如何搭建 不管你有没有ES,最好是没有,因为一定要知道一点,一定要去官网查一下你当前用的spring boot data es的版

    2024年02月12日
    浏览(56)
  • ES(Elasticsearch)8.x 以上启用自动安全配置,手动安全配置

    ES 8.x 以后,默认启用了自动安全配置,即 $ES_PATH_CONF/elasticsearch.yml 中默认的  xpack.security.enabled: false 变成了默认的 xpack.security.enabled: true ,启用elasticsearch 的安全配置。 自动进行以下安全配置: 为传输层和 HTTP 层生成 TLS 证书和密钥。 TLS 配置设置写入 elasticsearch.yml 。 为

    2024年01月19日
    浏览(41)
  • 手动安装的ElasticSearch如何注册成一个服务(使用systemctl 管理Es)

    创建一个 Elasticsearch 服务配置文件。 在 /etc/systemd/system/ 目录中创建一个名为 elasticsearch.service 的文件 sudo vim /etc/systemd/system/elasticsearch.service 将以下内容复制到 elasticsearch.service 文件中: 设置 Elasticsearch 目录的权限。 sudo chown -R esadmin /home/elasticsearch/elasticsearch-7.15.1 注册启用服

    2024年04月22日
    浏览(36)
  • ES检索结果高亮显示JAVA以及Kibana实现

    对比做了高亮前后的结果返回: 高亮前: 高亮后: 可以看到加入高亮的代码之后返回的json串命中的被套了一层em style=‘color: red’xxx/em标签,也就是我们前置设置的preTags与postTags; 当然hightlight本身支持多个字段高亮,java代码实现只要设置多个     后续查询出结果之

    2024年02月11日
    浏览(42)
  • Elasticsearch (ES) 搜索引擎: 文本搜索:分析器/分词器、同义词/停用词、拼音搜索、高亮显示、拼写纠错

    原文链接:https://xiets.blog.csdn.net/article/details/132349032 版权声明:原创文章禁止转载 专栏目录:Elasticsearch 专栏(总目录) 文本搜索主要指的就是全文搜索,全文搜索是搜索引擎的核心功能,与精确匹配的结构化数据不同,文本(text)数据在构建索引和搜索时都需要进行额外的处

    2024年02月03日
    浏览(58)
  • ELK(Elasticsearch、Kibana、Logstash)以及向ES导入mysql数据库数据或CSV文件数据,创建索引和可视化数据

    地址:Past Releases of Elastic Stack Software | Elastic 在Products和version处分别选择需要下载的产品和版本,E(elasticsearch)L(logstash)K(kibana)三者版本必须相同 将下载好的elk分别解压到相同路径下 本文中elasticsearch=E=ES=es;L=logstash;K=kibana 一般情况下使用默认配置即可,下面对我的

    2024年02月15日
    浏览(59)
  • ES elasticsearch-analysis-dynamic-synonym连接数据库动态更新synonym近义词

    修改源码实现连接数据库获取近义词汇 下载elasticsearch-analysis-dynamic-synonym打开项目(https://github.com/bells/elasticsearch-analysis-dynamic-synonym/tree/master) 引入依赖 将pom文件中的版本修改成跟你的es版本号一样的,比如我的是7.2.0 使用不同的版本对应的lucene包不同,某些代码略有不同,

    2024年02月04日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包