【Java Web】敏感词过滤

这篇具有很好参考价值的文章主要介绍了【Java Web】敏感词过滤。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、前缀树

假设有敏感词:b,abc,abd,bcd,abcd,efg,hii
那么前缀树可以构造为:
【Java Web】敏感词过滤,java,java文章来源地址https://www.toymoban.com/news/detail-688119.html

二、敏感词过滤器

package com.nowcoder.community.util;

import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;

import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

@Component

public class SensitiveFilter {

    private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);

    // 敏感词替换
    private static final String REPLACEMENT = "***";

    // 初始化根节点
    private TrieNode rootNode = new TrieNode();


    // 实例被创建后自动完成敏感词库的加载和前缀树的构建
    @PostConstruct
    public void init(){
        try (
                InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");  // 通过类加载器获取敏感词库的字节流
                // 字节流转换为字符流
                // 然后在转换为具有缓冲区、读取性能高的BufferedReader
                BufferedReader reader = new BufferedReader(new InputStreamReader(is));
        ){
            String keyword;
            while((keyword=reader.readLine())!=null){ // 每读一行获取一个keywords
                // 添加到前缀树
                this.addKeyword(keyword);
            }

        } catch (IOException e) {
            logger.error("加载敏感词汇表失败:"+e.getMessage());
            throw new RuntimeException(e);
        }
    }

    // 将一个敏感词加入前缀树
    private void addKeyword(String keyword){
        TrieNode tempNode = rootNode;
        for(int i=0; i<keyword.length(); i++){
            char c = keyword.charAt(i);
            TrieNode subNode = tempNode.getSubNode(c);

            if(subNode == null){
                // 初始化子节点
                subNode = new TrieNode();
                tempNode.addSubNode(c,subNode);
            }
            // 指向子节点,进入下一轮训练
            tempNode = subNode;
            // 设置结束标识
            if(i == keyword.length() - 1){
                tempNode.setKeywordEnd(true);
            }
        }
    }

    /**
     * 过滤敏感词
     * @param text 待过滤文本
     * @return 过滤后的文本
     */
    public String filter(String text){
        if(StringUtils.isBlank(text)){  // 文本为空
            return null;
        }
        // 指针1:
        TrieNode tempNode = rootNode;
        // 指针2:
        int begin = 0;
        // 指针3:
        int position = 0;
        // 变长字符串保存扫描结果
        StringBuilder sb = new StringBuilder();
        // 用指针2做循环
        while(begin < text.length()){
            if(position < text.length()){
                Character c = text.charAt(position);
                // 跳过符号
                if(isSymbol(c)){
                    if(tempNode == rootNode){
                        begin ++;
                        sb.append(c);
                    }
                    position++;
                    continue;
                }
                // 检查下级节点
                tempNode = tempNode.getSubNode(c);
                if(tempNode == null){ // 不是敏感词
                    sb.append(text.charAt(begin));
                    position = ++begin;
                    tempNode = rootNode;
                } else if (tempNode.isKeywordEnd() ) { // 是敏感词
                    sb.append(REPLACEMENT);
                    begin = ++position;
                } else {
                    position++;
                }
            } else { // position遍历出界
                sb.append(text.charAt(begin));
                position = ++begin;
                tempNode = rootNode;
            }
        }
        return sb.toString();
    }

    // 判断是否为符号
    private boolean isSymbol(Character c){
        // 0x2E80~0x9FF为东亚文字范围
        // CharUtils.isAsciiAlphanumeric()判断是否为普通字符
        return !CharUtils.isAsciiAlphanumeric(c)  && (c < 0x2E80 || c > 0x9FFF);
    }

    // 前缀树
    private class TrieNode{

        // 关键词结束标识
        private boolean isKeywordEnd = false;

        // 子节点(key是下级节点字符,value是下级节点)
        private Map<Character,TrieNode> subNodes = new HashMap<>();

        public boolean isKeywordEnd() {
            return isKeywordEnd;
        }

        public void setKeywordEnd(boolean keywordEnd) {
            isKeywordEnd = keywordEnd;
        }

        // 添加子节点
        public void addSubNode(Character c, TrieNode node){
            subNodes.put(c, node);
        }

        public TrieNode getSubNode(Character c){
            return subNodes.get(c);
        }

    }


}

到了这里,关于【Java Web】敏感词过滤的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Java-Web过滤器

    1.为什么需要过滤器? 2.基本介绍 3.过滤器的基本原理 1.文件目录 2.环境配置 创建maven项目,导入依赖 3.代码实现 1.login.jsp 2.LoginCheck.java 3.ManagerFilter.java编写过滤规则 4.配置web.xml告诉tomcat 5.admin.jsp 1.服务器启动 读取web.xml 根据全类名反射创建过滤器的实例,将其放在name - 实例

    2024年04月17日
    浏览(26)
  • PHP之 敏感词过滤

    方式一 二 同思路 创建 敏感词.csv

    2023年04月09日
    浏览(31)
  • stable diffusion webui过滤敏感信息NSFW

    过滤敏感信息(如涩图),可使用stable-diffusion-webui-nsfw-censor扩展,github仓库地址为:点这里 安装该扩展后,如果扩展认为是敏感信息,则会直接生成一张【黑色】的图片 1、运行sd webui,找到【扩展】-粘贴“简介”中的github仓库地址,点击【安装】 2、安装成功后,重启sd

    2024年02月13日
    浏览(26)
  • 职责链模式:如何实现可灵活扩展算法的敏感信息过滤框架?

            今天,我们主要 讲解职责链模式 的原理和实现。除此之外,我还会利用职责链模式,带你实现一个 可以灵活扩展算法的敏感词过滤框架 。下一节课,我们会更加贴近实战,通过剖析Servlet Filter、Spring Interceptor来看,如何利用职责链模式实现框架中常用的过滤器、

    2024年02月16日
    浏览(29)
  • 微信小程序对敏感数据加解密算法(Java)

    微信小程序对敏感数据加解密算法,以获取微信的群ID(opengid)为例 微信端通过转发获取加密数据 微信端通过获取微信群聊场景下的小程序启动信息 获取的相关参数 但官方提供的加密数据加解密算法所支持的语言却不包括Java 接口如果涉及敏感数据(如wx.getUserInfo当中的

    2024年02月09日
    浏览(30)
  • 【设计模式与范式:行为型】62 | 职责链模式(上):如何实现可灵活扩展算法的敏感信息过滤框架?

    前几节课中,我们学习了模板模式、策略模式,今天,我们来学习职责链模式。这三种模式具有相同的作用:复用和扩展,在实际的项目开发中比较常用,特别是框架开发中,我们可以利用它们来提供框架的扩展点,能够让框架的使用者在不修改框架源码的情况下,基于扩展

    2024年02月10日
    浏览(35)
  • 【Spring Cloud】新闻头条微服务项目:文章内容安全审核(新增DFA+OCR过滤敏感词需求)

    个人简介:  📦个人主页:赵四司机 🏆学习方向:JAVA后端开发  ⏰往期文章:SpringBoot项目整合微信支付 🔔博主推荐网站:牛客网 刷题|面试|找工作神器 📣种一棵树最好的时间是十年前,其次是现在! 💖喜欢的话麻烦点点关注喔,你们的支持是我的最大动力。 前言:

    2023年04月08日
    浏览(82)
  • 【华为OD统一考试B卷 | 100分】敏感字段加密(C++ Java JavaScript Python)

    在线OJ 已购买本专栏用户,请私信博主开通账号,在线刷题!!! 运行出现 Runtime Error 0Aborted,请忽略 华为OD统一考试A卷+B卷 新题库说明 2023年5月份,华为官方已经将的 2022/0223Q(1/2/3/4)统一修改为OD统一考试(A卷)和OD统一考试(B卷)。 你收到的链接上面会标注A卷还是B卷。

    2024年02月08日
    浏览(39)
  • (C#) IIS 响应标头过滤敏感信息(如:Server/X-Powered-By等) 运维知识

    再一次净网行动中,客户要求安全改造发现了接口请求的header标头中出现如图中的敏感信息。   其意义在于告知浏网站是用什么语言或者框架编写的。解决办法就是修改该响应头为一个错误的值,将攻击者导向一个错误的方向。 这里只说windows 的iis环境,不考虑其他服务器的

    2024年02月11日
    浏览(52)
  • JAVA之List过滤

    新建一个实体类 List过滤的三种方式: 通过java8中filter过滤器进行过滤 通过For循环遍历过滤 通过ForEach遍历过滤 测试

    2024年02月14日
    浏览(17)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包