全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Java使用DFA算法实现过滤多家公司自定义敏感字功能详解

本文实例讲述了Java使用DFA算法实现过滤多家公司自定义敏感字功能。分享给大家供大家参考,具体如下:

背景

因为最近有通讯有个需求,说需要让多家客户公司可以自定义敏感词过滤掉他们自定义的规则,选择了DFA算法来做,不过和以前传统了DFA写法不太一样了

模式图

直接上代码

public class KeywordFilter {
//  private static ReentrantReadWriteLock lock = new ReentrantReadWriteLock();
  public static Map<String, HashMap> currentMap = new ConcurrentHashMap<String, HashMap>();
  public static Map nowhash = null;
  public static Object wordMap;// map子节点
  // 不建立对象
  private KeywordFilter() {
  }
  private static String getKey(int companyId) {
    return "companyId" + companyId;
  }
  /*
   * <p>说明:清扫内容</p>
   *
   * @author:姚旭民
   *
   * @data:2017-8-22 上午10:13:11
   */
  public static void clear() {
    try {
      currentMap.clear();
    } catch (Exception e) {
      e.printStackTrace();
    } finally {
    }
  }
  /*
   * <p>说明:各个渠道的过滤字符</p>
   *
   * @author:姚旭民
   *
   * @data:2017-8-20 下午2:55:06
   */
  public static void saveKeywords(int companyId, List<String> keywords) {
    try {
      Map tempAllMap = currentMap;
      String key = getKey(companyId);
      int l = keywords.size();
      int il;
      Map tempMap;
      for (int i = 0; i < l; i++) {
        String key2 = keywords.get(i).trim();// 去掉空白
        nowhash = currentMap;
        il = key2.length();
        for (int j = 0; j < il; j++) {
          char word = key2.charAt(j);
          tempMap = (Map) nowhash.get(word);
          wordMap = nowhash.get(word);
          if (wordMap != null) {// 检查数据
            if (!tempMap.containsKey(key)) {
              nowhash.put(key, 0);
            }
            nowhash = (HashMap) wordMap;
          } else {
            HashMap<String, String> newWordHash = new HashMap<String, String>();
            newWordHash.put(key, "0");
            nowhash.put(word, newWordHash);
            nowhash = newWordHash;
          }
          if (j == il - 1) {
            nowhash.put(key, "1");
          }
        }
      }
    } catch (Exception e) {
      e.printStackTrace();
    } finally {
      nowhash = null;
      wordMap = null;
    }
  }
  /*
   * <p>说明:替换掉对应的渠道规定掉敏感字</p>
   *
   * @author:姚旭民
   *
   * @data:2017-8-20 上午11:41:47
   */
  public static List<String> repword(int companyId, String txt) {
    Map tempMap = currentMap;
    List<String> result = new ArrayList<String>();
    String key = getKey(companyId);
    nowhash = currentMap;
    int l = txt.length();
    char word;
    String keywordStr = "";
    String keyStatu;
    StringBuilder keyword = new StringBuilder();// 敏感字
    for (int i = 0; i < l; i++) {
      word = txt.charAt(i);
      wordMap = nowhash.get(word);
      if (wordMap != null) {// 找到类似敏感字的字体,开始查询
        keyword.append(word);
        Object te = nowhash = (HashMap) wordMap;
        // 遍历到这一步,就符合完整的关键字模板
        if (nowhash.get(key) != null
            && nowhash.get(key).toString().equals("1")) {// 确定是敏感字,开始替换
          if (i < l - 1 && nowhash.get(txt.charAt(i + 1)) != null) {// 优先过滤长敏感词,去掉就槟城了优先过滤段敏感词
            continue;
          }
          txt = txt.replaceAll(keyword.toString(), "*");
          nowhash = currentMap;
          keywordStr += keyword.toString() + ",";
          i = i - keyword.length() + 1;
          l = txt.length();// 重新获取字符长度
          keyword.delete(0, keyword.length());// 清空数据
        }
      } else {// 这个字不是敏感字,直接排除
        nowhash = currentMap;
        keyword.delete(0, keyword.length());// 清空数据
        continue;
      }
    }
    // 清除内存指向
    nowhash = null;
    wordMap = null;
    result.add(txt);
    result.add(keywordStr.length() - 1 > 0 ? keywordStr.substring(0,
        keywordStr.length() - 1) : keywordStr);
    return result;
  }
  /*
   * <p>说明:检查是否存在敏感字</p>
   *
   * @author:姚旭民
   *
   * @data:2017-8-20 下午3:00:06 专门设计成私有的,如果没有理由,别改动他
   */
  private static int checkKeyWords(String txt, int companyId, int begin) {
    int result = 0;
    String key = getKey(companyId);
    try {
      nowhash = currentMap;
      int l = txt.length();
      char word = 0;
      for (int i = begin; i < l; i++) {
        word = txt.charAt(i);
        wordMap = nowhash.get(word);
        if (wordMap != null) {
          result++;
          nowhash = (HashMap) wordMap;
          if (((String) nowhash.get(key)).equals("1")) {
            nowhash = null;
            wordMap = null;
            return result;
          }
        } else {
          result = 0;
          break;
        }
      }
    } catch (Exception e) {
      e.printStackTrace();
    } finally {
      nowhash = null;
      wordMap = null;
      return result;
    }
  }
  /*
   * <p>说明:返回检查的文本中包含的敏感字</p>
   *
   * @author:姚旭民
   *
   * @data:2017-8-20 下午3:32:53
   */
  public static String getTxtKeyWords(String txt, int companyId) {
    String result = null;
    StringBuilder temp = new StringBuilder();
    String key;
    int l = txt.length();
    for (int i = 0; i < l;) {
      int len = checkKeyWords(txt, companyId, i);
      if (len > 0) {
        key = (txt.substring(i, i + len));// 挑选出来的关键字
        temp.append(key + ",");
        txt = txt.replaceAll(key, "");// 挑选出来的关键字替换成空白,加快挑选速度
        l = txt.length();
      } else {
        i++;
      }
    }
    if (temp.length() > 0) {
      result = temp.substring(0, temp.length() - 1);
    }
    return result;
  }
  /*
   * <p>说明:判断文中是否包含渠道规定的敏感字</p>
   *
   * @author:姚旭民
   *
   * @data:2017-8-20 下午3:33:19
   */
  public boolean isKeyWords(String txt, int companyId) {
    for (int i = 0; i < txt.length(); i++) {
      int len = checkKeyWords(txt, companyId, i);
      if (len > 0) {
        return true;
      }
    }
    return false;
  }
  public static void main(String[] arg) {
    List<String> keywords = new ArrayList<String>();
    keywords.add("傻×");
    keywords.add("汉奸");
    keywords.add("草");
    keywords.add("草泥马");
    KeywordFilter.saveKeywords(1, keywords);
    String txt = "是傻×汉奸傻A傻B傻C傻D汉奸傻×草泥马";
    List<String> list = repword(1, txt);
    System.out.println("文中包含的敏感字为:" + list.get(1));
    System.out.println("原文:" + txt);
    System.out.println("敏感字过滤后:" + list.get(0));
  }
}

更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总》

希望本文所述对大家java程序设计有所帮助。


# Java  # DFA算法  # 过滤  # 自定义  # 敏感字  # java利用DFA算法实现敏感词过滤功能  # Java DFA算法案例详解  # 基于java实现DFA算法代码实例  # Java实现DFA算法对敏感词、广告词过滤功能示例  # javax.mail.SendFailedException: Sending failed问题原因  # Java使用DFA算法实现敏感词过滤的示例代码  # 下午  # 多家  # 操作技巧  # 清空  # 上午  # 有个  # 相关内容  # 不太  # 遍历  # 感兴趣  # 数据结构  # 给大家  # 如果没有  # 来做  # 更多关于  # 所述  # 程序设计  # 是否存在  # 这个字 


相关文章: 如何将凡科建站内容保存为本地文件?  广州网站制作的公司,现在专门做网站的公司有没有哪几家是比较好的,性价比高,模板也多的?  济南企业网站制作公司,济南社保单位网上缴费步骤?  惠州网站建设制作推广,惠州市华视达文化传媒有限公司怎么样?  如何用虚拟主机快速搭建网站?详细步骤解析  如何快速生成凡客建站的专业级图册?  如何在云主机上快速搭建多站点网站?  c++如何打印函数堆栈信息_c++ backtrace函数与符号名解析【方法】  免费制作小说封面的网站有哪些,怎么接网站批量的封面单?  网站设计制作书签怎么做,怎样将网页添加到书签/主页书签/桌面?  如何挑选高效建站主机与优质域名?  如何制作网站标识牌,动态网站如何制作(教程)?  如何彻底删除建站之星生成的Banner?  如何解决VPS建站LNMP环境配置常见问题?  如何快速生成高效建站系统源代码?  网站网页制作电话怎么打,怎样安装和使用钉钉软件免费打电话?  python的本地网站制作,如何创建本地站点?  在线教育网站制作平台,山西立德教育官网?  如何在西部数码注册域名并快速搭建网站?  南阳网站制作公司推荐,小学电子版试卷去哪里找资源好?  北京制作网站的公司,北京铁路集团官方网站?  动图在线制作网站有哪些,滑动动图图集怎么做?  如何在Ubuntu系统下快速搭建WordPress个人网站?  小捣蛋自助建站系统:数据分析与安全设置双核驱动网站优化  如何快速登录WAP自助建站平台?  如何快速搭建高效WAP手机网站?  已有域名能否直接搭建网站?  如何选择网络建站服务器?高效建站必看指南  怎么制作一个起泡网,水泡粪全漏粪育肥舍冬季氨气超过25ppm,可以有哪些措施降低舍内氨气水平?  ,购物网站怎么盈利呢?  如何通过老薛主机一键快速建站?  建站之星如何一键生成手机站?  建站主机解析:虚拟主机配置与服务器选择指南  php条件判断怎么写_ifelse和switchcase的使用区别【对比】  如何快速搭建高效服务器建站系统?  c++ stringstream用法详解_c++字符串与数字转换利器  建站为何优先选择香港服务器?  音乐网站服务器如何优化API响应速度?  简易网站制作视频教程,使用记事本编写一个简单的网页html文件?  公司网站制作费用多少,为公司建立一个网站需要哪些费用?  设计网站制作公司有哪些,制作网页教程?  定制建站如何定义?其核心优势是什么?  微网站制作教程,我微信里的网站怎么才能复制到浏览器里?  阿里云网站制作公司,阿里云快速搭建网站好用吗?  如何选择靠谱的建站公司加盟品牌?  济南网站制作的价格,历城一职专官方网站?  如何通过虚拟机搭建网站?详细步骤解析  建站主机如何安装配置?新手必看操作指南  建站之星IIS配置教程:代码生成技巧与站点搭建指南  建站之星安装步骤有哪些常见问题? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。