本文实例讲述了Java实现的最大匹配分词算法。分享给大家供大家参考,具体如下:

全文检索有两个重要的过程:
1分词
2倒排索引
我们先看分词算法
目前对中文分词有两个方向,其中一个是利用概率的思想对文章分词。 也就是如果两个字,一起出现的频率很高的话,我们可以假设这两个字是一个词。这里可以用一个公式衡量:M(A,B)=P(AB)/P(A)P(B),其中 A表示一个字,B表示一个字,P(AB)表示AB相邻出现的概率,P(A)表示A在这篇文章中的频度,P(B)表示B在这篇文章中的频度。用概率分词的好 处是不需要借助词典的帮助,坏处是算法比较麻烦,效率不高,也存在一定的出错率。
另外的一个方向是使用词典分词。就是事先为程序准备一个词典,然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。
以 “我是一个坏人” 为例,并最大词长为3,词库包含有 我、是、一、个、一个、坏人、大坏人
正向的顺序为
我是一
我是
我 ===> 得到一个词
是一个
是一
是 ===>得到一个词
一个坏
一个===> 得到一个词
坏人===>得到一个词
结果 我、是、一个、坏人
反向算法
个坏人
坏人==> 坏人
是一个
一个==> 一个
我是
是==> 是
我==> 我
结果 我、是、一个、坏人
java代码如下
package data;
import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;
/**
* 最大匹配分词算法
*
* @author JYC506
*
*/
public class SplitString {
private Set<String> set = new HashSet<String>();
private int positiveOver = 0;
private int reverseOver = 0;
/**
* 正向最大匹配
*
* @param str 要分词的句子
* @param num 词的最大长度
* @return
*/
public String[] positiveSplit(String str, int maxSize) {
int tem = 0;
int length = str.length();
String[] ss = new String[length];
char[] cc = str.toCharArray();
for (int i = 0; i < length; i++) {
positiveOver = 0;
String sb = this.toStr(cc, i, maxSize);
ss[tem++] = sb;
i = i + positiveOver;
}
String[] ss2 = new String[tem];
System.arraycopy(ss, 0, ss2, 0, tem);
return ss2;
}
/**
* 添加词库
*
* @param words
*/
public void addWord(String[] words) {
for (String st : words) {
this.set.add(st);
}
}
/**
* 逆向最大匹配
*
* @param str
* @param num
* @return
*/
public String[] reverseSplit(String str, int num) {
int tem = 0;
int length = str.length();
String[] ss = new String[length];
char[] cc = str.toCharArray();
for (int i = str.length() - 1; i > -1; i--) {
reverseOver = 0;
String sb = this.toStr2(cc, i, num);
tem++;
ss[--length] = sb;
i = i - reverseOver;
}
String[] ss2 = new String[tem];
System.arraycopy(ss, str.length() - tem, ss2, 0, tem);
return ss2;
}
private String toStr(char[] cs, int start, int num) {
int num2 = num;
out: for (int j = 0; j < num; j++) {
StringBuffer sb = new StringBuffer();
for (int i = 0; i < num2; i++) {
if (start + i < cs.length) {
sb.append(cs[start + i]);
} else {
num2--;
j--;
continue out;
}
}
if (set.contains(sb.toString())) {
positiveOver = num2 - 1;
return sb.toString();
}
num2--;
}
return String.valueOf(cs[start]);
}
private String toStr2(char[] cs, int start, int num) {
int num2 = num;
for (int j = 0; j < num; j++) {
StringBuffer sb = new StringBuffer();
for (int i = 0; i < num2; i++) {
int index = start - num2 + i + 1;
if (index > -1) {
sb.append(cs[index]);
} else {
num2--;
}
}
if (set.contains(sb.toString())) {
reverseOver = num2 - 1;
return sb.toString();
}
num2--;
}
return String.valueOf(cs[start]);
}
public static void main(String[] args) {
String[] words = new String[] { "我们", "我们五人", "五人一组", "一组" };
SplitString ss = new SplitString();
/*添加词到词库*/
ss.addWord(words);
String st = "我们五人一组";
System.out.println("测试结果:");
System.out.println("要分词的句子:" + st);
/*使用两种方式分词,下面我指定最大词长度为4*/
String[] ss2 = ss.reverseSplit(st, 4);
String[] ss1 = ss.positiveSplit(st, 4);
System.out.println("正向最大匹配分词算法分词结果:" + Arrays.toString(ss1));
System.out.println("逆向最大匹配分词算法分词结果:" + Arrays.toString(ss2));
}
}
更多关于java算法相关内容感兴趣的读者可查看本站专题:《Java数据结构与算法教程》、《Java字符与字符串操作技巧总结》、《Java操作DOM节点技巧总结》、《Java文件与目录操作技巧汇总》和《Java缓存操作技巧汇总》
希望本文所述对大家java程序设计有所帮助。
# Java
# 最大匹配
# 分词
# 算法
# 通过Java实现中文分词与文本关键词提取
# ChatGpt都使用的Java BPE分词算法不要了解一下
# 基于Java实现中文分词系统的示例代码
# Java实现简易的分词器功能
# Java实现的双向匹配分词算法示例
# java中文分词之正向最大匹配法实例代码
# Java调用IK分词器进行分词方式
# 封装工具类
# 是一个
# 我是
# 五人
# 在这
# 操作技巧
# 一个字
# 有两个
# 相关内容
# 不需要
# 两种
# 可以用
# 感兴趣
# 我们可以
# 很高
# 数据结构
# 给大家
# 不高
# 为例
# 在一
# 其中一个
相关文章:
专业网站设计制作公司,如何制作一个企业网站,建设网站的基本步骤有哪些?
临沂网站制作企业,临沂第三中学官方网站?
如何在宝塔面板中创建新站点?
如何优化Golang Web性能_Golang HTTP服务器性能提升方法
ppt在线制作免费网站推荐,有什么下载免费的ppt模板网站?
建站主机选择指南:服务器配置与SEO优化实战技巧
实现虚拟支付需哪些建站技术支撑?
,南京靠谱的征婚网站?
北京营销型网站制作公司,可以用python做一个营销推广网站吗?
建站之星如何实现五合一智能建站与营销推广?
如何在IIS7上新建站点并设置安全权限?
如何选择长沙网站建站模板?H5响应式与品牌定制哪个更优?
家庭服务器如何搭建个人网站?
建站之星安装提示数据库无法连接如何解决?
已有域名和空间如何快速搭建网站?
浙江网站制作公司有哪些,浙江栢塑信息技术有限公司定制网站做的怎么样?
七夕网站制作视频,七夕大促活动怎么报名?
,怎么在广州志愿者网站注册?
如何访问已购建站主机并解决登录问题?
网站微信制作软件,如何制作微信链接?
北京制作网站的公司排名,北京三快科技有限公司是做什么?北京三快科技?
如何有效防御Web建站篡改攻击?
做企业网站制作流程,企业网站制作基本流程有哪些?
C++时间戳转换成日期时间的步骤和示例代码
如何通过免费商城建站系统源码自定义网站主题与功能?
网站设计制作企业有哪些,抖音官网主页怎么设置?
北京的网站制作公司有哪些,哪个视频网站最好?
如何高效生成建站之星成品网站源码?
电脑免费海报制作网站推荐,招聘海报哪个网站多?
如何用虚拟主机快速搭建网站?详细步骤解析
如何通过虚拟主机快速完成网站搭建?
装修招标网站设计制作流程,装修招标流程?
武汉网站设计制作公司,武汉有哪些比较大的同城网站或论坛,就是里面都是武汉人的?
北京制作网站的公司,北京铁路集团官方网站?
标准网站视频模板制作软件,现在有哪个网站的视频编辑素材最齐全的,背景音乐、音效等?
无锡制作网站公司有哪些,无锡优八网络科技有限公司介绍?
如何获取PHP WAP自助建站系统源码?
建站之星代理费用多少?最新价格详情介绍
如何配置FTP站点权限与安全设置?
如何制作一个表白网站视频,关于勇敢表白的小标题?
b2c电商网站制作流程,b2c水平综合的电商平台?
javascript中的try catch异常捕获机制用法分析
网站建设设计制作营销公司南阳,如何策划设计和建设网站?
佛山企业网站制作公司有哪些,沟通100网上服务官网?
郑州企业网站制作公司,郑州招聘网站有哪些?
如何快速搭建虚拟主机网站?新手必看指南
武清网站制作公司,天津武清个人营业执照注销查询系统网站?
建站之星IIS配置教程:代码生成技巧与站点搭建指南
如何选购建站域名与空间?自助平台全解析
如何通过建站之星自助学习解决操作问题?
*请认真填写需求信息,我们会在24小时内与您取得联系。