本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。
示例代码如下:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
其中t_with_splitter.txt文件内容如下:
是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。
Python2.7.9平台运行后出现如下图所示的错误提示:
查阅相关资料后发现,需要在开头加上:
import sys reload(sys) sys.setdefaultencoding( "utf-8" )
最终代码应为:
#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果
运行成功:
Editplus打开t_with_POS_tag.txt文件如下图所示:
更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》
希望本文所述对大家Python程序设计有所帮助。
# Python
# 中文分词
# 工具
# 结巴分词
# python实现中文分词FMM算法实例
# Python中文分词实现方法(安装pymmseg)
# Python结巴中文分词工具使用过程中遇到的问题及解决方法
# python中文分词教程之前向最大正向匹配算法详解
# python中文分词
# 使用结巴分词对python进行分词(实例讲解)
# python使用jieba实现中文分词去停用词方法示例
# python中文分词库jieba使用方法详解
# Python中文分词库jieba
# pkusegwg性能准确度比较
# Python3爬虫中关于中文分词的详解
# Python jieba 中文分词与词频统计的操作
# Python中文分词库jieba(结巴分词)详细使用介绍
# 国内专业的网站建设
# 网站建设等编程资料
# 所示
# 如下图
# 进阶
# 操作技巧
# 文档
# 相关内容
# 遍历
# 批处理
# 数据结构
# 给大家
# 相关资料
# 更多关于
# 网页制作
# 解决方法
# 所述
# 程序设计
# 使用技巧
# 实际应用
相关文章:
如何用西部建站助手快速创建专业网站?
建站之星后台管理系统如何操作?
如何在云主机上快速搭建网站?
建站之星安装模板失败:服务器环境不兼容?
微网站制作教程,不会写代码,不会编程,怎么样建自己的网站?
建站之家VIP精选网站模板与SEO优化教程整合指南
长春网站建设制作公司,长春的网络公司怎么样主要是能做网站的?
如何快速使用云服务器搭建个人网站?
网站企业制作流程,用什么语言做企业网站比较好?
网站制作公司,橙子建站是合法的吗?
如何在Golang中实现微服务服务拆分_Golang微服务拆分与接口管理方法
如何通过FTP空间快速搭建安全高效网站?
洛阳网站制作公司有哪些,洛阳的招聘网站都有哪些?
如何选择PHP开源工具快速搭建网站?
建站主机功能解析:服务器选择与快速搭建指南
如何用wdcp快速搭建高效网站?
建站168自助建站系统:快速模板定制与SEO优化指南
如何选择高效响应式自助建站源码系统?
外汇网站制作流程,如何在工商银行网站上做外汇买卖?
如何在香港服务器上快速搭建免备案网站?
西安大型网站制作公司,西安招聘网站最好的是哪个?
一键制作网站软件下载安装,一键自动采集网页文档制作步骤?
如何快速搭建高效简练网站?
企业宣传片制作网站有哪些,传媒公司怎么找企业宣传片项目?
建站之星收费标准详解:套餐费用及年费价格表一览
网站制作说明怎么写,简述网页设计的流程并说明原因?
正规网站制作公司有哪些,目前国内哪家网页网站制作设计公司比较专业靠谱?口碑好?
建站主机与服务器功能差异如何区分?
如何通过免费商城建站系统源码自定义网站主题与功能?
韩国服务器如何优化跨境访问实现高效连接?
宝塔建站教程:一键部署配置流程与SEO优化实战指南
广州营销型建站服务商推荐:技术优势与SEO优化解析
如何通过VPS搭建网站快速盈利?
建站之星后台管理如何实现高效配置?
零服务器AI建站解决方案:快速部署与云端平台低成本实践
建站主机选购指南:核心配置优化与品牌推荐方案
c++怎么用jemalloc c++替换默认内存分配器【性能】
赚钱网站制作软件,建一个网站怎样才能赚钱?是如何盈利的?
如何高效完成自助建站业务培训?
javascript中对象的定义、使用以及对象和原型链操作小结
完全自定义免费建站平台:主题模板在线生成一站式服务
建站之星如何助力企业快速打造五合一网站?
外贸公司网站制作,外贸网站建设一般有哪些步骤?
制作ppt免费网站有哪些,有哪些比较好的ppt模板下载网站?
建站主机是什么?如何选择适合的建站主机?
小型网站建站如何选择虚拟主机?
如何在Golang中引入测试模块_Golang测试包导入与使用实践
建站之星如何优化SEO以实现高效排名?
公司网站设计制作厂家,怎么创建自己的一个网站?
如何通过WDCP绑定主域名及创建子域名站点?
*请认真填写需求信息,我们会在24小时内与您取得联系。