全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python中文分词工具之结巴分词用法实例总结【经典案例】

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下:

结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——从文本中读取中文信息,利用结巴分词工具进行分词及词性标注。

示例代码如下:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

其中t_with_splitter.txt文件内容如下:

是国内专业的网站建设资源、脚本编程学习类网站,提供asp、php、asp.net、javascript、jquery、vbscript、dos批处理、网页制作、网络编程、网站建设等编程资料。

Python2.7.9平台运行后出现如下图所示的错误提示

查阅相关资料后发现,需要在开头加上:

import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )

最终代码应为:

#coding=utf-8
import jieba
import jieba.posseg as pseg
import time
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
t1=time.time()
f=open("t_with_splitter.txt","r") #读取文本
string=f.read().decode("utf-8")
words = pseg.cut(string) #进行分词
result="" #记录最终结果的变量
for w in words:
   result+= str(w.word)+"/"+str(w.flag) #加词性标注
f=open("t_with_POS_tag.txt","w") #将结果保存到另一个文档中
f.write(result)
f.close()
t2=time.time()
print("分词及词性标注完成,耗时:"+str(t2-t1)+"秒。") #反馈结果

运行成功:

Editplus打开t_with_POS_tag.txt文件如下图所示:

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。


# Python  # 中文分词  # 工具  # 结巴分词  # python实现中文分词FMM算法实例  # Python中文分词实现方法(安装pymmseg)  # Python结巴中文分词工具使用过程中遇到的问题及解决方法  # python中文分词教程之前向最大正向匹配算法详解  # python中文分词  # 使用结巴分词对python进行分词(实例讲解)  # python使用jieba实现中文分词去停用词方法示例  # python中文分词库jieba使用方法详解  # Python中文分词库jieba  # pkusegwg性能准确度比较  # Python3爬虫中关于中文分词的详解  # Python jieba 中文分词与词频统计的操作  # Python中文分词库jieba(结巴分词)详细使用介绍  # 国内专业的网站建设  # 网站建设等编程资料  # 所示  # 如下图  # 进阶  # 操作技巧  # 文档  # 相关内容  # 遍历  # 批处理  # 数据结构  # 给大家  # 相关资料  # 更多关于  # 网页制作  # 解决方法  # 所述  # 程序设计  # 使用技巧  # 实际应用 


相关文章: 如何用西部建站助手快速创建专业网站?  建站之星后台管理系统如何操作?  如何在云主机上快速搭建网站?  建站之星安装模板失败:服务器环境不兼容?  微网站制作教程,不会写代码,不会编程,怎么样建自己的网站?  建站之家VIP精选网站模板与SEO优化教程整合指南  长春网站建设制作公司,长春的网络公司怎么样主要是能做网站的?  如何快速使用云服务器搭建个人网站?  网站企业制作流程,用什么语言做企业网站比较好?  网站制作公司,橙子建站是合法的吗?  如何在Golang中实现微服务服务拆分_Golang微服务拆分与接口管理方法  如何通过FTP空间快速搭建安全高效网站?  洛阳网站制作公司有哪些,洛阳的招聘网站都有哪些?  如何选择PHP开源工具快速搭建网站?  建站主机功能解析:服务器选择与快速搭建指南  如何用wdcp快速搭建高效网站?  建站168自助建站系统:快速模板定制与SEO优化指南  如何选择高效响应式自助建站源码系统?  外汇网站制作流程,如何在工商银行网站上做外汇买卖?  如何在香港服务器上快速搭建免备案网站?  西安大型网站制作公司,西安招聘网站最好的是哪个?  一键制作网站软件下载安装,一键自动采集网页文档制作步骤?  如何快速搭建高效简练网站?  企业宣传片制作网站有哪些,传媒公司怎么找企业宣传片项目?  建站之星收费标准详解:套餐费用及年费价格表一览  网站制作说明怎么写,简述网页设计的流程并说明原因?  正规网站制作公司有哪些,目前国内哪家网页网站制作设计公司比较专业靠谱?口碑好?  建站主机与服务器功能差异如何区分?  如何通过免费商城建站系统源码自定义网站主题与功能?  韩国服务器如何优化跨境访问实现高效连接?  宝塔建站教程:一键部署配置流程与SEO优化实战指南  广州营销型建站服务商推荐:技术优势与SEO优化解析  如何通过VPS搭建网站快速盈利?  建站之星后台管理如何实现高效配置?  零服务器AI建站解决方案:快速部署与云端平台低成本实践  建站主机选购指南:核心配置优化与品牌推荐方案  c++怎么用jemalloc c++替换默认内存分配器【性能】  赚钱网站制作软件,建一个网站怎样才能赚钱?是如何盈利的?  如何高效完成自助建站业务培训?  javascript中对象的定义、使用以及对象和原型链操作小结  完全自定义免费建站平台:主题模板在线生成一站式服务  建站之星如何助力企业快速打造五合一网站?  外贸公司网站制作,外贸网站建设一般有哪些步骤?  制作ppt免费网站有哪些,有哪些比较好的ppt模板下载网站?  建站主机是什么?如何选择适合的建站主机?  小型网站建站如何选择虚拟主机?  如何在Golang中引入测试模块_Golang测试包导入与使用实践  建站之星如何优化SEO以实现高效排名?  公司网站设计制作厂家,怎么创建自己的一个网站?  如何通过WDCP绑定主域名及创建子域名站点? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。