Python信息抽取之乱码解决办法

就事论事,直说自己遇到的情况,和我不一样的路过吧,一样的就看看吧
信息抓取,用python,beautifulSoup,lxml,re,urllib2,urllib2去获取想要抽取的页面内容,然后使用lxml或者beautifulSoup进行解析,插入mysql 具体的内容,好了貌似很简单很easy的样子,可是里面的恶心之处就来了,第一,国内开发网站的人在指定网站编码或者是保存网站源码的时候并没有考虑什么编码,反正一句话,一个网站即使你用工具查看或者查看源码头信息查看到他们的源码是utf-8,或者GBK之类的,也别信,哎,什么东西信了就遭殃了,即<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
以下给出一些流程:(具体各个库不是我这里向说的哦)
import urllib2
import chardet
html = urllib2.urlopen("某网站")
print chardet.detect(html) #这里会输出一个字典{'a':0.99999,'encoding':'utf-8'}
好,这整个html的编码都知道,该插入以utf-8建立的mysql数据库了吧,但是我就在插入的时候发生错误了,因为我使用lxml以后的字符串不是utf-8,而是Big5(繁体字编码),还有各种未知编码EUC-JP(日本语编码),OK,我采取了unicode方法,先对这个字段进行解码,在进行编码
if chardet.detect(name)['encoding'] == 'GB2312':
name = unicode(name,'GB2312','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'Big5':
name = unicode(name,'Big5','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'ascii':
name = unicode(name,'ascii','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'GBK':
name = unicode(name,'GBK','ignore').encode('utf-8','ignore')
elif chardet.detect(name)['encoding'] == 'EUC-JP':
name = unicode(name,'EUC-JP','ignore').encode('utf-8','ignore')
else:
name = '未知'
感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!
# Python信息抽取之乱码
# python
# 乱码解决办法
# 彻底搞懂 python 中文乱码问题(深入分析)
# python中文乱码不着急
# 先看懂字节和字符
# python dict乱码如何解决
# 日本语
# 的人
# 他们的
# 来了
# 好了
# 就在
# 和我
# 之处
# 就事论事
# 希望能
# 很简单
# 或者是
# 什么东西
# 就看
# 句话
# 谢谢大家
# 你用
# 解决办法
# 看吧
# 也别
相关文章:
建站之星展会模版如何一键下载生成?
做企业网站制作流程,企业网站制作基本流程有哪些?
上海网站制作网页,上海本地的生活网站有哪些?最好包括生活的各个方面的?
怎么用手机制作网站链接,dw怎么把手机适应页面变成网页?
如何在阿里云通过域名搭建网站?
如何快速生成可下载的建站源码工具?
学校为何禁止电信移动建设网站?
如何在西部数码注册域名并快速搭建网站?
建站之星安装后如何配置SEO及设计样式?
C++如何使用std::optional?(处理可选值)
安云自助建站系统如何快速提升SEO排名?
Swift中循环语句中的转移语句 break 和 continue
专业网站制作服务公司,有哪些网站可以免费发布招聘信息?
建站10G流量真的够用吗?如何应对访问高峰?
广德云建站网站建设方案与建站流程优化指南
如何在云主机上快速搭建网站?
网站制作需要会哪些技术,建立一个网站要花费多少?
如何设置并定期更换建站之星安全管理员密码?
寿县云建站:智能SEO优化与多行业模板快速上线指南
深圳防火门网站制作公司,深圳中天明防火门怎么编码?
韩国网站服务器搭建指南:VPS选购、域名解析与DNS配置推荐
浅谈Javascript中的Label语句
一键网站制作软件,义乌购一件代发流程?
深入理解Android中的xmlns:tools属性
营销式网站制作方案,销售哪个网站招聘效果最好?
php8.4新语法match怎么用_php8.4match表达式替代switch【方法】
如何在Ubuntu系统下快速搭建WordPress个人网站?
如何彻底删除建站之星生成的Banner?
网站制作公司广州有几家,广州尚艺美发学校网站是多少?
如何有效防御Web建站篡改攻击?
上海制作企业网站有哪些,上海有哪些网站可以让企业免费发布招聘信息?
如何高效配置IIS服务器搭建网站?
怀化网站制作公司,怀化新生儿上户网上办理流程?
北京制作网站的公司排名,北京三快科技有限公司是做什么?北京三快科技?
成都网站制作价格表,现在成都广电的单独网络宽带有多少的,资费是什么情况呢?
免费制作小说封面的网站有哪些,怎么接网站批量的封面单?
宝华建站服务条款解析:五站合一功能与SEO优化设置指南
如何制作新型网站程序文件,新型止水鱼鳞网要拆除吗?
javascript中对象的定义、使用以及对象和原型链操作小结
建站之星2.7模板:企业网站建设与h5定制设计专题
如何彻底卸载建站之星软件?
如何快速上传自定义模板至建站之星?
建站主机如何安装配置?新手必看操作指南
如何处理“XML格式不正确”错误 常见XML well-formed问题解决方法
如何用已有域名快速搭建网站?
制作网站的软件免费下载,免费制作app哪个平台好?
在线教育网站制作平台,山西立德教育官网?
如何将凡科建站内容保存为本地文件?
深圳网站制作设计招聘,关于服装设计的流行趋势,哪里的资料比较全面?
建站VPS配置与SEO优化指南:关键词排名提升策略
*请认真填写需求信息,我们会在24小时内与您取得联系。