全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

Python如何对CSV数据做清洗_数据预处理常用操作【教程】

Python清洗CSV数据的核心步骤是:用pandas读取并观察数据结构;统一处理缺失值(替换占位符、填充或删除);标准化日期、数字、文本格式;剔除重复与异常值;最后保存为UTF-8-SIG编码的干净CSV。

Python处理CSV数据清洗和预处理,核心是用pandas读取、识别问题、统一格式、填充或剔除异常,再输出干净数据。不复杂但容易忽略细节。

读取CSV并初步观察数据

先用pandas加载文件,快速查看结构和典型值,判断是否有乱码、列名错位、空行等问题:

  • pd.read_csv("data.csv", encoding="utf-8") —— 明确指定编码,避免中文乱码;若报错可试encoding="gbk"
  • df.head(5)df.info() 查看前几行和每列数据类型、非空数量
  • df.describe(include="all") 快速了解数值与文本列的分布(如唯一值数、常见值)

处理缺失值与空字段

缺失值常见于空单元格、"NULL"、"N/A"、空白字符串等,需统一识别再处理:

  • df.replace({"": pd.NA, "NULL": pd.NA, "N/A": pd.NA}) 把常见占位符转为标准缺失标记
  • df.isna().sum() 查看各列缺失数量
  • 数值列可填均值:df["age"].fillna(df["age"].mean(), inplace=True)
  • 文本列常用众数或固定值(如"未知"):df["city"].fillna(df["city"].mode()[0], inplace=True)
  • 缺失过多(如>70%)且不可靠的列,考虑直接删:df.drop(columns=["remark"], inplace=True)

统一格式:日期、数字、文本标准化

同一含义的数据常以多种格式混存,需归一化才能后续分析:

  • 日期列:用 pd.to_datetime(df["date"], errors="coerce") 转换,错误值变NaT;再用 dt.datedt.strftime("%Y-%m-%d") 格式化
  • 金额/数字含逗号或货币符号(如"$1,234.56"):df["price"].str.replace(r"[^\d.-]", "", regex=True).astype(float)
  • 文本列去首尾空格+统一小写:df["name"] = df["name"].str.strip().str.lower()
  • 分类字段去重规整:df["status"] = df["status"].str.replace(r"\s+", " ", regex=True).str.strip()

剔除重复与明显异常行

重复记录影响统计,明显错误值(如年龄=999、价格=-1)需定位清除:

  • 查重复:df.duplicated().sum();删重复(保留首次):df.drop_duplicates(inplace=True)
  • 按业务逻辑设合理范围,例如年龄在0–120之间:df = df[(df["age"] >= 0) & (df["age"]
  • 用箱线图法识别数值离群点(可选):Q1 = df["score"].quantile(0.25); Q3 = df["score"].quantile(0.75); IQR = Q3 - Q1; df = df[~((df["score"] (Q3 + 1.5*IQR)))]

基本上就这些。清洗不是一步到位,建议每步后用 df.info() 和抽样检查验证效果。保存清洗后数据用 df.to_csv("cleaned.csv", index=False, encoding="utf-8-sig")(加-sig让Excel能正常打开中文)。


# excel  # python  # 编码  # 中文乱码  # csv  # 数据清洗  #  


相关文章: 动图在线制作网站有哪些,滑动动图图集怎么做?  如何在IIS中新建站点并解决端口绑定冲突?  公司网站建设制作费用,想建设一个属于自己的企业网站,该如何去做?  网站设计制作公司地址,网站建设比较好的公司都有哪些?  如何在万网自助建站平台快速创建网站?  开心动漫网站制作软件下载,十分开心动画为何停播?  岳西云建站教程与模板下载_一站式快速建站系统操作指南  金*站制作公司有哪些,金华教育集团官网?  电商网站制作多少钱一个,电子商务公司的网站制作费用计入什么科目?  Python路径拼接规范_跨平台处理说明【指导】  如何在阿里云高效完成企业建站全流程?  建站主机如何选?高性价比方案全解析  企业微网站怎么做,公司网站和公众号有什么区别?  如何在Ubuntu系统下快速搭建WordPress个人网站?  桂林网站制作公司有哪些,桂林马拉松怎么报名?  C++中的Pimpl idiom是什么,有什么好处?(隐藏实现)  如何在云服务器上快速搭建个人网站?  ,交易猫的商品怎么发布到网站上去?  广州美橙建站如何快速搭建多端合一网站?  潍坊网站制作公司有哪些,潍坊哪家招聘网站好?  c++怎么使用类型萃取type_traits_c++ 模板元编程类型判断【方法】  宁波自助建站系统如何快速打造专业企业网站?  韩国网站服务器搭建指南:VPS选购、域名解析与DNS配置推荐  c# Task.ConfigureAwait(true) 在什么场景下是必须的  建站VPS配置与SEO优化指南:关键词排名提升策略  如何快速启动建站代理加盟业务?  建站之星伪静态规则如何设置?  如何高效完成独享虚拟主机建站?  建站之星24小时客服电话如何获取?  孙琪峥织梦建站教程如何优化数据库安全?  如何用搬瓦工VPS快速搭建个人网站?  网站制作中优化长尾关键字挖掘的技巧,建一个视频网站需要多少钱?  ,网站推广常用方法?  常州自助建站工具推荐:低成本搭建与模板选择技巧  建站之星代理如何优化在线客服效率?  利用JavaScript实现拖拽改变元素大小  怎么用手机制作网站链接,dw怎么把手机适应页面变成网页?  如何零成本快速生成个人自助网站?  如何高效利用200m空间完成建站?  设计网站制作公司有哪些,制作网页教程?  大连 网站制作,大连天途有线官网?  油猴 教程,油猴搜脚本为什么会网页无法显示?  如何快速搭建高效服务器建站系统?  建站主机与服务器功能差异如何区分?  建站之星免费模板:自助建站系统与智能响应式一键生成  如何用VPS主机快速搭建个人网站?  建站之星安全性能如何?防护体系能否抵御黑客入侵?  模具网站制作流程,如何找模具客户?  网站制作专业公司有哪些,如何制作一个企业网站,建设网站的基本步骤有哪些?  免费视频制作网站,更新又快又好的免费电影网站? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。