全网整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:400-708-3566

如何从二维列表中分别提取每行的重复元素与非重复元素

本文介绍如何遍历二维列表,对每一子列表统计元素频次,并分别提取出该行中出现次数 ≥2 的重复值(去重后)和仅出现 1 次的非重复值,最终组织为两个独立列表。

在数据清洗或特征分析场景中,常需识别列表中重复与唯一元素。对于二维列表(即由多个一维列表组成的嵌套结构),我们需要按行独立处理:对每一行统计各元素出现次数,再分离出“重复项”(出现 ≥2 次的值,去重后存为子列表)和“纯非重复项”(仅出现 1 次的值,保持原始顺序或自然顺序均可)。

以下是一个清晰、可复用的 Python 实现:

df = [
    [1, 2, 4, 5, 6, 2, 6, 7],      # dup: 2, 6 → non_dup: 1,4,5,7
    [5, 6, 7, 22, 23, 34, 48],     # no dup → non_dup: all
    [3, 5, 6, 7, 45, 46, 48],      # no dup → non_dup: all
    [6, 7, 14, 29, 32, 6, 29],     # dup: 6,29 → non_dup: 7,14,32
    [6, 7, 13, 23, 33, 35, 7],     # dup: 7 → non_dup: 6,13,23,33,35
    [1, 6, 7, 8, 9, 10, 8],        # dup: 8 → non_dup: 1,6,7,9,10
    [0, 2, 5, 7, 19, 7, 5],        # dup: 5,7 → non_dup: 0,2,19
]

duplicates = []
non_duplicates = []

for row in df:
    # 统计每个元素在当前行中的出现次数
    counts = {}
    for x in row:
        counts[x] = counts.get(x, 0) + 1

    # 提取重复元素(≥2 次)→ 去重、转 list,推荐排序以保证可重现性
    dup_in_row = sorted([x for x, cnt in counts.items() if cnt >= 2])

    # 提取非重复元素(恰好 1 次)→ 保持首次出现顺序(可选)
    non_dup_in_row = [x for x in row if counts[x] == 1]

    if dup_in_row:
        duplicates.append(dup_in_row)
    if non_dup_in_row:  # 即使整行无重复,也应保留所有元素作为 non_dup(如原示例中第2、3行未出现在 non_dups 中,说明需求是「仅含重复行的 non_dup」)
        non_duplicates.append(non_dup_in_row)

print("duplicates =", duplicates)
print("non_duplicates =", non_duplicates)

输出结果

duplicates = [[2, 6], [6, 29], [7], [8], [5, 7]]
non_duplicates = [[1, 4, 5, 7], [7, 14, 32], [6, 13, 23, 33, 35], [1, 6, 7, 9, 10], [0, 2, 19]]

⚠️ 注意事项

  • 原问题中 non_dups 仅包含存在重复的那些行的非重复元素(即跳过了第2、3行),因此代码中 if non_dup_in_row: 后直接追加——这符合示例逻辑;若需所有行的非重复元素(包括无重复行),则应始终 append(non_dup_in_row)。
  • 使用 row.count(x) 简洁但时间复杂度为 O(n²),对大数据行不友好;上述改进版采用单次遍历哈希计数(O(n)),更高效。
  • dup_in_row 推荐 sorted() 以确保结果稳定(避免集合无序导致每次运行顺序不同);若需保持重复值首次出现顺序,可改用 dict.fromkeys(...) 去重。
  • 若需保留原始重复值的出现位置信息(如索引),可进一步扩展为返回 (value, indices) 元组列表。

该方法简洁、易懂、可扩展,适用于教学、脚本处理及轻量级数据预处理任务。


# python  # 大数据  # app  # 数据清洗 


相关文章: 建站之星后台管理如何实现高效配置?  建站主机CVM配置优化、SEO策略与性能提升指南  Python路径拼接规范_跨平台处理说明【指导】  独立制作一个网站多少钱,建立网站需要花多少钱?  如何在腾讯云免费申请建站?  如何在腾讯云服务器快速搭建个人网站?  大连网站制作公司哪家好一点,大连买房网站哪个好?  ,如何利用word制作宣传手册?  免费网站制作模板下载,除了易企秀之外还有什么H5平台可以制作H5长页面,最好是免费的?  建站主机与服务器功能差异如何区分?  如何选择高效稳定的ISP建站解决方案?  网站制作的软件有哪些,制作微信公众号除了秀米还有哪些比较好用的平台?  建站之星CMS五站合一模板配置与SEO优化指南  简历在线制作网站免费版,如何创建个人简历?  Swift中循环语句中的转移语句 break 和 continue  如何在Tomcat中配置并部署网站项目?  网站制作企业,网站的banner和导航栏是指什么?  如何快速生成橙子建站落地页链接?  简单实现Android验证码  如何确保FTP站点访问权限与数据传输安全?  如何实现建站之星域名转发设置?  制作企业网站建设方案,怎样建设一个公司网站?  如何快速配置高效服务器建站软件?  建站之星免费模板:自助建站系统与智能响应式一键生成  西安大型网站制作公司,西安招聘网站最好的是哪个?  兔展官网 在线制作,怎样制作微信请帖?  C#怎么创建控制台应用 C# Console App项目创建方法  已有域名和空间如何搭建网站?  Python lxml的etree和ElementTree有什么区别  建站之星在线客服如何快速接入解答?  详解一款开源免费的.NET文档操作组件DocX(.NET组件介绍之一)  如何通过二级域名建站提升品牌影响力?  网站制作和推广的区别,想自己建立一个网站做推广,有什么快捷方法马上做好一个网站?  郑州企业网站制作公司,郑州招聘网站有哪些?  如何快速上传自定义模板至建站之星?  黑客如何通过漏洞一步步攻陷网站服务器?  网站好制作吗知乎,网站开发好学吗?有什么技巧?  建站一年半SEO优化实战指南:核心词挖掘与长尾流量提升策略  专业公司网站制作公司,用什么语言做企业网站比较好?  如何用低价快速搭建高质量网站?  行程制作网站有哪些,第三方机票电子行程单怎么开?  孙琪峥织梦建站教程如何优化数据库安全?  如何快速启动建站代理加盟业务?  巅云智能建站系统:可视化拖拽+多端适配+免费模板一键生成  如何安全更换建站之星模板并保留数据?  阿里云高弹*务器配置方案|支持分布式架构与多节点部署  网站制作专业公司有哪些,如何制作一个企业网站,建设网站的基本步骤有哪些?  C++如何使用std::optional?(处理可选值)  网站制作软件有哪些,制图软件有哪些?  如何选择PHP开源工具快速搭建网站? 

您的项目需求

*请认真填写需求信息,我们会在24小时内与您取得联系。