首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >数据挖掘常用公开数据集

数据挖掘常用公开数据集

作者头像
熊猫钓鱼
发布2025-08-18 08:38:29
发布2025-08-18 08:38:29
2.3K0
举报
文章被收录于专栏:人工智能应用人工智能应用

数据挖掘的公开数据集资源非常丰富,覆盖多个领域(金融、医疗、社交网络、图像、文本等)。以下是一些方便实用且广泛认可的公开数据集平台和经典数据集,适合快速验证模型和项目实践:


一、综合数据集平台
  1. Kaggle Datasets 🔗 Find Open Datasets and Machine Learning Projects | Kaggle
    • 特点:社区活跃,数据集附带代码案例(Notebooks),适合初学者。
    • 实用数据集
      • Titanic(分类预测)
      • House Prices(回归预测)
      • COVID-19 Open Research Dataset(文本挖掘)
  2. UCI Machine Learning Repository 🔗 UCI Machine Learning Repository
    • 特点:学术经典,覆盖分类、回归、聚类等任务。
    • 实用数据集
      • Iris(分类,150条花卉数据)
      • Wine(分类,葡萄酒成分)
      • Adult(二分类,收入预测)
  3. Google Dataset Search 🔗 https://datasetsearch.research.google.com
    • 特点:搜索引擎式查找,聚合全网开放数据集。

二、领域专项数据集
1. 金融与经济
2. 社交网络与图数据
3. 文本与 NLP
4. 图像与视频
  • CIFAR-10/100 🔗 官方下载
    • 6万张10类/100类小尺寸图像(物体识别)。
  • MNIST(手写数字识别)
    • 入门必用,集成在sklearn/TensorFlow中。
5. 时间序列

三、政府与组织开放数据
  1. 中国政府开放数据平台 🔗 https://data.stats.gov.cn(国家统计局)
    • 经济、人口、区域统计数据。
  2. NASA Open Data 🔗 https://data.nasa.gov
    • 卫星影像、气候数据。
  3. European Union Open Data Portal

🔗 https://data.europa.eu

四、实用建议
  1. 选数据集看三点
    • 数据质量(是否清洗过)
    • 任务匹配度(分类/回归/聚类)
    • 数据规模(小样本练手 vs 大数据挑战)
  2. 快速调用方式

Python库直接加载(示例):

代码语言:javascript
复制
from sklearn.datasets import load_iris, fetch_california_housing
iris = load_iris()  # 鸢尾花数据集
housing = fetch_california_housing()  # 加州房价数据集
附:5个最适合练手的经典数据集

数据集名称

领域

任务类型

数据量

获取方式

Iris

生物

多分类

150

sklearn.datasets.load_iris

Titanic

用户行为

二分类

891

Kaggle

MNIST

图像

多分类

70k

torchvision.datasets.MNIST

Wine Quality

食品科学

回归/分类

4.9k

UCI 或 Kaggle

Spam SMS

NLP

文本分类

5.5k

Kaggle链接


提示:优先选择预处理较完整的数据集(如Kaggle),避免时间浪费在数据清洗上。进阶场景可挑战非结构化数据(如爬虫获取的原始文本/图像)。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、综合数据集平台
  • 二、领域专项数据集
    • 1. 金融与经济
    • 2. 社交网络与图数据
    • 3. 文本与 NLP
    • 4. 图像与视频
    • 5. 时间序列
  • 三、政府与组织开放数据
  • 四、实用建议
  • 附:5个最适合练手的经典数据集
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档