数据挖掘的公开数据集资源非常丰富,覆盖多个领域(金融、医疗、社交网络、图像、文本等)。以下是一些方便实用且广泛认可的公开数据集平台和经典数据集,适合快速验证模型和项目实践:
Titanic(分类预测)
House Prices(回归预测)
COVID-19 Open Research Dataset(文本挖掘)
Iris(分类,150条花卉数据)
Wine(分类,葡萄酒成分)
Adult(二分类,收入预测)
Facebook Social Circles(社交关系图)
Amazon Product Co-purchasing(商品关联图)
sklearn/TensorFlow中。
statsmodels中。
Python库直接加载(示例):
from sklearn.datasets import load_iris, fetch_california_housing
iris = load_iris() # 鸢尾花数据集
housing = fetch_california_housing() # 加州房价数据集数据集名称 | 领域 | 任务类型 | 数据量 | 获取方式 |
|---|---|---|---|---|
Iris | 生物 | 多分类 | 150 | sklearn.datasets.load_iris |
Titanic | 用户行为 | 二分类 | 891 | Kaggle |
MNIST | 图像 | 多分类 | 70k | torchvision.datasets.MNIST |
Wine Quality | 食品科学 | 回归/分类 | 4.9k | UCI 或 Kaggle |
Spam SMS | NLP | 文本分类 | 5.5k | Kaggle链接 |
提示:优先选择预处理较完整的数据集(如Kaggle),避免时间浪费在数据清洗上。进阶场景可挑战非结构化数据(如爬虫获取的原始文本/图像)。