首页
学习
活动
专区
工具
TVP
发布

Datawhale专栏

专栏作者
504
文章
697843
阅读量
75
订阅数
WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源
如何在参差不齐的海量网页数据中提炼高质量内容?如何保证模型训练数据的质量和安全性,如何构建高效的处理策略?上海人工智能实验室的这篇论文提供了一种不错的参考方案。
Datawhale
2024-04-24
800
交通时空大数据如何分析,我写了本书!
大数据时代到来,随着智能设备与物联网技术的普及,人在社会生产活动中会产生大量的数据。在我们的日常活动中,手机会记录下我们到访过的地点;在使用城市公交IC卡、共享单车等服务时,服务供应商会知道这些出行需求产生的时间与地点;公交车与出租车的定位信息,也可以告诉我们城市交通状态的具体情况。这些具备时间、空间与个体属性的数据能够为城市交通的智慧管控提供强有力的支持。
Datawhale
2022-10-31
1.9K0
目标检测的常用数据处理方法!
在上节内容中,我们介绍了目标检测的基础概念,并分析了实现目标检测的常用思路,本篇文章将重点介绍在该领域的经典数据集:VOC数据集,以及使用Dataloader对其进行数据读取和预处理的全过程。
Datawhale
2021-01-07
7770
数据处理遇到麻烦不要慌,5个优雅的Numpy函数助你走出困境
Numpy 允许我们根据给定的新形状重塑矩阵,新形状应该和原形状兼容。有意思的是,我们可以将新形状中的一个参数赋值为-1。这仅仅表明它是一个未知的维度,我们希望 Numpy 来算出这个未知的维度应该是多少:Numpy 将通过查看数组的长度和剩余维度来确保它满足上述标准。让我们来看以下例子:
Datawhale
2019-11-11
4080
整理一份详细的数据预处理方法
熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工作时间占据了整个项目的70%以上。数据的质量,直接决定了模型的预测和泛化能力的好坏。它涉及很多因素,包括:准确性、完整性、一致性、时效性、可信性和解释性。而在真实数据中,我们拿到的数据可能包含了大量的缺失值,可能包含大量的噪音,也可能因为人工录入错误导致有异常点存在,非常不利于算法模型的训练。数据清洗的结果是对各种脏数据进行对应方式的处理,得到标准的、干净的、连续的数据,提供给数据统计、数据挖掘等使用。
Datawhale
2019-10-30
8010
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档