腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
数据派THU
专栏作者
举报
2139
文章
1932458
阅读量
188
订阅数
订阅专栏
申请加入专栏
全部文章(999+)
神经网络(472)
机器学习(453)
深度学习(452)
人工智能(369)
数据(344)
编程算法(327)
大数据(282)
模型(279)
https(258)
网络安全(249)
python(153)
NLP 服务(126)
数据分析(121)
算法(82)
其他(78)
开源(75)
论文(66)
安全(65)
函数(65)
强化学习(63)
数据处理(62)
数据库(61)
github(61)
工作(57)
系统(56)
图像处理(53)
网络(52)
监督学习(48)
腾讯云测试服务(47)
企业(45)
机器人(45)
设计(44)
sql(41)
优化(41)
git(39)
变量(36)
pytorch(35)
开发(34)
http(33)
基础(33)
框架(33)
统计(31)
数据安全(30)
数据结构(30)
翻译(30)
tensorflow(29)
数据可视化(29)
学习方法(29)
存储(28)
chatgpt(28)
软件(28)
卷积神经网络(27)
工具(27)
性能(26)
数据挖掘(24)
线性回归(24)
tcp/ip(24)
测试(24)
数据科学(24)
自动化(22)
实践(22)
网站(21)
游戏(21)
腾讯云开发者社区(21)
架构(21)
视频(21)
连接(20)
决策树(19)
可视化(19)
知识图谱(18)
图像识别(18)
服务(18)
区块链(17)
html(17)
api(16)
linux(16)
医疗(16)
推荐系统(16)
物联网(16)
搜索(16)
自动驾驶(15)
numpy(15)
特征工程(15)
行业(15)
云计算(14)
对象(14)
无人驾驶(13)
opencv(13)
gpt(13)
管理(13)
计算机(13)
数学(13)
原理(13)
css(12)
分布式(12)
keras(12)
迁移学习(12)
事件(12)
人脸识别(11)
编码(11)
代理(11)
c++(10)
硬件开发(10)
matlab(10)
apache(10)
机器翻译(10)
微信(10)
5g(10)
产品(10)
解决方案(10)
ide(9)
批量计算(9)
程序(9)
集合(9)
教程(9)
量化(9)
java(8)
javascript(8)
go(8)
r 语言(8)
文件存储(8)
缓存(8)
微服务(8)
汽车(8)
编程(8)
科技(8)
内存(8)
渲染(7)
scikit-learn(7)
聚类算法(7)
pandas(7)
研发(7)
异常(7)
.net(6)
SSL 证书(6)
容器(6)
爬虫(6)
无监督学习(6)
data(6)
创业(6)
技巧(6)
计算机视觉(6)
数据类型(6)
图表(6)
信息安全(6)
LLM(6)
ios(5)
bash(5)
android(5)
金融(5)
工业物联(5)
spark(5)
hadoop(5)
正则表达式(5)
架构设计(5)
教育(5)
互联网(5)
计算机科学(5)
脚本(5)
开发者(5)
索引(5)
通信(5)
效率(5)
语音识别(4)
数字货币(4)
php(4)
nosql(4)
访问管理(4)
运维(4)
黑客(4)
markdown(4)
nat(4)
jupyter notebook(4)
分类算法(4)
迁移(4)
com(4)
model(4)
表格(4)
部署(4)
内核(4)
压缩(4)
语法(4)
原型(4)
c 语言(3)
node.js(3)
ajax(3)
typescript(3)
搜索引擎(3)
日志服务(3)
erp(3)
单元测试(3)
kernel(3)
模式识别(3)
uml(3)
小程序(3)
windows(3)
系统架构(3)
信息流(3)
安全治理(3)
联邦学习(3)
隐私计算(3)
app(3)
atomic(3)
function(3)
gpu(3)
graph(3)
nlp(3)
patch(3)
png(3)
precision(3)
prompt(3)
token(3)
编程语言(3)
插件(3)
程序员(3)
递归(3)
二维码(3)
工程师(3)
监控(3)
排序(3)
配置(3)
日志(3)
硬件(3)
字符串(3)
最佳实践(3)
对象存储(2)
iphone(2)
bootstrap(2)
xml(2)
unix(2)
bash 指令(2)
mapreduce(2)
TDSQL MySQL 版(2)
文字识别(2)
DevOps 解决方案(2)
电商(2)
hive(2)
面向对象编程(2)
unity(2)
asp(2)
自动化测试(2)
anaconda(2)
kafka(2)
虚拟化(2)
性能测试(2)
数据库管理(2)
智能网联(2)
abstract(2)
apply(2)
entity(2)
google(2)
max(2)
point(2)
predict(2)
scale(2)
series(2)
target(2)
time(2)
vi(2)
百度(2)
编译(2)
布局(2)
低代码(2)
地图(2)
动态规划(2)
公众号(2)
工作流(2)
规范化(2)
接口(2)
量子计算(2)
入门(2)
手机(2)
数据仓库(2)
数组(2)
芯片(2)
音频(2)
隐私(2)
语音(2)
云平台(2)
数据流(2)
ICP备案(1)
费用中心(1)
云镜(主机安全)(1)
官方文档(1)
比特币(1)
scala(1)
jquery(1)
opengl(1)
qt(1)
单片机(1)
arm(1)
嵌入式(1)
composer(1)
云数据库 SQL Server(1)
oracle(1)
django(1)
打包(1)
全文检索(1)
windows server(1)
容器镜像服务(1)
spring(1)
短视频(1)
消息队列 CMQ 版(1)
检测工具(1)
人脸支付(1)
高性能计算(1)
政务云专区(1)
智能交通(1)
出行(1)
智能硬件(1)
yarn(1)
云联网(1)
serverless(1)
devops(1)
shell(1)
jdbc(1)
二叉树(1)
flash(1)
scrapy(1)
敏捷开发(1)
canvas(1)
processing(1)
云数据库 postgresql(1)
云数据仓库套件 sparkling(1)
flutter(1)
app安全(1)
腾讯会议(1)
sdk(1)
rust(1)
模型测试(1)
验证码(1)
数据集成(1)
图像搜索(1)
图像分析(1)
数据湖(1)
智慧交通(1)
智能制造(1)
小程序·云开发(1)
大模型视频创作引擎(1)
项目管理(1)
腾讯云(1)
acm(1)
add(1)
agent(1)
aigc(1)
alpha(1)
auto(1)
aws(1)
bit(1)
block(1)
byte(1)
chatbot(1)
chrome(1)
convolution(1)
cto(1)
cut(1)
cv2(1)
database(1)
dbpedia(1)
debug(1)
dt(1)
epoch(1)
etl(1)
eval(1)
facebook(1)
file(1)
im(1)
image(1)
implicit(1)
jupyter(1)
kaggle(1)
lag(1)
layer(1)
lift(1)
lstm(1)
matplotlib(1)
min(1)
mips(1)
mnist(1)
models(1)
mysql(1)
network(1)
nodes(1)
nvidia(1)
oceanbase(1)
ode(1)
partial(1)
pdf(1)
persistence(1)
pipeline(1)
probability(1)
pycharm(1)
range(1)
report(1)
reset(1)
scaling(1)
seaborn(1)
self(1)
sequence(1)
show(1)
simulation(1)
size(1)
state(1)
statistics(1)
structure(1)
summary(1)
task(1)
text(1)
torch(1)
twitter(1)
wav(1)
word(1)
worker(1)
wsdl(1)
yaml(1)
yolo(1)
youtube(1)
zero(1)
百度地图(1)
版本控制(1)
备份(1)
闭包(1)
笔记(1)
编译器(1)
登录(1)
动画(1)
队列(1)
二进制(1)
反射(1)
服务器(1)
高性能(1)
工程化(1)
后端(1)
后台(1)
计算机图形学(1)
架构师(1)
加密(1)
金融科技(1)
镜像(1)
客户端(1)
跨域(1)
蓝牙(1)
链表(1)
浏览器(1)
流量(1)
漏洞(1)
密码学(1)
敏捷(1)
苹果(1)
前端(1)
全栈(1)
软件工程(1)
设计模式(1)
摄像头(1)
事务(1)
数据管理(1)
数据中心(1)
图数据库(1)
推送(1)
微信公众号(1)
系统设计(1)
线程(1)
小游戏(1)
性能分析(1)
音视频(1)
域名(1)
源码(1)
元宇宙(1)
云原生(1)
指针(1)
重构(1)
装饰器(1)
作用域(1)
城市交通(1)
自然语言处理(1)
数据清洗(1)
搜索文章
搜索
搜索
关闭
2023大数据挑战赛全国六强团队获奖经验+ppt分享(一)
机器学习
大数据
特征工程
数据
算法
在比赛中,我们不仅仅是停留在理论层面,更深刻地理解了算法在实际问题中应用的重要性。赛题背景中提到了多源数据故障发现面临的场景适应性和数据复杂性的问题,在解决这些问题的过程中,我们深刻认识到算法不仅需要有高精度的预测能力,还需要考虑到不同数据源之间的差异和联系,比如metric发现故障,trace追踪故障,log解决故障,以及如何应对数据中的噪声,包括对应用落地的一些思考等。这种实际问题中的复杂性迫使我深入思考如何将学术理论转化为能够在实际环境中发挥作用的实用算法。
数据派THU
2023-09-07
603
0
快讯|大数据挑战赛周周星(第三周)榜单发榜啦,经验分享奉上!
大数据
特征工程
蓝牙
数据
统计
本赛题提供了三个数据源,我们的方案主要使用到的是trace和log,metric暂时没有使用(尝试过效果不佳)。前期只对trace进行了简单的挖掘工作,而把重心放在了log表,后期对trace更加深入挖掘,分数有了进一步提升。现在来看,单使用trace表和一些简单的log表特征线上可以达到0.85+。
数据派THU
2023-08-08
151
0
独家 | 小数据集也能大有作为:特征工程的妙用
机器学习
特征工程
翻译
模型
数据
作者:Krzysztof Pałczyński翻译:王闯(Chuck)校对:zrx 本文约1800字,建议阅读8分钟本文介绍了如何在小数据集上应用特征工程来提高机器学习模型的性能。 标签:数据科学、机器学习、特征工程 特征工程可以弥补数据的不足。 图片源自Unsplash,由Thomas T上传 在快速发展的人工智能 (AI) 世界中,数据已成为无数创新应用和解决方案的命脉。实际上,大型数据集通常被认为是训练强大且准确的 AI 模型的支柱。但是,当手头的数据集相对较小时该怎么办呢?在本文中,我们将探讨特
数据派THU
2023-04-25
233
0
5 分钟了解机器学习的特征工程
机器学习
特征工程
编码
模型
数据
来源:DeepHub IMBA 本文约1300字,建议阅读5分钟 在本文中,我们将了解什么是特征工程以及如何将其应用于您的机器学习算法。 介绍 在我们进一步研究之前,我们需要定义机器学习中的特征。 如果您不熟悉机器学习,那么特征就是机器学习算法模型的输入。 什么是特征工程? 特征工程使用数学、统计学和领域知识从原始数据中提取有用的特征的方法。 例如,如果两个数字特征的比率对分类实例很重要,那么计算该比率并将其作为特征包含可能会提高模型质量。 例如有两个特征:平方米和公寓价格。您可能需要通过获取每平方米价
数据派THU
2023-03-29
288
0
将梯度提升模型与 Prophet 相结合可以提升时间序列预测的效果
特征工程
机器学习
神经网络
深度学习
人工智能
来源:Deephub Imba本文约1200字,建议阅读5分钟将Prophet的预测结果作为特征输入到 LightGBM 模型中进行时序的预测。 我们以前的关于使用机器学习进行时间序列预测的文章中,都是专注于解释如何使用基于机器学习的方法进行时间序列预测并取得良好结果。 但是在这篇文章将使用更高级的技术来预测时间序列,本文将使用 Prophet 来提取新的有意义的特征,例如季节性、置信区间、趋势等。 时间序列预测 一般情况下 LightGBM 模型都会使用一些lag的特征来预测未来的结果,这样做一般
数据派THU
2022-05-05
554
0
独家 | 时间信息编码为机器学习模型特征的三种方法(附链接)
特征工程
scikit-learn
机器学习
神经网络
深度学习
作者:Eryk Lewinson 翻译:张睿毅校对:张睿毅 本文约4200字,建议阅读10分钟本文我们主要使用非常知名的Python包,以及依赖于一个相对不为人知的scikit-lego包。 标签:数据帧, 精选, 机器学习, Python, 技术演练 设置和数据 在本文中,我们主要使用非常知名的Python包,以及依赖于一个相对不为人知的scikit-lego包,这是一个包含许多有用功能的库,这些功能正在扩展scikit-learn的功能。我们导入所需的库,如下所示: import n
数据派THU
2022-04-25
1.5K
0
特征工程:基于梯度提升的模型的特征编码效果测试
https
网络安全
特征工程
php
机器学习
来源:DeepHub IMBA本文4300字,建议阅读8分钟展示梯度提升模型下表格数据中的数字和分类特征的各种编码策略之间的基准测试研究的结果。 为梯度提升学习选择默认的特征编码策略需要考虑的两个重要因素是训练时间和与特征表示相关的预测性能。Automunge库是处理表格数据常用的库,它可以填充空值,也可以进行分类的编码和归一化等操作,默认的境况下Automunge对分类特征进行二值化处理,并对数值特征进行z-score归一化。本文将通过对一系列不同数据集进行基准测试来验证这些默认值是否是最优化的选项。
数据派THU
2022-04-06
425
0
独家 | 将时间信息编码用于机器学习模型的三种编码时间信息作为特征的三种方法
特征工程
编程算法
https
网络安全
scikit-learn
作者:Eryk Lewinson 翻译:汪桉旭校对:zrx 本文约4400字,建议阅读5分钟本文研究了三种使用日期相关的信息如何创造有意义特征的方法。 标签:时间帧,机器学习,Python,技术演示 想象一下,你刚开始一个新的数据科学项目。目标是建立一个预测目标变量Y的模型。你已经收到了来自利益相关者/数据工程师的一些数据,进行了彻底的EDA并且选择了一些你认为和手头上问题有关的变量。然后你终于建立了你的第一个模型。得分是可以接受的,但是你相信你可以做得更好。你应该怎么做呢? 这里你可以通过许多方式跟进。
数据派THU
2022-03-24
1.5K
0
深度特征合成与遗传特征生成,两种自动特征生成策略的比较
特征工程
编程算法
来源:Deephub Imba本文约1800字,建议阅读8分钟本文我们将通过一个示例介绍如何使用 ATOM 包来快速比较两种自动特征生成算法。 特征工程是从现有特征创建新特征的过程,通过特征工程可以捕获原始特征不具有的与目标列的额外关系。这个过程对于提高机器学习算法的性能非常重要。尽管当数据科学家将特定的领域知识应用特定的转换时,特征工程效果最好,但有一些方法可以以自动化的方式完成,而无需先验领域知识。 在本文中,我们将通过一个示例介绍如何使用 ATOM 包来快速比较两种自动特征生成算法:深度特征合成 (D
数据派THU
2022-03-17
648
0
LazyProphet:使用 LightGBM 进行时间序列预测
腾讯云测试服务
特征工程
来源:Deephub Imba本文约2800字,建议阅读5分钟LazyProphet还是一个时间序列建模的很好选择。 当我们考虑时间序列的增强树时,通常会想到 M5 比赛,其中前十名中有很大一部分使用了 LightGBM。但是当在单变量情况下使用增强树时,由于没有大量的外生特征可以利用,它的性能非常的糟糕。 首先需要明确的是M4 比赛的亚军 DID 使用了增强树。但是它作为一个元模型来集成其他更传统的时间序列方法。在 M4 上公开的代码中,所有标准增强树的基准测试都相当糟糕,有时甚至还达不到传统的预测方法。
数据派THU
2022-03-15
1.3K
0
使用时间特征使让机器学习模型更好地工作
特征工程
机器学习
神经网络
深度学习
人工智能
📷 来源: DeepHub IMBA本文约2300字,建议阅读8分钟在本文中,通过一个实际示例讨论如何从 DateTime 变量中提取新特征以提高机器学习模型的准确性。 特征工程是构建机器学习模型最重要的方面之一。在本文中,我将通过一个实际示例讨论如何从 DateTime 变量中提取新特征以提高机器学习模型的准确性。 从日期中提取特征 一些数据集提供了日期或日期时间字段,通常在为机器学习模型构建输入特征时会被删除(除非您正在处理时间序列,显然 😃)。 但是,DateTime 是可用于提取新特征的,这些新特征
数据派THU
2022-03-04
1.6K
0
独家 | 降维是数据科学家的必由之路
特征工程
机器学习
神经网络
深度学习
人工智能
https://datahack.analyticsvidhya.com/contest/data-science-blogathon-7/
数据派THU
2021-04-23
471
0
原创 | 基于AI的智能急性颅内出血类型检测
特征工程
图像处理
分类算法
颅内出血(颅骨内出血)是医疗领域严重的健康问题,需要快速且经常进行密集的医学治疗。在美国,颅内出血约占中风的10%,其中中风是导致死亡的第五大原因。在医学界,识别任何出血的位置和类型是治疗患者的关键步骤。现在的情况下需要医生或者是训练有素的专家对于病人的颅骨的医学影像进行查看并找出出血的位置从而判断出具体的出血亚型。通常这个过程很复杂、很耗时间而且会浪费很多的人力物力。所以急需一种图像处理的方法来根据医学影像来检测是否有颅内出血的现象以及具体的颅内出血的类型(亚型)。
数据派THU
2020-09-14
847
0
独家 | 经验&教训分享:我的第一个机器学习项目
特征工程
机器学习
神经网络
深度学习
人工智能
在这片博客中,我将介绍队友(Aron,Ashish,Gabriel)和我如何完成我们的第一个机器学习项目。写这篇博客的目的是为了记录——记录下我作为一名有抱负的数据科学家的旅程。同时,这篇博客也是为了写下逐步完善预测模型背后的思维和推理过程。由于我的目的是建立一个可以快速使用的通用工作流程,所以我将尽可能的简化推理过程。我的最终目标是当某一天再次回顾这个数据集时,可以应用更好的预测模型,看到自己原本可以做出哪些改进,并且能看到自己作为一个数据科学家的成长。
数据派THU
2020-02-12
547
0
独家 | 一文盘点AutoML 库(附PPT等链接)
编程算法
https
网络安全
自动化
特征工程
Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别:
数据派THU
2019-11-20
617
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档