今年的KDD将关注空气质量问题。在过去几年中,空气质量问题已经影响了很多发展中国家的大城市。2011年,康奈尔大学空气质量专家Dane Westerdahl在接受《洛杉矶时报》的采访时表示,有些时候,发展中国家城市的空气质量和“森林大火下风口的空气质量”相当。在众多空气污染物中,悬浮颗粒(particulate matters,简称PM)是最致命的一种之一。直径小于或等于2.5 μm的悬浮颗粒可以进入肺部深处,进入血管,导致DNA突变和癌症,中枢神经系统损伤,和过早死亡(premature death)。
【新智元导读】近日,有数据挖掘领域“奥运会”之称的KDD Cup 2018比赛结果出炉。今年的主题为空气质量预测,中国团队Getmax包揽三项大奖,获得两项第一,一项第二的好成绩。本文带来该团队亲述算法思路与技术细节。
本研究旨在利用实时监测数据和多种不同的分析方法,确定自杀思维的时间尺度。参与者是105名过去一周有自杀念头的成年人,他们完成了一项为期42天的实时监测研究(观察总数=20,255)。参与者完成了两种形式的实时评估:传统的实时评估(每天间隔数小时)和高频评估(间隔10分钟超过1小时)。我们发现自杀想法变化很快。描述性统计和马尔可夫转换模型都表明,自杀念头的升高状态平均持续1至3小时。个体在报告自杀念头升高的频率和持续时间上表现出异质性,我们的分析表明,自杀念头的不同方面在不同的时间尺度上运作。连续时间自回归模型表明,当前的自杀意图可以预测未来2 - 3小时的自杀意图水平,而当前的自杀愿望可以预测未来20小时的自杀愿望水平。多个模型发现,自杀意图升高的平均持续时间比自杀愿望升高的持续时间短。最后,在统计建模的基础上,关于自杀思想的个人动态的推断显示依赖于数据采样的频率。例如,传统的实时评估估计自杀欲望的严重自杀状态持续时间为9.5小时,而高频评估将估计持续时间移至1.4小时。
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。
今年发布8月份发布的一篇有关长时间序列预测(SOTA)的文章,DLinear、NLinear在常用9大数据集(包括ETTh1、ETTh2、ETTm1、ETTm2、Traffic等)上MSE最低,模型单变量、多变量实验数据:
大家对时间序列知多少?何为时间序列、时间序列分析、时间序列分解、时间序列预测,以及时间序列预测都有哪些方法?
在机器学习中,目前主流的方法是利用LSTM等递归神经网络来对未来数据进行预测,这次介绍的DeepAR模型也不例外,不过不同的是,DeepAR模型并不是直接简单地输出一个确定的预测值,而是输出预测值的一个概率分布,这样做的好处有两点:
相比朴素法,就是考虑了季节性,也就是说将同期的最后一次观测值作为本期的预测值,比如预测本周的数值,那么就将上周的周一观测值作为本周的周一预测值,上周的周二观测值作为本周的周二预测值,以此类推。
1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 这两幅图代表了大数据环境下趋势预测的典型场景,即事件预测和时序预测,本文重点关注第二幅图中的场景,即与时间维度相关的时间序列预测。 2. 时间序列预测 时间序列预测即以时间数列所能反映的社会经济现象的发展过程和规律性,进行引伸外推,预测其发展趋势的方法,简单来说就是从已知事件测定未知事件。 上图展示了时间序列的一般趋势,时间序列数据的趋势变动可分
使用Python根据汇总统计信息添加新特性,本文将告诉你如何计算几个时间序列中的滚动统计信息。将这些信息添加到解释变量中通常会获得更好的预测性能。
提到 KDD Cup,相信数据挖掘领域的同学并不陌生。作为目前数据挖掘领域最有影响力、最高水平的国际顶级赛事,KDD Cup 至今已举办 21 届,每年都会吸引世界数据挖掘界的顶尖专家、学者、工程师、学生等前来参赛,被外界誉为大数据领域的「奥运会」。
doublering,携程高级算法工程师,关注自然语言处理、LLMs、时序预测等领域。
早期的时间序列预测主要模型是诸如ARIMA这样的单序列线性模型。这种模型对每个序列分别进行拟合。在ARIMA的基础上,又提出了引入非线性、引入外部特征等的优化。然而,ARIMA类模型在处理大规模时间序列时效率较低,并且由于每个序列分别独立拟合,无法共享不同序列存在的相似规律。深度学习模型在NLP、CV等领域取得了成功应用后,也被逐渐引入到解决时间序列预测问题中。通过不同序列共享一个深度学习模型,让模型能从多个序列中学到知识,并且提升了在大规模数据上的求解效率。
深度学习方法是一种利用神经网络模型进行高级模式识别和自动特征提取的机器学习方法,近年来在时序预测领域取得了很好的成果。常用的深度学习模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)、门控循环单元(GRU)、卷积神经网络(CNN)、注意力机制(Attention)和混合模型(Mix )等,与机器学习需要经过复杂的特征工程相比,这些模型通常只需要经数据预处理、网络结构设计和超参数调整等,即可端到端输出时序预测结果。深度学习算法能够自动学习时间序列数据中的模式和趋势,神经网络涉及隐藏层数、神经元数、学习率和激活函数等重要参数,对于复杂的非线性模式,深度学习模型有很好的表达能力。在应用深度学习方法进行时序预测时,需要考虑数据的平稳性和周期性,选择合适的模型和参数,进行训练和测试,并进行模型的调优和验证。来源:轮回路上打碟的小年轻(侵删)
由于气象上经常研究长期气候变化,这些数据动辄上十年,上百年的再分析数据也不少,如何提取这些时间序列,如何生成时间序列,便成为一个问题,之前看到摸鱼大佬作气候研究时使用xarray花式索引提取数据将我震的五体投地,于是也学习了一下时间序列的处理方法与经验。这里分为三部分,一是如何生成时间序列;二是使用xarray提取数据集里的时间序列;三是如何在绘图中使用定制化时间的显示方式。本章节是第一块的内容。
这两幅图代表了大数据环境下趋势预测的典型场景,即事件预测和时序预测,本文重点关注第二幅图中的场景,即与时间维度相关的时间序列预测。 2. 时间序列预测 时间序列预测即以时间数列所能反映的社会经济现象的
AI 科技评论按:今年 KDD CUP 设立三项大奖,分别为 General Track、Last Ten-Day Prediction Track 以及 Second 24-Hour Prediction Track,从不同维度奖励表现突出的团队。由罗志鹏,胡可,黄坚强组成的 Getmax 团队,在这三项大奖中获得一项亚军、两项冠军的成绩,是唯一包揽三项大奖的团队。去年该团队成员带领的 Convolution 团队也包揽了 KDD CUP 2017 的双料冠军。
总第92篇 01|时间序列定义: 时间序列是按照一定的时间间隔排列的一组数据,其时间间隔可以是任意的时间单位,如小时、日、周月等。比如,不同时间段某产品的用户数量,以及某个在网站的用户行为,这些数据形成了以一定时间间隔的数据。 人们希望通过对这些时间序列的分析,从中发现和揭示现象发展变化的规律,尽可能多地从中提取所需要的信息,并将这些知识和信息用于预测,以掌握和预测未来行为。对于时间序列的预测,由于很难确定它与其他变量之间的关系,这时我们就不能用回归去预测,而应使用时间序列方法进行预测。 采用时间序
pandas是Python数据分析最好用的第三方库,没有之一。——笛卡儿没说过这句话!
汽车正变得越来越智能,越来越连通,然而你对帮助我们的车辆运行的技术有多少研究?我很想知道我如何能连接我的车辆的通信中心,以及可以在Wolfram笔记本中创建什么样的界面来报告所收集的数据。
时间序列数据是有序的。这意味着观察/数据点依赖于以前的观察/数据点。因此,在模型训练期间,数据点顺序不会被打乱。
在过去的几个月中,时间序列基础模型的发展速度一直在加快,每个月都能看到新模型的发布。从TimeGPT 开始,我们看到了 Lag-Llama 的发布,Google 发布了 TimesFM,Amazon 发布了 Chronos,Salesforce 发布了 Moirai。TimesFM是信息最多的模型,而Lag-Llama、Chronos我们都做过详细的介绍。今天我们来详细介绍一下Moirai,这里可能最不知名(相对)就是Salesforce了,所以基本没有介绍 Moirai的文章,我们就来补足这个信息。
研究者认为,尽管深度学习在其他领域取得了成功,但其在时间序列分析中的有效性仍然受到争议。他们强调了由于缺乏标准化大规模数据集,在评估深度学习模型进行时间序列预测时所面临的挑战。
时间序列数据日益成为现代应用的核心 - 想想物联网,股票交易,点击流,社交媒体等。随着从批量处理系统向实时系统的转变,有效捕获和分析时间序列数据可以使组织在竞争对手之前更好地检测和响应事件,或提高运营效率以降低成本和风险。使用时间序列数据通常与常规应用程序数据不同,您应该遵循最佳实践。本系列博客旨在提供这些最佳实践,帮助您在 MongoDB 上构建时间序列应用程序:
最近一直在接触时间序列,所以打算写一些有关时间序列的文章,预测部分会从规则开始、到传统模型、到机器学习、再到深度学习,此外也会介绍一些时间序列的基本概念,包括自相关、平稳性、滞后性、季节性等。
在本文中,我们将介绍三种提高循环神经网络性能和泛化能力的高级技术。我们演示有关温度预测问题的三个概念,我们使用建筑物屋顶上的传感器的时间数据序列。
Transformer在自然语言处理和计算机视觉领域表现优秀,但在时间序列预测方面不如线性模型。
AI 科技评论按:自从比特币的价格暴涨以来,关于数字货币的炒作一直不断。每天都有新的数字货币的信息, 它们有的被证实是骗局,有些则会在几个月成为新的顶级货币。炒币人士通常会为了一个传言而买入卖出,自然,也会有人尝试用机器学习来对数字货币的价格变化进行分析,来找出影响数字货币价格变动的因素。近日在外媒 Medium 上,就有一位叫做 Chalita Lertlumprasert 的博主发表了《如何用机器学习来预测数字货币价格变化》(http://t.cn/RHkeIVh)的文章,AI 科技评论整理如下: 机器
本文的目的是为了解释 Grafana Loki 服务的设计动机。本文档并不会深入描述设计的所有细节,但希望能够对一些关键点进行说明,使我们能够提前发现任何明显的错误。本文主要会回答以下几个相关的问题:我们将如何构建它,为什么还要构建它,可以用于什么场景以及谁会使用它。
每当你发现一个与时间对应的趋势时,你就会看到一个时间序列。研究金融市场表现和天气预报的事实上的选择,时间序列是最普遍的分析技术之一,因为它与时间有着不可分割的关系 - 我们总是有兴趣预测未来。
本文介绍了用Python进行时间序列分解的不同方法,以及如何在Python中进行时间序列预测的一些基本方法和示例。
时间序列异常检测是学术界和工业界一直研究的热点和难点问题。比如腾讯内部开源的Metis项目,其实现思路是基于统计判决、无监督和有监督学习对时序数据进行联合检测。通过统计判决、无监督算法进行首层判决,输出疑似异常,其次进行有监督模型判决,得到最终检测结果。检测模型是经大量样本训练生成,可根据样本持续训练更新。Metis实现的时间序列异常检测学件在织云企业版本中已覆盖 20w+ 服务器,承载了 240w+ 业务指标的异常检测。经过了海量监控数据打磨,该学件在异常检测和运维监控领域具有广泛的应用性。
大型语言模型(LLM)和预训练基础模型(PFM)在自然语言处理(NLP)、计算机视觉(CV)等领域有广泛应用。时间序列和时空数据本质上都是时间数据,将这两个广泛且内在联系的数据类别的研究结合起来至关重要。尽管深度学习和自监督预训练方法在时间序列和时空数据分析领域逐渐取得进展,但统计模型仍占主导地位。
演讲者在进行介绍基于机器学习的带宽预测和拥塞控制方法之前,先介绍了当前 webRTC 中应用的基于 Google 拥塞控制机制的带宽预测方法(GCC)。
近年来,Transformer在自然语言处理以及计算机视觉任务中取得了不断突破,成为深度学习领域的基础模型。
基于transformer的模型已经成功地应用于许多领域,如自然语言处理(想想BERT或GPT模型)和计算机视觉,仅举几例。
时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。时间序列数据的特定属性意味着通常需要专门的统计方法 ( 点击文末“阅读原文”获取完整代码数据 ) 。
时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。时间序列数据的特定属性意味着通常需要专门的统计方法。
随着互联网、尤其是物联网的发展,我们需要把各种类型的终端实时监测、检查与分析设备所采集、产生的数据记录下来,在有时间的坐标中将这些数据连点成线,往过去看可以做成多纬度报表,揭示其趋势性、规律性、异常性;往未来看可以做大数据分析,机器学习,实现预测和预警。
时间序列为预测未来数据提供了方法。根据先前的值,时间序列可用于预测经济,天气的趋势。时间序列数据的特定属性意味着通常需要专门的统计方法
向量表示是机器学习生态系统中的一个关键概念。无论进行什么样的任务,我们总是试图训练找所掌握的数据的意义而机器学中通常使用数字向量来对数据进行描述,发现隐藏的行为,产生有价值的见解。
TimeGPT是首个时间序列基础大模型,能准确预测多样化数据集。评估显示,TimeGPT推理在性能、效率和简单性上优于统计、机器学习和深度学习方法。
在 Python 文档里,time是归类在Generic Operating System Services中,换句话说, 它提供的功能是更加接近于操作系统层面的。通读文档可知,time 模块是围绕着 Unix Timestamp 进行的。
表示学习作为深度学习中的核心,近期越来越多的被应用到了时间序列领域中,时间序列分析的表示学习时代已经来了。本文为大家带来了2020年以来顶会的5篇时间序列表示学习相关的核心工作梳理。
时间序列图神经网络是一种结合了图神经网络和时间序列分析的方法,用于对动态系统中的数据进行建模和预测。与传统的时间序列模型不同,图神经网络可以有效地捕捉时间序列数据中的时序信息和模式,并进行预测和分类。
表示学习是机器学习中的一个重要研究方向,在NLP、CV领域有很多经典的表示学习工作。大多数表示学习利用无监督学习的方法,结合合适的正负样本pair构造、损失函数,学习便于让机器学习模型理解的样本表示。近期,表示学习也逐渐应用到了时间序列领域。今天给大家介绍一篇时间序列表示学习的前沿工作,是由北京大学和微软联合署名的一篇AAAI 2022工作TS2Vec。
领取专属 10元无门槛券
手把手带您无忧上云