综述 | 大语言模型在时序预测和异常检测中的应用

VachelHu

发布于 2024-03-07 16:12:24

8550

发布于 2024-03-07 16:12:24

文章被收录于专栏：时序人时序人

这篇系统文献综述全面考察了大型语言模型（LLM）在预测和异常检测方面的应用，重点分析了目前的研究现状、固有挑战和未来可能的发展方向。

大型语言模型在解析和分析大量数据集以识别模式、预测未来事件以及检测各种领域的异常行为方面已显示出巨大潜力。然而，这篇综述也指出了阻碍其更广泛采用和有效性的几个关键挑战，包括对大型历史数据集的依赖、在不同上下文中的泛化问题、模型幻觉现象、模型知识边界内的局限性以及所需的庞大计算资源。通过详细分析，这篇综述讨论了克服这些障碍的潜在解决方案和策略，如整合多模态数据、改进学习方法以及强调模型的可解释性和计算效率。

此外，这篇综述还概述了可能塑造这些领域中大型语言模型演变的关键趋势，包括实时处理的推动、可持续建模实践的重要性以及跨学科合作的价值。最后，这篇综述强调了大型语言模型在预测和异常检测方面可能产生的变革性影响，同时强调了需要不断创新、考虑伦理问题和实用解决方案，以实现其全部潜力。

论文标题：Large Language Models for Forecasting and Anomaly Detection: A Systematic Literature Review

论文地址：https://arxiv.org/abs/2402.10350

综述介绍

本研究着手全面探索LLMs在预测和异常检测领域的整合和潜力，这些领域传统上由定量数据分析主导。LLMs在自然语言处理（NLP）中的迅速发展提供了一个前所未有的机会来增强甚至可能革新这些领域。本文旨在弥合LLMs先进的语言处理能力与预测分析和检测离群点中涉及的预测分析之间的差距。我们深入探讨了从LLMs中获得的定性见解如何补充传统的定量方法，从而丰富了在包括金融、网络安全和医疗保健在内的各个领域的分析深度和准确性。此外，这项调查还讨论了在LLMs与这些关键数据科学应用交叉点的挑战、伦理考虑和未来研究方向。我们的目标是提供一个全面的视角，不仅阐明了LLMs在这些领域的应用现状，还激发了跨学科的对话和研究，导航现代数据环境的复杂性，并为预测分析铺平了创新解决方案的道路。

论文章节结构如下：

第2节概述进行系统性文献综述的方法论
第3节 LLMs在预测和异常检测研究当前状态的概览
第4节讨论将LLMs应用于这些领域的挑战和限制
第5节探讨在基于LLM的预测和异常检测中使用的数据集和数据预处理技术
第6节介绍评估LLMs在这些任务中表现的评估指标和方法
第7节深入探讨LLMs在预测中的应用
第8节专注于它们在异常检测中的应用
第9节讨论使用LLMs在这些领域中可能面临的潜在威胁和风险
第10节概述LLMs在预测和异常检测应用中的未来方向和潜在研究途径
第11节提供相关工作的概览
第12节总结

本文重点整理分享该综述的第3-6节内容，完整内容可自行查阅论文了解。

概览

LLM领域的广阔范围已经为自然语言处理带来了前所未有的进步，对包括预测和异常检测在内的各种任务产生了重大影响。本节提供了对LLM当前状态和演变的全面概述，详细描述了它们的基础结构、发展轨迹以及它们在变革数据分析和预测建模中所起的关键作用。

语言模型的演进历程

1）统计语言模型

统计语言模型（Statistical Language Models, SLMs）是20世纪90年代发展起来的，它们基于统计理论，如马尔可夫链（Markov Chains）。这些模型使用概率方法来预测句子中的下一个词。统计语言模型的基本假设是每个词的概率仅取决于其前面的几个词。这种依赖关系的长度是固定的，形成了N元模型中的n。统计语言模型包括一元模型（Unigram）、二元模型（Bigram）和三元模型（Trigram），每种模型都有其独特的操作原理。

虽然统计语言模型（SLMs）计算成本低、易于实现且可解释性强，但它们无法捕捉长期依赖关系和单词之间的语义关系，这限制了它们在复杂语言任务中的应用。随着深度学习和神经网络的发展，人们开始探索更先进的语言模型，如循环神经网络（RNN）和Transformer，以克服这些局限性并实现更准确的自然语言处理。

2）神经网络语言模型

随着神经网络的发展，神经网络语言模型（Neural Network Language Models, NNLM）展示了比统计语言模型更强的学习能力，克服了N元语言模型的维度灾难问题，并大大提高了传统语言模型的性能。神经网络的高级结构使其能够有效地建模长距离上下文依赖关系。

FFNNLM：前馈神经网络语言模型
RNNLM：循环神经网络语言模型
LSTM-RNN：长短期记忆网络
ELMo：从语言模型学习嵌入

3）注意力机制（Attention Mechanism）

注意力机制首次由Bahdanau等人于2014年提出。该机制的目的是解决RNN中发现的瓶颈问题，即RNN仅支持固定长度的输入（随着句子长度的增加，需要携带的信息量也会增加，因此固定大小的嵌入可能不足以表示）。本文为翻译任务提出了一种结构，其中Seq2Seq中的编码器被双向循环网络（BiRNN）所替代，而解码部分则基于注意力模型。

由于注意力机制赋予了模型区分和识别的能力，因此它被广泛应用于各种应用中，包括机器翻译、语音识别、推荐系统和图像标注。同时，注意力机制本身可以作为一种对齐关系，解释翻译中输入/输出句子之间的对齐关系，并解释模型学到了哪些知识。

最典型的注意力机制包括自注意力机制、空间注意力机制和时序注意力机制。这些注意力机制允许模型为输入序列中的不同位置分配不同的权重，以便在处理每个序列元素时专注于最相关的部分。

自注意力机制（Self-Attention Mechanism）
多头注意力机制（Multi-head Attention Mechanism）
通道注意力机制（Channel Attention Mechanism）
空间注意力机制（Spatial Attention Mechanism）

4）Transformer

Transformer模型于2017年提出，其方案引起了对自注意力机制的广泛关注，进一步推动了注意力机制的发展。

过去，自然语言处理领域主要依赖循环神经网络（RNN）和卷积神经网络（CNN）等模型来处理序列数据。然而，这些模型在处理长序列时常常面临梯度消失和计算效率低等问题。Transformer的出现打破了这一局限。Transformer抛弃了传统的递归结构，采用了一种新的自注意力机制，以更高效、更准确的方式处理序列数据，实现了每个位置的独立并行计算。这一特性与现代AI加速器的能力完美契合，从而提高了模型计算的效率。这一创新不仅加速了模型的训练和推理，还为分布式应用开辟了可能性。

预训练基础模型

预训练基础模型已成为现代自然语言处理的基石，标志着语言理解和生成新时代的到来。本节将探讨这些模型的起源、发展和影响，这些模型的特点是通过在多样化和大规模数据集上进行广泛预训练来获得庞大的知识库。我们将深入了解其架构背后的机制，主要关注如GPT、BERT及其后续模型等transformer模型，这些模型已在众多NLP任务中展现出卓越的通用性和性能。

1）BERT

BERT（Bidirectional Encoder Representations from Transformers）通过引入双向概念，创新地预测了前后文的内容。作为一种预训练模型，BERT显著提高了学习效率，因为它在实际应用中只需要很少的参数进行微调。在结构上，BERT相对简单，Bert-Base和Bert-Large模型分别由12个和24个重复的基本transformer块组成。transformer块由三个模块组成：多头注意力、Add&Norm和FFN。虽然原始的transformer使用了三角位置编码，但BERT采用了可学习的位置编码，预设位置计数为512，从而限制了最大序列长度为512。

BERT利用两种无监督的预训练任务：Masked LM和Next Sentence Prediction。在Masked LM中，一些单词被掩码，网络根据上下文预测它们的意义；而在Next Sentence Prediction任务中，模型需要判断两个句子是否连续。值得注意的是，BERT在处理连续的Mask Tokens时面临挑战，并不直接适用于可变长度文本生成任务。

2）GPT-1

GPT-1的历史可以追溯到开创性的论文“Attention is all you need” 。该论文中，Transformer被分为两部分：编码器和解码器，两者都执行多头自注意力机制，尽管编码器能够观察整个源序列的信息，而解码器则不能。BERT模型适用了编码器，并在设计预训练任务时，它基于上下文预测缺失的中间词，类似于填空。相比之下，GPT-1则利用了解码器，该解码器基于之前的上下文预测下一个上下文，从而使其能够有效地执行掩码多头自注意力。

在预训练语言模型（PLM）范式中，存在两个阶段：预训练和微调。预训练阶段涉及从大规模语料库中生成上下文预测。微调阶段涉及使用下游数据训练模型，并将最后一个token的嵌入输入到预测层中，以适应下游数据的标签分布。随着层数的增加，模型的准确性和泛化能力继续提高，并且有可能进一步改进。此外，GPT-1具有固有的零样本学习能力，并且这种能力与模型的大小协同增强。正是这两点直接促成了后续GPT模型的出现。

3）GPT-2

GPT-2是GPT-1的增强版本，基于Transformer架构进行语言建模。GPT-2可以从大规模未标记数据中训练模型，并且微调过程可以增强模型性能，使其针对下游任务进行优化。在GPT-2中，语言模型在零样本场景中得到了更大的强调，这意味着模型在应用之前未针对下游任务进行训练或微调。GPT-2与GPT-1的一个区别在于，GPT-2不需要针对不同任务进行微调。相反，它转换了下游任务的输入序列。GPT-1引入了特殊的令牌，如开始和分隔符符号，但由于模型在未经过额外训练的情况下无法识别这些符号，因此零样本场景阻止了它们用于微调下游任务。因此，在零样本设置中，不同任务的输入序列将与训练期间看到的文本相似，以自然语言的形式呈现，没有任务特定的标识符。

4）GPT-3

GPT-3继续沿用了之前模型的理念，即排除微调，专注于通用语言模型。然而，在技术实现上有一些新的改进：GPT-3引入了Sparse Transformer中的稀疏注意力模块，旨在减少计算负载。由于GPT-3的参数规模相比GPT-2进一步增加，达到了惊人的1750亿个参数，因此这种适应是必要的。

在处理下游任务时，GPT-3采用了一种少样本方法，无需进行微调，展示了不同参数规模之间在准确性方面的显著差异，并突显了大型模型的非凡能力。GPT-3的训练数据包括质量较低的Common Crawl数据集，以及质量较高的WebText2、Books1、Books2和Wikipedia数据集。GPT-3根据数据集的质量分配不同的权重，质量较高的数据集在训练过程中被采样的可能性更大。

5）InstructGPT (GPT-3.5)

根据论文[149]，InstructGPT模型旨在增强模型输出与用户意图之间的对齐。尽管GPT-3在多种NLP任务和文本生成方面表现出色，但它仍然可能生成不准确、误导性和有害的信息，对社会产生负面影响。此外，GPT-3通常不会以人类受众可接受的形式进行沟通。因此，OpenAI引入了“对齐”（Alignment）的概念，旨在使模型输出与人类偏好和意图保持一致。

InstructGPT为理想的语言模型定义了三个关键目标：有用、诚实和无害。为了实现这些目标，InstructGPT需要对其模型进行两轮微调：从GPT-3到监督微调（Supervised Fine-tuning，简称SFT），然后再到强化学习（Reinforcement Learning，简称RL）。通过SFT模型，它可以解决GPT-3无法根据人类指令保证答案、提供帮助以及生成安全响应的问题，而无需手动标注数据来精炼答案。使用奖励模型，引入了一种基于排名的判别性标注，其成本远低于生成性标注。此外，通过利用强化学习能力，模型能够更深入地理解人类意图。

6）GPT-4

根据论文和实验[3]，GPT-4在GPT模型规模和训练方法上都有了显著的提升，与GPT-3相比，其参数超过了一万亿。GPT-4模型采用了一种名为“从人类反馈中强化学习”（Reinforcement Learning from Human Feedback，简称RLHF）的新型训练技术，能够以更自然和准确的方式生成文本。RLHF结合了预训练和微调策略，通过与人类操作员进行交互式对话来进行强化学习训练。这增强了GPT-4对上下文和问题的理解，并提高了其在特定任务上的性能[150, 151, 152]。总的来说，GPT-4沿用了ChatGPT的训练策略，基于预训练、提示和预测的原则。

GPT-4引入了三大重要增强功能：

实施基于规则的奖励模型（RBRM）：这一模型有助于更精确地指导模型的训练过程，使其输出更符合人类的期望和偏好。
集成多模态提示学习：这一功能使GPT-4能够支持各种形式的输入，包括图像和文本，从而大大扩展了其应用范围。
融入链式思考机制：这一机制增强了模型在思考过程中的整体连贯性，使其能够更好地理解和生成复杂的文本内容。

7）AI21 Jurassic-2

根据网站[156]上的文档，Jurassic-2是一个可定制的语言模型，旨在推动自然语言用例的发展，被认为是世界上最大、最复杂的模型之一。Jurassic-2是在Jurassic-1的基础上开发的，包括三种不同规模的基础模型：Large、Grande和Jumbo。除了对文本生成、API延迟和语言支持的全面改进之外，Jurassic-2还提供了命令微调和数据微调功能，以帮助企业和个人开发者创建定制化的ChatGPT助手。这一功能为各种应用场景提供了极大的灵活性和实用性。

8）Claude

根据网站介绍[157]，Claude是由Anthropic开发的一款人工智能助手，拥有愉悦的性格和丰富的个性，旨在为用户提供准确的信息和答案。Anthropic成立于2021年，由前OpenAI成员Dario Amodei、Daniela Amodei、Tom Brown、Chris Olah、Sam McCandlish、Jack Clarke和Jared Kaplan等人共同创立。他们在语言模型领域拥有丰富的经验，并参与了如GPT-3等模型的开发。该公司的主要投资者是谷歌，已向其投资了3亿美元。

目前关于Claude的信息还不多，但Anthropic的研究论文提到了AnthropicLM v4-s3作为一个已经训练的520亿参数模型。该模型是一个在大型文本语料库上进行无监督训练的自回归模型，类似于GPT-3模型。为了生成微调后的输出，Anthropic使用了一种名为“Constitutional AI”的独特过程，该过程使用模型而不是人类。

9）BLOOM

BLOOM，全称为BigScience Large Open-science Open-access Multilingual Language Model，是一个拥有1760亿参数的语言模型，已经在59种自然语言和13种编程语言上进行了训练。BLOOM的每个组件都经过精心设计，包括训练数据、模型架构、训练目标以及分布式学习的工程策略。该模型基于对Megatron-LM GPT2的修改进行训练，并使用Megatron-DeepSpeed进行训练。

该模型分为两部分：Megatron-LM提供Transformer实现、张量并行性和数据加载原始功能，而DeepSpeed提供ZeRO优化器、模型管道和一般的分布式训练组件。通常，它主要利用仅解码器结构、词嵌入层的归一化、带有GeLU激活函数的线性偏置注意力位置编码等。目前，它是世界上最大的开源语言模型，并且在许多方面都是透明的，公开了用于训练的材料、开发过程中遇到的困难以及评估其性能的方法。

10）Hugging Face

Hugging Face 是一个专注于自然语言处理（NLP）和人工智能（AI）的平台。目前，该平台托管了超过 320,000 个模型和 50,000 个数据集，为全球机器学习从业者提供了协作开发模型、数据集和应用的机会。

Hugging Face 拥有一个丰富的预训练模型和代码仓库，广泛应用于学术研究。它帮助人们跟踪流行的新模型，并提供了一种统一的编码风格，用于使用各种不同的模型，如 Bert、XLNet 和 GPT。其 Transformers 库也在 GitHub 上开源了，为不同任务提供了预训练模型和微调模型。

任务分类

大型语言模型（LLMs）的通用性通过它们在各种任务中的应用得到了展示，每个任务都呈现出独特的挑战和创新机会。本节将分类并探讨LLMs在两个关键领域所扮演的具体角色：预测和异常检测。

在预测方面，我们探讨LLMs如何利用历史数据和语言模式来生成具有显著准确性的见解，从而有助于预测未来事件、趋势和行为。这包括从直接应用于零样本或少量样本上下文到更复杂的微调和混合策略的方法。

另一方面，异常检测突显了模型识别数据中异常值或异常模式的能力，这对于安全、质量控制和运营效率至关重要。通过详细探讨这些任务，我们旨在阐明LLMs所采用的方法论和方法，包括从直接应用于零样本或少量样本上下文到更复杂的微调和混合策略。

方法

LLM（大型语言模型）在各种任务中的应用，包括预测和异常检测，涉及一系列创新方法，每种方法都旨在优化性能和准确性。本节深入探讨了利用LLM的核心方法论，概述了在发挥LLM潜力方面最为有效的策略。

我们首先讨论基于提示的方法（prompt-based methods），它涉及设计输入提示，以引导模型生成所需的输出，展示了与LLM交互时固有的灵活性和创造性。随后，我们转向微调（fine-tuning），这是一个调整预训练模型参数的过程，以更好地适应特定任务或数据集，从而增强其适用性和精确性。

对零样本学习（zero-shot learning）、一次学习（one-shot learning）和少量样本学习（few-shot learning）的探索突显了LLM在几乎没有或没有任务特定数据的情况下执行任务的能力，展示了其非凡的适应性。重编程（Reprogramming）引入了一种修改输入数据的方式，以利用模型的潜在知识而不改变其参数，为模型利用提供了一种创新的视角。

最后，我们研究了结合多种技术的混合方法（hybrid approaches），展示了LLM应用方法的动态和不断发展的景观。本节旨在提供对部署LLM的多样化方法的全面理解，为在NLP和更广泛领域解决复杂挑战时有效利用它们奠定基础。

挑战与限制

在预测和异常检测领域，LLM的应用代表着利用海量数据进行预测性分析的范式转变。然而，这一方法面临着由时间序列数据的固有特性、缺乏标记实例、缺失值的普遍存在，以及处理嘈杂和非结构化文本数据的复杂性所带来的重大挑战。这些障碍要求我们具备深入的理解和创新的方法论，以充分发挥LLM在这些应用中的潜力。

复杂的季节性和模式

在时间序列数据中建模复杂的季节性和模式，是将LLM应用于预测和异常检测任务的一个巨大挑战。时间序列数据可以表现出各种各样的季节性行为，从简单的年度周期到跨越多个时间分辨率（如每日、每周和每月波动）的复杂模式。这些模式之间还可能相互作用，形成难以预测的复杂季节性动态。

应对复杂季节性的主要挑战之一是要求LLM不仅能够识别这些模式，还要理解其根本原因和相互作用。传统模型可能难以捕获这种复杂性，除非进行大量定制或包含特定领域的知识。凭借其庞大的参数空间和深度学习能力，LLM有可能通过从包含完整季节性变化范围及其相关因素的大型数据集中学习来解决这个问题。然而，这需要大量的高质量、细粒度数据，这些数据跨越多个季节性周期，以有效地训练这些模型。

此外，假期、经济波动和天气条件等外部因素的存在进一步增加了季节性建模的复杂性。这些因素可能会在时间序列中引入额外的变化，使得隔离和预测季节性对数据的影响变得具有挑战性。为了在这些条件下进行准确的预测，LLM必须能够将外部数据源和上下文信息整合到其预测中。这需要先进的数据处理能力，以及推断因果关系和随时间适应变化条件的能力。

复杂性的另一个方面来自不同季节性模式之间的非线性相互作用。例如，一个假期对消费者行为的影响可能会因其发生的星期几或与其他事件的接近程度而有很大差异。捕捉这种非线性和相互作用对于准确预测和异常检测至关重要，这需要能够考虑广泛依赖关系和条件效应的复杂建模技术。

总之，使用LLM应对时间序列数据中的复杂季节性和模式挑战需要多方面的方法，包括开发能够从大型和多样化的数据集中学习的模型，整合外部因素和上下文信息，以及建模非线性相互作用和依赖关系的能力。在这些努力中取得成功可以显著提高预测和异常检测的准确性和可靠性，为各个领域的预测分析解锁新的可能性。

标签不足

标签不足是在部署LLM进行预测和异常检测任务时面临的一个重大挑战，特别是在标签数据稀缺或难以获得的领域。在异常检测中，由于异常事件本质上较为罕见，因此在训练数据集中不太可能出现，这导致了标签数据的稀缺性。缺乏标记的示例会阻碍模型学习区分正常和异常行为的微妙模式，从而导致准确性降低，误报或漏报增加。

在预测的背景下，标签不足的挑战来自于需要用历史数据训练模型，而这些历史数据可能不包含未来事件或结果的明确标签。虽然某些预测任务可能可以访问过去时间段的标记数据，但未来时间点的标签缺失使得评估预测的准确性以及对与未来事件相关的特定模式进行模型训练变得困难。

为了解决标签不足的问题，可以采取一系列策略，包括使用无监督学习或自监督学习方法来从未标记的数据中提取有用的信息，利用迁移学习从相关任务中转移知识，以及使用数据增强技术来生成更多的标记数据。此外，还可以探索使用半监督学习方法，这些方法能够结合少量的标记数据和大量的未标记数据来提高模型的性能。

然而，值得注意的是，尽管这些策略可以缓解标签不足的问题，但它们可能无法完全消除其影响。因此，在设计和实施基于LLM的预测和异常检测系统时，应仔细考虑数据可用性、标记成本以及模型的复杂性和泛化能力，以确保系统在实际应用中能够达到所需的性能水平。

为了应对标签不足的问题，机器学习社区已经提出并采用了多种策略：

半监督学习
数据增强
迁移学习

目前，迁移学习已成为解决标签不足问题的一个强大方案。尽管有这些策略，标签不足的挑战仍然是LLM在预测和异常检测任务中有效应用的一个重大障碍。半监督学习、数据增强和迁移学习等更先进技术的开发仍然是研究的关键领域。此外，探索利用未标记数据的创新方法，如不依赖标记示例的无监督异常检测方法，可能为克服标签稀缺性带来的限制提供新的途径。

时间序列中的缺失数据

在应用LLM进行预测和异常检测时，处理时间序列中的缺失数据是一个关键的挑战。缺失数据可能来自多种来源，包括设备故障、数据传输错误或简单地说是数据采集中的空白。如果这些缺失值没有得到妥善处理，它们可能导致预测和分析的不准确。由于时间序列数据的顺序性质，其中时间依赖性和模式在预测和异常检测任务中起着至关重要的作用，这使得问题进一步复杂化。

管理缺失数据的一种常见方法是通过插补，即基于可用数据填充缺失值。插补的复杂性取决于缺失数据的量和类型，以及时间序列中存在的模式和依赖性。对于时间序列数据，简单的插补方法（如均值或中位数插补）通常是不够的，因为它们无法捕捉时间动态。更复杂的技术，如线性插值或针对时间序列的特定方法（如基于ARIMA的插补），可以通过利用数据的时间结构提供更好的结果。然而，当处理非线性模式或长时间段的缺失数据时，这些方法可能仍然不足。

为了更有效地处理时间序列中的缺失数据，可能需要结合多种插补方法，或者采用更先进的机器学习技术，如基于深度学习的序列到序列模型，它们可以学习复杂的模式和依赖性，并从有限的标记数据中学习。此外，探索如何结合未标记数据或开发专门处理缺失数据的不监督学习方法，可能为解决这一问题提供新的途径。

尽管LLM在处理缺失数据方面具有潜力，但仍存在几个挑战。确保插补值的质量和可靠性至关重要，因为不准确的值可能会在后续分析中传播并导致误导性的结论。此外，使用LLM进行插补的计算复杂性可能是显著的，特别是对于大型且缺失数据广泛的数据集。还需要仔细进行模型调优和验证，以避免过度拟合，并确保插补方法在不同的时间序列之间具有良好的泛化性。

嘈杂和无结构的文本数据

在涉及LLM进行预测和异常检测的应用中，嘈杂和无结构的文本数据所带来的挑战尤为明显。无结构的文本，包括社交媒体帖子、新闻文章和日志文件等各种格式，通常包含大量的噪声——无关的信息、拼写错误、俚语和模糊的表达方式，这些都可能掩盖了有意义的信息。这些噪声使得提取对准确预测和异常识别至关重要的有价值特征和模式变得复杂。

为了有效地利用LLM处理嘈杂和无结构的文本数据，全面的数据预处理方法是必不可少的。这包括通过纠正拼写错误、标准化术语和过滤掉无关信息来清理数据。这些预处理步骤对于减少数据中的噪声并使其更适合LLM分析至关重要。然而，挑战在于执行这些步骤时，不丢失可能对于当前任务至关重要的重要上下文或微妙信息。

除了预处理之外，从非结构化文本中提取特征也是另一个重大挑战。传统方法可能无法充分捕捉数据的复杂性和丰富性，从而限制了模型基于文本进行理解和预测的能力。具有先进自然语言处理能力的LLM通过直接从文本中自动识别和提取相关特征，为解决这个问题提供了有前景的方案。它们能够辨别不易察觉的模式、情感和关系，从而更深入地理解数据。

然而，利用LLM从嘈杂和无结构的文本中提取特征也需要仔细地进行模型调优和验证。模型必须在足够多样化的数据集上进行训练，以确保它们能够很好地泛化到不同类型的文本和噪声水平。此外，还需要有机制来评估提取特征的相关性和重要性，因为并非从文本中获取的所有信息都对预测或异常检测有用。

整合外部知识库和本体论是另一种可以增强LLM处理非结构化文本性能的策略。通过提供额外的上下文和背景信息，这些资源可以帮助模型更有效地消除歧义并解释复杂或模糊的文本。然而，将这些外部源整合到建模过程中会增加额外的复杂性，并引发关于解决方案的可扩展性和适应性的问题。

数据集

在预测和异常检测研究领域，高质量数据集的可获得性是推动进展的关键因素。这些数据集不仅促进了有效检测算法的快速开发和微调，还为评估方法性能提供了基准。然而，获取此类数据集往往需要大量的资金、物资和人力投入。目前，该领域尚处于早期发展阶段，面临着数据量少、样本特征复杂和标签缺失等关键挑战，这些都严重限制了有效方法的发展。

本节将重点介绍近期研究中用于LLM预测和异常检测的主要数据集，并对这些数据集进行评估。评估的目的是指出数据集生成中普遍存在的局限性和挑战，旨在为这一领域未来数据集的创建提供指导。通过了解现有数据集的优缺点，研究人员可以更有针对性地设计和改进数据集，以满足预测和异常检测任务的需求，从而推动该领域的进一步发展。

预测

在预测领域，数据集的属性对于确定预测模型的成功和准确性至关重要。关键特性包括时间分辨率和范围，其中时间间隔的粒度和数据集覆盖的整体时间跨度对于捕捉必要的细节和趋势至关重要。数据集的完整性和连续性同样重要；数据集应避免出现空白和缺失值，以避免不准确和需要复杂的插补技术。数据中的变异性和多样性确保模型暴露于各种场景，从而增强其泛化能力和在不同条件下的性能。非平稳元素的存在会导致统计属性随时间变化，这构成了重大挑战，必须仔细考虑和解决。季节性和周期性模式也同样重要，因为数据集必须捕获这些重复出现的行为，以便模型能够准确预测周期性波动。

在最近关于LLM用于预测的研究中，我们发现使用了以下数据集：

亚马逊评论（Amazon Review）数据集
Darts
电力消耗负荷（ECL）数据集
综合危机预警系统（ICEWS）数据集
Informer / ETT / ETDataset
M3
M4
Monash
文本时间序列（TETS）数据集

异常检测

在异常检测领域，数据集的特性对于塑造检测模型的效率和可靠性至关重要。异常检测任务的关键在于识别出与正常模式的偏差，因此，需要精心策划的数据集来捕捉这些细微差别。

此类数据集的主要特性之一是普通数据与异常数据的表示。数据集必须包含足够多的正常数据表示，以建立典型的行为基线。同样重要的是，要包含各种不同类型的异常。这些异常应该在性质、强度和持续时间上有所不同，以确保检测模型能够识别出广泛的偏差。

正常数据与异常数据之间的平衡也是一个关键因素。在实际场景中，异常通常是罕见的事件，这种罕见性需要在数据集中得到体现。然而，异常数据过少可能会阻碍模型有效学习检测它们的能力。因此，需要精心平衡以创建真实有用的数据集。

另一个关键方面是数据集的上下文丰富性。异常通常只有在特定上下文中才有意义，而数据集需要提供足够的上下文信息。这包括时间上下文，这对于识别基于时间的异常至关重要，以及其他领域特定的信息，有助于理解数据点的重要性。

数据的质量和清洁度也至关重要。异常检测模型可能对数据中的噪声和错误敏感。具有最小噪声和错误的高质量数据集对于开发稳健的模型至关重要。此外，存在已准确识别和分类的标记异常可以显著有助于训练和评估检测模型。

在最近关于异常检测的LLM（大型语言模型）研究中，以下数据集被确定为常用数据集：

Blue Gene/L (BGL)
Hadoop Distributed File System (HDFS)
OpenStack
Spirit
Server Machine Dataset (SMD)
Thunderbird
Yahoo S5

评估指标

评估指标是机器学习和统计分析中评估和比较模型必不可少的工具，尤其是在预测和异常检测等领域。在这些领域，一个模型根据历史数据预测未来值或识别偏离常态的不规则模式的能力至关重要。在这些情况下，指标作为模型性能的定量指标，有助于了解其预测准确性、可靠性和在各种条件下的鲁棒性。

定义

对于预测，常用平均绝对误差（MAE）、均方误差（MSE）和均方根误差（RMSE）等指标来衡量预测值与实际值之间的偏差，从而清晰地展示预测的准确性。此外，平均绝对百分比误差（MAPE）和对称平均绝对百分比误差（sMAPE）则提供了对相对预测误差的洞察，使它们在不同规模或数据集之间比较模型时特别有用。在此背景下，我们有以下定义：

：预测数据点的数量

：n ∈ {1, . . . , N }

：第n个真实值

：第n个预测值

在异常检测领域，重点转向有效识别异常值。精确率、召回率和F1分数变得至关重要，它们量化了模型正确识别异常（真阳性）的能力，同时最小化了误报（假阳性）和漏检（假阴性）。接收者操作特征曲线下的面积（AUROC）进一步提供了模型辨别能力的综合度量，平衡了不同阈值设置下真阳性率和假阳性率之间的权衡。在给定的范围内，定义如下：

真阳性（TP）：正确识别为阳性的数据样本总数。这指的是系统正确识别为异常的异常（或异常值）的数量。从本质上讲，这些是系统正确检测到与预期或正常情况有偏差的异常行为或模式的实例。
真阴性（TN）：正确识别为阴性的数据样本总数。这指的是系统正确识别为正常的正常实例的数量。换句话说，这些是系统准确识别出没有异常存在，行为或模式符合预期的情况。
假阳性（FP）：错误识别为阳性的数据样本总数。这发生在系统错误地将正常实例识别为异常时。假阳性本质上是误报，即系统将正常行为或数据标记为异常或可疑，而实际上并非如此。这可能导致不必要的调查或行动。
假阴性（FN）：错误识别为阴性的数据样本总数。这发生在系统未能识别出实际的异常作为异常时。在这些情况下，系统错误地认为异常行为或模式是正常的，可能会错过重要或关键的事件。

预测

在预测的背景下，采用了各种指标来精心评估预测模型的准确性和有效性。这些指标各有其独特的关注点和应用，是定量评估模型预测与实际结果之间吻合程度的关键工具。

1）平均绝对误差（MAE）

平均绝对误差（MAE）衡量了一组预测中误差的平均幅度，而不考虑误差的方向。它表示数据集中预测值与实际观测值之间绝对差异的平均值，对所有偏差赋予相同的重要性。

2）平均绝对百分比误差（MAPE）

MAPE通过将误差表示为总量的百分比来衡量预测的精确度。它是预测绝对百分比误差的平均值。这一特性使MAPE非常容易解释，但如果处理接近零的值，可能会产生误导。

3）对称平均绝对百分比误差（sMAPE）

sMAPE是MAPE的一个变体，具有对称性，即它对过度预测和不足预测给予相同的权重。由于sMAPE通过预测值和实际值之和来标准化误差，从而避免了除以较小数的问题，因此一些人认为它比MAPE更准确。

4）均方误差（MSE）

MSE计算预测值和真实值之间平方差异的平均值，以衡量平均误差幅度。由于每个项的平方，MSE会对更显著的误差赋予更大的权重，这在某些情况下特别有用，因为在这些情况下，较大的误差比较小的误差更不可取。

5）均方根误差（RMSE）

RMSE是均方误差的平方根。它是衡量模型预测值与观测值之间差异幅度的一个指标。通过对MSE取平方根，RMSE将单位转换回原始输出单位，使得解释更容易。

6）均方根百分比误差（RMSPE）

RMSPE是一种标准化指标，表示实际值与预测值之间百分比误差的平方的平均值。由于它不依赖于数据的规模，因此对于比较不同数据集之间的预测误差非常有益。当从实际值的百分比角度检查误差时，RMSPE尤其具有洞察力，可以清晰地展示误差的相对大小。

7）平均绝对缩放误差（MASE）

MASE衡量预测相对于一个简单基准预测（通常是上一期的简单预测）的准确性。这种缩放使得MASE成为比较不同数据集上预测模型性能的一个出色工具，因为这些数据集具有不同的规模。MASE的一个特别优势在于它易于解释，并且不要求预测误差呈正态分布。

8）平均绝对范围相对误差（MARRE）

MARRE是一种评估绝对误差与数据集特定范围之间关系的指标，因此对于数据点范围显著的数据集特别有用。MARRE有助于理解在数据集整体变化背景下误差的大小。

9）总体百分比误差（OPE）

OPE将总误差汇总为实际总值的百分比。它提供了一个单一、全面的数字，反映了预测与实际观测值之间的整体准确性，提供了对预测性能的宏观视角。

10）根均方对数误差（RMSLE）

RMSLE用于衡量实际值与预测值之间的比率。在计算均方误差之前，先对预测值和实际值取对数，这样RMSLE可以减少显著误差的影响，并且相对于RMSE来说对异常值不那么敏感。当实际值和预测值都是较大的数字时，如果你不希望对巨大的差异进行惩罚，那么RMSLE特别有用。这使得RMSLE在预测金融数据、销售数据等具有较大数值范围的数据集时表现良好。

11）总体加权平均值（OWA）

OWA是M4预测竞赛中引入的一个特定指标，该竞赛旨在通过比较和评估多个时间序列数据集上各种预测模型的性能来推动预测领域的发展。OWA之所以特别引人注目，是因为它将准确性和可扩展性两个方面结合到一个单一的指标中，从而成为评估预测模型的综合度量。

OWA通过平均两个关键组件来计算：MASE和sMAPE。选择这两个指标是因为它们为预测性能提供了互补的视角：MASE提供了一个相对于简单基准预测的、与规模无关的错误度量，而sMAPE则提供了一个基于百分比的对称错误度量，该度量对过度预测和不足预测给予相同的权重。因此，OWA结合了这两个方面的优势，提供了一个全面、综合的预测模型评估方法。

在这个上下文中，MASENaive2和sMAPENaive2是指通过一种简单预测方法（Naive2）获得的MASE和sMAPE分数。Naive2通常是一种季节性简单方法，它使用同一季节的最后一个观测值作为预测值。与这种简单基准的比较使OWA能够反映预测方法相对于简单但普遍适用的基准的绝对和相对改进。这样，OWA不仅考虑了预测方法的绝对误差，还考虑了它在多大程度上优于一个基本的、易于实现的预测策略，从而提供了一个更全面、更实用的评估框架。

异常检测

在异常检测领域，模型的有效性在很大程度上取决于其识别异常值并准确最小化漏检和误报的能力。用于评估此类模型的关键指标包括准确率、精确率、召回率、真负率（TNR）、假正率（FPR）、假负率（FNR）、F1分数和AUROC。这些指标来源于真正例（TP）、真负例（TN）、假正例（FP）和假负例（FN）的基本概念，为评估异常检测系统的性能提供了全面的框架。

1）准确率

准确率衡量的是相对于整体样本大小评估的正确预测的比例，包括真正例和真负例。准确率是最直接且直观的性能指标，能够大致反映出模型正确的频率。尽管准确率很直观，但它并不总是异常检测的最佳指标，尤其是在异常很少的数据集（不平衡数据集）中。在这种情况下，模型可能会通过大部分时间预测多数类（正常）来实现高准确率，但同时会漏检许多异常。

2）精确率

精确率，也被称为正预测值，衡量的是在所有被识别为正例的样本中，真正为正例的样本所占的比例（正确和错误的正例）。在假正例成本较高的场景中，精确率至关重要。例如，在交易异常检测中，一个假正例（将合法交易标记为欺诈交易）可能会给客户带来不便并损害信任。高精确率表明，当模型预测为异常时，它很可能是一个真正的异常。

3）召回率/真正例率（TPR）

召回率，也被称为敏感度或真正例率（TPR），衡量的是实际为正例的样本中被模型正确识别为正例的比例，强调了模型捕获所有相关正例的能力。在异常检测的上下文中，高召回率意味着模型能够有效地检测出异常，这在漏检异常可能导致严重后果的情况下至关重要，例如在预测性维护或健康监测中。

4）真负例率（TNR）

真负例率（TNR），也被称为特异性，衡量的是实际为负例的样本中被模型正确识别为负例的比例，反映了模型识别负例的能力。高TNR意味着很少有正常实例被错误地标记为异常，这有助于减少误报并维持对系统预测的信任。

5）假正例率（FPR）

假正例率（FPR）衡量的是在所有实际为负例的样本中，被模型错误地预测为正例的样本所占的比例，即误报发生的频率。它是正常实例被错误地分类为异常的速率。在许多应用中，最小化FPR至关重要，以避免与误报相关的成本，例如资源浪费或不必要的焦虑。

6）假负例率（FNR）

假负例率（FNR）衡量的是在所有实际为正例的样本中，被模型错误地预测为负例的样本所占的比例，即模型的漏检率。它量化了模型未能检测到的异常数量。高FNR意味着许多异常没有被检测到，这可能导致在关键情况下错过干预的机会。

7）F1分数

F1分数是精确率和召回率的调和平均数，提供了一个单一的分数，平衡了精确率和召回率之间的权衡。它是评估模型整体性能的有用指标，尤其是在类别分布不均匀的情况下（例如，正常实例数量众多而异常实例数量较少）。在不平衡的数据集中，F1分数尤其有价值，因为真正例（TP）的数量远少于真负例（TN）的数量。

8）接收者操作特性曲线下的面积（AUROC）

AUROC（Area Under the Receiver Operating Characteristic）代表模型区分正类（异常）和负类（正常情况）的可能性。它反映了模型在不同阈值水平下正确分类结果的能力，提供了跨所有可能分类阈值的综合性能度量。AUROC作为一个综合指标，评估了模型在所有阈值下区分不同类别的能力。

ROC曲线（Receiver Operating Characteristic Curve）绘制了在不同阈值设置下真正例率（TPR）与假正例率（FPR）之间的关系。AUROC代表了模型随机选择一个正例的排名高于随机选择一个负例的概率。一个AUROC为1.0的模型是完美的，能够正确区分所有正例和负例；而一个分数为0.5的模型则没有判别能力，相当于随机猜测。

AUROC在异常检测中特别有用，因为它提供了关于模型在不同条件下性能的洞察力，有助于评估模型的泛化能力和鲁棒性。它有助于确定最佳的模型，该模型能够在尽可能多地检测异常（高TPR）的同时，将误报（高FPR）保持在最低水平。这在现实世界中非常关键，因为在这种情况下，假正例和假负例的成本可能会有很大的差异，选择一个能够平衡这些成本的操作点（特定的阈值）是至关重要的。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-03-05，如有侵权请联系 cloudcommunity@tencent.com 删除

模型