首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

大数据能力提升项目|学生成果展系列之六

导读 为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。 回首2022年,清华大学大数据能力提升项目取得了丰硕的成果,同学们将课程中学到的数据思维和技能成功

02

700篇参考文献的模拟智能论文

模拟已经成为各学科研究人员探索复杂动态系统在各种条件下的行为的不可或缺的工具[1],包括假设或极端条件,以及在气候[2,3,4],生物[5,6],社会政治[7,8]和其他具有重大后果的环境中越来越多的临界点。然而,在许多环境中,模拟器(以及广义的建模工具)的实用性受到了限制。首先,尽管硬件的进步使模拟能够模拟日益复杂的系统,但计算成本严重限制了几何细节的水平、物理的复杂性和模拟器运行的次数。这可能导致简化假设,这往往使结果无法用于假设检验和实际决策。此外,模拟器存在固有的偏 见,因为它们只模拟它们被编程来模拟的东西;对于昂贵的模拟器,灵敏度和不确定性分析通常是不切实 际的;模拟代码由低级机械组件组成,这些组件通常是不可微的,并导致难以处理的可能性;模拟器很少能与真实世界的数据流集成,更不用说在线运行实时数据更新了。人工智能(AI)和机器学习(ML)在科学领域的最新进展推动了人工智能/机器学习在科学领域(除了发现高维数据中的模式)的几个关键目标方面的进展。这些进展允许我们将先验知识或领域知识导入 ML 模型,并将 知识从已学模型输出回科学领域;利用 ML 解决数值上难以处理的模拟和优化问题,以及最大化真实世界数据的效用;生成无数的合成数据;量化和推理模型和数据中的不确定性;并推断数据中的因果关系。正是在人工智能和模拟科学的交汇处,我们可以期待在基本上所有领域的科学实验和发现方面取得重大进展。例 如,使用神经网络加速气候科学的模拟软件[9],或多代理强化学习和经济政策模拟的博弈论[10]。然而,这个领域相对来说是新生的和不同的,需要一个统一的整体视角来推进人工智能和模拟科学的交叉。本文探讨了这一观点。我们列出了在科学模拟和人工智能方面取得重大进展所需的方法,以及它们必须如何有效地结合。当 Phillip Colella 在 2004 年向 DARPA 提出科学计算的“七个小矮人”时,科学计算领域也处于类似的转折点,其中七个小矮人中的每一个都代表一种捕捉计算和数据移动模式的算法方法[11,12,13]。ii 在本文的剩余部分,我们选择用“基序”代替一个潜在的不敏感术语,这是我们对该领域未来发展的建议。事实证明,motifs 命名法对于在广泛的应用中对这些方法的行为和要求进行高层次的抽象推理是有用的,同时将这些方法从具体的实现中分离出来。更重要的是,这是一个可以理解的跨学科交流的词汇。Motifs 也提供了“反基准”:不局限于狭隘的性能或代码工件,因此鼓励算法、编程语言、数据结构和硬件的创新[12]。因此,科学计算的主题为 R&D 在科学中的数值方法(以及最终的并行计算)的努力提供了一个清晰的路线图。在本文中,我们同样定义了模拟智能的九个主题,互补算法方法的类别,它们代表了协同模拟和人工智能技术促进科学发展的基础;模拟智能(SI)描述了一个融合了科学计算、科学模拟和人工智能的领域,旨在通过计算机研究过程和系统,以更好地理解和发现现场现象。每个 SI 主题都有来自科学计算和人工智能社 区的动力,但必须协调一致地追求和集成,以克服科学模拟器的缺点,并实现新的科学工作流。不像科学计算的老七个主题,我们的 SI 主题不一定是独立的。其中许多都是相互联系和相互依赖的,就像操作系统各层中的组件一样。各个模块可以组合在一起,并以多种方式进行交互,从而从这种组合中获益。使用这一比喻,我们探索了“SI 堆叠”每一层的性质、每一层中的图案,以及当它们组合在一起时可用的组合可能性——这些层如图 1 所示。我们首先描述 SI 堆栈的核心层,详细介绍其中的每个主题:概念、挑战、最先进的方法、未来方向、伦理考 虑和许多激励人心的例子。当我们遍历 SI 堆栈,遇到众多模块和科学工作流程时,我们将最终能够展示这些进步将如何使模拟和科学工作的许多用户受益。我们的讨论继续涵盖重要的 SI 主题,如逆问题解决和人机合作,以及基本的基础设施领域,如数据工程和加速计算。

03

基于大数据分析的异常检测方法及其思路实例

1 概述 随着人类社会信息化程度的不断深入,信息系统产生的数据也在呈几何级数增长。对这些数据的深入分析可以得到很多有价值的信息。由于数据量太大以及数据属性的多样性,导致经典的统计分析方法已经无法适用,必须采用以机器学习理论为基础的大数据分析方法。目前,大数据分析的方法已经被广泛用于商业智能(BI)领域,并取得了令人非常满意的效果。这种方法同样可以应用在信息安全领域,用于发现信息系统的异常情况(入侵和攻击、数据泄露等)。利用大数据分析的方法发现异常事件,需要满足几个条件:1)行为日志在内容必须足够详细,可以从

06
领券