我们讨论了 SQL 对 Java 的优势,也就是集合化特性,我们现在再来看看 Java 比 SQL 有什么优势。 Java 的代码长是长了,看起来也乱,但仔细研读会发现,它描述的运算逻辑并不困难,基本上就是按部就班地实现业务目标。也就是说,Java 是书写繁琐,而不是思考困难。 但 SQL 却不一样,看懂每一个子查询的技术意义并不难,但你却很难明白它到底想干吗,是怎样为最终的业务目标服务的。也就是说,SQL 写起来要简洁一些,但思维难度却更大了。 这是为什么? 我们之前讲过一期 三行五行的 SQL 只存在于教科书和培训班 ,指出 SQL 有集合化不彻底、缺乏有序支持等问题,这些问题,以及 SQL 还有的其它问题,都有一个共同的根源,这导致虽然 SQL 的繁琐度低于 Java,但难度却更大。
今天给大家介绍的是挪威奥斯陆大学语言学系、免疫学系等机构在 arxiv 上发表的预印文章《ImmunoLingo: Linguistics-based formalization of the antibody language》在文章中作者提出了抗体语言的两步语言形式化,以指导可解释抗体LM(language model)设计:(1)识别抗体序列(类似物)共享的自然语言属性。(2)基于已识别的类似物(语言模型)形式化抗体语言。将抗体序列语言的语言形式化整合到预处理抗体LM中。作者表示通过这种方式可以使模型有更好的可解释性,同时保持统计处理大型非结构化数据的能力。
我们都知道mysql的索引使用B树来实现的,那么为什么会考虑B树,不考虑其他数据结构呢?
列的离散性(可以理解为差异性)=count(distinct col ) / count(col)
自动驾驶领域的环境感知通常是通过融合多个不同的传感器数据完成的。当前有很多标注过的开源RGB图像数据,同时出现了很多基于这些图像的识别算法。尤其是当前能够取得很好效果的高精度语义感知任务,通常是使用高分辨率相机完成的。这就使得,使用其他传感器的算法被大家所忽略。本文提出了一个表现SOTA使用纯激光数据的语义分割算法,以便为车辆提供另一个独立的语义信息源。本文的算法可以准确的分割完整的激光点云数据,可以达到激光的输出频率。本文为了使用传统的CNN网络,将原始的旋转式激光数据转换成深度图表示形式。为了获得精确的处理结果,本文提出了一种新颖的后处理算法,可有效的改善上面所述的深度图表示方法中存在的数据离散性问题和CNN输出结果模糊的问题。与当前表现SOTA的一些算法在实时性和准确性上进行了比较。实验结果显示本文的算法在单个嵌入式的GPU上仍在可以达到实时的效果,并且性能表现SOTA。
近年来,脑电微状态分析作为一种描述大规模电生理数据时空动态性特征的工具得到了广泛的应用。脑电微状态被认为存在两种假设:(1)“胜者为王”,即任何给定时间点的地形图都处于一种状态;(2)从一种状态离散地转换到另一种状态。在本研究中,我们从脑电数据的几何角度研究了这些假设,将微状态地形作为原始通道空间子空间的基向量。我们发现,微状态内和微状态间的距离分布在很大程度上是重叠的:对于低全局场强 (GFP)范围,标记为一个微状态的单个时间点通常与多个微状态向量等距,这挑战了“胜者为王”的假设。在高场强下,微状态的可分性有所改善,但仍然较弱。虽然许多GFP峰(用于定义微状态的时间点)出现在高GFP范围内,但与较差可分性相关的低GFP范围也包含GFP峰。此外,几何分析表明,微状态及其跃迁看起来更像是连续的,而不是离散的,传感器空间轨迹变化率的分析显示了渐进的微状态转变。综上所述,我们的发现表明,脑电微状态被认为在空间和时间上是连续的更好,而不是神经集群的离散激活。 1.背景 基于脑电地形图具有准稳定模式的发现,研究人员描述这些稳定的地形图为脑电微状态。脑电微状态分析被认为是研究许多认知过程的神经特征的有效方法,也是研究脑电动态性并将之与认知和疾病联系起来的一种有效的方法。 当前的微状态模型基于两个关键假设,其中之一就是在任何时间点都存在一个单一的状态,即“胜者为王”原则。在脑电数据的几何角度下,M通道脑电数据集可以概念化为M维空间,每个时间点的地形对应于该M维空间中的一个坐标。微状态分析也可以看作是一种降维技术,它将每个微状态概念化为一维子空间,即表征为传感器空间中的向量。目前,将脑电数据紧密分布在(少量)微状态向量周围的假设称为离散性假设。如果微状态分析的离散性假设成立,那么与每个微状态相关的数据点应该紧密地分布在其父向量的周围,并且快速过渡到另一个微状态。 本研究使用标准微状态分析并结合经验和仿真数据的正交投影距离来表明,在传感器空间中,一个微状态内的时间点不一定局限于其父微状态向量周围。相反,单个时间点的地形图可以接近于多个微状态,并且取决于全局场功率,并且随着时间的推移而平滑地改变。因此,本研究表明,时空离散性的假设可能不能准确地捕捉到微状态的本质。此外,我们还证明了主成分分析可以用来可视化3D中的数据分布,因为它保留了不同聚类之间和聚类内的距离。 2.材料与方法 2.1 数据描述 本研究中,我们分析了两个数据集。我们使用了68名对照组和46名抑郁症/高BDI组,数据以500 Hz重新采样。 2.2 实验装置 使用64通道神经扫描系统记录数据,电极布置符合10-10国际系统。 2.3 数据分析 使用MATLAB中的EEGLAB工具箱导入数据进行分析。这些数据最初有66个通道,其中60个通道被保留下来进行分析。在进一步分析之前进行平均参考。然后,对数据进行1-30 Hz的带通滤波。执行ICA后手动清理数据。去除无关的伪影成分。 2.4 微状态分析 微状态分析算法包括以下步骤: (1)我们使用L1范数来计算GFP。这产生了GFP的时间序列,它反映了随着时间推移地形中的总能量(图1A-B)。 (2)GFP(t)的局部最大值被送到改进的k-均值聚类算法(步骤3-7)(图1C)。我们选择了四个聚类进行分析。 (3)聚类过程从随机选择n个模板图开始,其中n是聚类或微状态图的数量。 (4)利用GFP峰值数据计算n个模板图的空间相关性。取空间相关性的绝对值确保结果不依赖于地形图极性。 (5)计算模板图的解释方差。 (6)重新定义模板图,通过从每个聚类中提取所有地形图的第一主成分来实现。 (7)重复步骤4至6,直到解释方差不随迭代次数增加而改善。 (8)选择一组新的n个随机选择的模板图,并重复步骤3到7。最后,选择解释方差最大的一组模板图作为最终的微状态向量。
哈希简单的理解,就是把一串长的数据变成一串短的数据,它有三个特点: 第一、它具有单向性。 我们只能够把长的数据计算成一个短的哈希,。我们不可能把哈希再推导出原来的数据,很多人很好奇区块链是怎么形成,比如区块打包以后,区块就会被计算出一个哈希,哈希会存放到下一个区块当中,下一个区块里面的哈希就把上一个区块给锁定了这就是传统中的哈希锁定,区块链的不可更改就是从这里面来的,因为是前面的区块更改了,后面区块里面存在哈希就不能够对应了,所以区块链它是每一个区块都对上一个区块进行的内容的锁定,这就是哈希锁定。
选自arXiv 机器之心编译 参与:Panda AAAI 2018 于 2 月 7 日在美国新奥尔良闭幕,本次会议收录了腾讯 AI Lab 共 12 篇论文。这里我们编译介绍了其中的《降秩线性动态系统(Reduced-Rank Linear Dynamical Systems)》;研究结果表明该方法可以稳健地从长度较短的、有噪声的、有计数值的数据中学习隐含空间。此外,作者也已经在 GitHub 上公布了他们用 Matlab 实现 RRLDS 的代码。 论文地址:http://yuan-gao.net/pdf
信号 是 信息的载体 , 从 数学角度 看 , 可以当做 随着 若干 物理参数 变化 而 变化 的 函数 ;
哈希函数用于将一个大数(手机号码)或字符串映射为一个可以作为哈希表索引的较小整数的函数。比如活动开发中经常使用的MD5和SHA都是历史悠久的Hash算法。
我们只能够把长的数据计算成一个短的哈希,我们不可能把哈希再推导出原来的数据,很多人很好奇区块链是怎么形成,比如区块打包以后,区块就会被计算出一个哈希,哈希会存放到下一个区块当中,下一个区块里面的哈希就把上一个区块给锁定了这就是传统中的哈希锁定,区块链的不可更改就是从这里面来的,因为是前面的区块更改了,后面区块里面存在哈希就不能够对应了,所以区块链它是每一个区块都对上一个区块进行的内容的锁定,这就是哈希锁定。
数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的 OLAP 和 OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。 我们知道,SQL是目前数据库的主流语言。那么,用SQL做这两件事是不是很方便呢?
数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的OLAP和OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。
数据库语言的目标 要说清这个目标,先要理解数据库是做什么的。 数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的 OLAP 和 OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。 我们知道,SQL 是目前数据库的主流语言。那么,用 SQL 做这两件事是不是很方便呢? 事务类功能主要解决数据在写入和读出时要保持的一致性,实现这件事的难度并不小,但对于应用程序的接口却非常简单,用于操纵数据库读写的代码也很
数据库语言的目标 要说清这个目标,先要理解数据库是做什么的。 数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的 OLAP 和 OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。我们知道,SQL 是目前数据库的主流语言。那么,用 SQL 做这两件事是不是很方便呢?事务类功能主要解决数据在写入和读出时要保持的一致性,实现这件事的难度并不小,但对于应用程序的接口却非常简单,用于操纵数据库读写的代码也很简单。
Hash一般翻译为散列,还有音译为哈希,本文我们统称为哈希(哈希=散列),通过百度以及谷歌都没有直接找到Hash的定义,而是找到了一些相关的概念,哈希算法,哈希函数,哈希表等概念。
数据库语言的目标 要说清这个目标,先要理解数据库是做什么的。 数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的 OLAP 和 OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。 我们知道,SQL 是目前数据库的主流语言。那么,用 SQL 做这两件事是不是很方便呢? 事务类功能主要解决数据在写入和读出时要保持的一致性,实现这件事的难度并不小,但对于应用程序的接口却非常简单,用于操纵数据库读写的代码也很简
数据库这个软件,名字中有个“库”字,会让人觉得它主要是为了存储的。其实不然,数据库实现的重要功能有两条:计算、事务!也就是我们常说的 OLAP 和 OLTP,数据库的存储都是为这两件事服务的,单纯的存储并不是数据库的目标。
现代Java应用架构越来越强调数据存储和处理分离,以获得更好的可维护性、可扩展性以及可移植性,比如火热的微服务就是一种典型。这种架构通常要求业务逻辑要在Java程序中实现,而不是像传统应用架构中放在数据库中。
索引能极大的减少 存储引擎需要扫描的数据量 索引 可以把随机IO 变成顺序IO 索引 可以帮助 我们在进行 分组、 排序等操作时,避免使用临时表
1.Compact 3D Gaussian Representation for Radiance Field
本文共2282字,建议阅读7分钟 本文为大家解读结构化数据的前沿动态。 [导读]数据库是当前数据分析中最重要的数据存在形式,但受其封闭性和关系代数四十年没有关键性发展等影响,现今很难满足多数据计算量的计算需求。演讲嘉宾蒋步星将针对结构化数据常见的集合和有序运算以及大数据计算等实际业务需求,分析探讨关系代数在描述和实施计算时面临的困难,研究结构化数据的计算特点后提出更有适应性的计算模型,并进一步形成更有开放性的计算能力提交方案,最后再简单分享对新一代数据仓库的展望。 本讲座选自润乾软件创始人蒋步星于2
我们工作中写SQL处理数据是家常便饭,不管是应用内数据处理还是临时查询分析都可以用SQL完成,相对其他技术(如Java等高级语言)也更简单。不过,SQL的简单只限于简单需求,有些复杂计算场景SQL写起来却很难,嵌套N层以至于达到几百上千行,说SQL代码长度时通常不会以行计而是以KB计。这种情况并不少见,相信经常写SQL的小伙伴并不陌生。
哈希算法就是把任意长度的输入变换成固定长度的输出,每个字节都会对输出值产生影响,且无法通过输出逆向计算得到输入。
对于新手来说,使用格雷码做单目结构光三维重建是一个入门级的训练。但是在复现时往往会遇到一个问题,明明解码都很不错了,重建后的点云精度却很低,甚至重建出来的平面点云出现断层现象。这是由于格雷码是一种离散型编码,编码精度是整数级的像素,这种编码设计注定了它的精度不会太高。所以在实际应用中,格雷码通常是配合着其他编码方式一起使用:比如使用格雷码来标示相移的周期数。
*注:此文专为21IC而著,可以转载,但需保留本说明,否则将可能导致版权追究 Proteus可能是本版面最受争议的软件之一,我骂他,同时也因为骂他而受别人骂,所以今天我就来告诉新同学们为什么Proteus是菜鸟杀手(老鸟请自觉跳过本帖,你们用不用Proteus都是那么回事)。
本文共12000字,建议阅读时间25分钟 本讲座选自北京润乾软件技术有限公司董事长蒋步星。于2015年5月22日在清华大学经管学院上所做的题为《关系代数的问题及尝试》的演讲。 讲座全文: 今天的内容分五个部分,开始先讲一下基本概念和背景;中间三部分都是数据分析的内容,这是今天的重点;最后一块研究得还不够深,但也涉及到关系代数,就放进来一起谈谈。 我们先从编程序谈起。 编程序到现在仍然并不是一件轻松的活。这里我们不去谈那些由于需求不清或变动而导致的困难,那是软件工程的目标。有一些问题,完全没有歧义
一是 集中程度,反映一组数据的普遍性,通常采用的统计量有平均数、中序数、中位数、众数等;
由上面的介绍我们知道,在处理涉及多个指标问题的时候,为了提高分析的效率,可以不直接对P个指标构成的P维随机向量
机器之心发布 机器之心编辑部 来自中科大、快手的研究者针对人脸伪造,提出了基于单中心损失监督的频率感知鉴别特征学习框架,将度量学习和自适应频率特征学习应用于人脸伪造检测,实现SOTA性能。 一:背景和动机 随着基于自编码器和生成对抗网络的图像生成技术的快速发展,以deepfake为代表的人脸伪造技术在娱乐大众的同时,也带来巨大的安全隐患。与之对应的,人脸伪造检测也逐渐成为计算机视觉领域研究的热点。 目前的检测方法大多数将伪造检测任务转化为二分类任务来处理,使用softmax loss[1] 监督网络在自然
我们讨论过代码编写的难和繁的原理问题,现在关注性能问题,运行速度当然是非常重要的事情。 我们知道,软件不能改变硬件的性能,CPU 和硬盘该多快就多快。不过,我们可以设计出低复杂度的算法,也就是计算量更小的算法,计算机执行的动作变少,自然也就会快了。本来要做 1 亿次运算,如果有个好算法能把计算量降低到 100 万次,那快出 100 倍就不奇怪了。但是,光想出算法还不够,还要把这个算法实实在在地用某种程序语言写出来,否则计算机不会执行。 然而,如果采用的程序语言不给力,就有可能真地写不出来,这时候就干瞪眼忍受低速度。
朴素贝叶斯分类器是机器学习中最基础的分类算法了,之前一直忽视这个算法,感觉这种简单利用贝叶斯公式的方法的确很Naive。但是事实上这个算法在对于特征相互独立的分类问题来说还是非常好用的。其基本思想就是在给定在各种情况下一个事件发生的先验概率的情况下,套用贝叶斯公式求出给定各种情况下给定事件发生的后验概率。思想非常简单,但是在某些情况下效果还是非常好的,值得掌握。
原文题目:Self-supervised Training of Proposal-based Segmentation via Background Prediction
在上一篇数据去重文中,介绍了使用hashtable这种数据结构实现对一组数据的去重操作,那么这种方式是否存在优化的空间?先来看一道题,给定一组整数无序数组,获取重复的数据 如:[1,2,3,1] 在数据去重第一篇文章中,使用的hashtable, hashtable这种数据结构内部实现上也借用了数组,那么我们是否可以直接使用数组呢?
AAAI 2018 将于2月2日至7日在美国新奥尔良举行, 腾讯 AI Lab 有11篇论文被录用,本文精选了11篇论文的精彩内容。
在学习高数的时候,就接触了傅里叶变换。也就记得是将一些周期函数表示成一系列三角函数的叠加,不是很理解这个变换的具体意义,就是觉的挺神奇的,可以求一些特殊的积分什么之类的。 到了学习信号与系统的时候,离散序列也可以傅里叶变换,还有一个叫离散傅里叶变换,那时学得很草,考完试之后都混在一起,不知道谁是谁了。
FastQTL是一款专门用于cis-eQTL分析的软件,在GTEx项目中就是采用该软件进行cis-eQTL的分析,对应的文章发表在Bioinformatics杂志上,链接如下
今天我们的主题就是 插入缓冲(Insert Buffer),由于InnoDB引擎底层数据存储结构式B+树,而对于索引我们又有聚集索引和非聚集索引。
来源:机器之心 本文约2400字,建议阅读5分钟 来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN。 在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗? 本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOTA ! 1998 年 L
选自arXiv 作者:David W. Romero等 机器之心编译 编辑:陈萍 本文提出了迈向通用 CNN 架构:CCNN,可以用于任意分辨率、长度和维度的数据。 在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗? 本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文提出了迈向通用 CNN 架构:CCNN,可以用于任意分辨率、长度和维度的数据。 在 VGG、U-Net、TCN 网络中... CNN 虽然功能强大,但必须针对特定问题、数据类型、长度和分辨率进行定制,才能发挥其作用。我们不禁会问,可以设计出一个在所有这些网络中都运行良好的单一 CNN 吗? 本文中,来自阿姆斯特丹自由大学、阿姆斯特丹大学、斯坦福大学的研究者提出了 CCNN,单个 CNN 就能够在多个数据集(例如 LRA)上实现 SOT
Loki在分布式部署的模式下,保存Ingester服务的状态主要有3个渠道,分别是etcd、consul和基于gossip协议的memberlist。不管Loki用的是什么方式,它们最终都是将哈希环以KV的方式保存。再聊Loki之前,先来了解下一致性哈希的基本概念。
领取专属 10元无门槛券
手把手带您无忧上云