论文链接:https://arxiv.org/pdf/2004.01547.pdf
随着我国经济的快速发展,上市公司的经营绩效成为了一个备受关注的话题。本文旨在探讨上市公司经营绩效的相关因素,并运用数据处理、图示、检验和分析等方法进行深入研究,帮助客户对我国45家上市公司的16项财务指标进行了因子分析与聚类分析。
不久前,苹果刚发布了新一代iPhone,其高昂的售价以及缺乏创新的设计,让不少果粉望而却步,把目光逐渐转向这些年越做越好的谷歌的Android系统手机。数据侠Yulia Norenko用爬虫分析了Google Play Store里的App数据,希望能为Android的软件市场,提供一些建设性的意见。
本文的研究目的是基于R语言的k-prototype算法,帮助客户对新能源汽车行业上市公司进行混合型数据集的聚类分析。
计算机视觉技术让AI拥有了“眼睛”,而深度学习的出现让这双“眼睛”的算力增强,能够识别并对它看到的图像特征作出反应并获取对应信息。而其中,目标检测(Object Detection)作为图像理解中的重要一环,适用于包含多个对象的图片,需要对图像中的目标/物体进行定位和识别分类,从而确认它们的位置和大小,这也是计算机视觉领域的核心问题之一。
论文:Learning Pixel-level Semantic Affinity with Image-level Supervision for Weakly Supervised Semantic Segmentation
可视化对于Transformer的模型调试、验证等过程都非常重要,FAIR的研究者开源了一种Transformer可视化新方法,能针对不同类呈现不同且准确的效果。
最近在使用uniapp开发小程序,所以经常翻看Dcloud插件市场,发现了一款超高颜值、兼容多平台的开源组件——图鸟图表
基于项目提供的汽车相关数据,通过聚类分析的方法实现汽车产品聚类,以构建汽车产品画像、分析产品定位、完成汽车竞品分析等要求。
大家好,今天分享的主题是图表统计。图表统计是使用图表和图形来可视化和呈现数据的方法。它通过将数据转化为柱状图、折线图、饼图等形式来展示各种统计指标和趋势。
无监督多重图表示学习(UMGRL)受到越来越多的关注,但很少有工作同时关注共同信息和私有信息的提取。在本文中,我们认为,为了进行有效和鲁棒的UMGRL,提取完整和干净的共同信息以及更多互补性和更少噪声的私有信息至关重要。为了实现这一目标,我们首先研究了用于多重图的解缠表示学习,以捕获完整和干净的共同信息,并设计了对私有信息进行对比约束,以保留互补性并消除噪声。此外,我们在理论上分析了我们方法学到的共同和私有表示可以被证明是解缠的,并包含更多与任务相关和更少与任务无关的信息,有利于下游任务。大量实验证实了所提方法在不同下游任务方面的优越性。
机器之心专栏 作者:谢江涛、龙飞、吕佳铭、王旗龙、李培华 在本文中,来自大连理工大学等机构的研究者提出了 DeepBDC 用于小样本分类任务,DeepBDC 通过度量样本对之间的联合分布从而获得更准确的相似度,极大的提升了小样本分类的性能。论文已被 CVPR 2022 接收为 Oral Presentation。 本文首次将布朗距离协方差这一基于概率和统计的相似性度量引入到深度学习中,提出了一种端到端的小样本识别方法 DeepBDC。所提出的方法在包括一般目标识别、细粒度分类和跨域分类等任务的 6 个标准数
这篇文章讲述的是数据存储方式和数据类型等基本概念、数据清洗的必要性和质量评价的关键点。希望这篇数据清洗的文章对您有所帮助!如果您有想学习的知识或建议,可以给作者留言~
今天为大家介绍的是来自Fabrizio Gilardi的一篇讨论chatgpt能力的论文。许多自然语言处理(NLP)应用需要进行手动文本标注,用于训练分类器或评估无监督模型的性能,这是一个常见的任务。根据任务的规模和复杂程度,这些任务可能由众包工作者在MTurk等平台上进行,也可能由经过培训的标注员,比如研究助理,来完成。作者使用包含六千一百八十三个样本的四个推文和新闻文章数据集,展示了ChatGPT在多个标注任务中的表现优于众包工作者。在这四个数据集上,ChatGPT的零样本准确率平均超过众包工作者约25个百分点,同时ChatGPT的标注员间一致性在所有任务上均超过众包工作者和经过培训的标注员。此外,ChatGPT每个标注的成本不到0.003美元,比MTurk便宜约30倍。这些结果表明大型语言模型的潜力,能够大幅提高文本分类的效率。
数据可视化是一种将密集复杂数据信息以视觉图形的形式呈现。设计出来的视觉效果简化了数据,让用户分析研究比较数据变得容易以及可以更好地向领导或者团队讲述“故事”——可以帮助用户更好地做出决策。
机器之心报道 编辑:泽南 而且用的还是旧版本,GPT-4 都还没出手。 没想到,AI 进化之后淘汰掉的第一批人,就是帮 AI 训练的人。 很多 NLP 应用程序需要为各种任务手动进行大量数据注释,特别是训练分类器或评估无监督模型的性能。根据规模和复杂程度,这些任务可能由众包工作者在 MTurk 等平台上以及训练有素的标注人(如研究助理)执行。 我们知道,语言大模型(LLM)在规模到达一定程度之后可以「涌现」—— 即获得此前无法预料的新能力。作为推动 AI 新一轮爆发的大模型,ChatGPT 在很多任务上的
最近经常和朋友聊起可视化的事情,发现不少人新手经常不会选择合适的图表,从而导致做出来的数据分析报告不尽如人意,今天就针对图表选择来分享一些技巧
基于文本Embedding表示的文本分类已经非常常见了,基本是文本分类的基本选择之一。然而,传统的embedding方式,都是直接使用预训练好的embedding,比如Word2Vec、Glove等。
机器之心专栏 上海交通大学电子工程系 作者:杨蕊 简介 2014 年以来,生成对抗网络(Generative Adversarial Networks)已经在各式各样的图像生成任务中大放异彩,无论是图像描述,图像编辑,图像超分辨率,GAN 网络都展现了巨大潜力。然而尽管已经存在很多对于数字,人脸,动物的生成的研究,对于风景照生成的研究却少之又少。 风景照生成的最大挑战在于如何合理地组合不同视觉元素,如何排布不同景深的内容,例如天空经常出现在风景照的背景中,沙滩与海常常一同出现。然而,如何对处于不同位置处视觉
---- 新智元编译 来源:arxiv.org 翻译:肖琴 【新智元导读】图像合成是计算机视觉中的一个重要问题。谷歌大脑的Ian Goodfellow等人在他们的最新研究中提出“自注意力生成对抗网络”(SAGAN),将自注意力机制引入到卷积GAN中,作为卷积的补充,在ImageNet多类别图像合成任务中取得了最优的结果。 论文地址:https://arxiv.org/pdf/1805.08318.pdf 图像合成(Image synthesis)是计算机视觉中的一个重要问题。随着生成对抗网络(GAN
什么是数据挖掘 前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。 先看一上概念: 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检
一、 背景 1) 问题 在机器学习的实际应用中,特征数量可能较多,其中可能存在不相关的特征,特征之间也可能存在相关性,容易导致如下的后果: 1. 特征个数越多,分析特征、训练模型所需的时间就越长,模型也会越复杂。 2. 特征个数越多,容易引起“维度灾难”,其推广能力会下降。 3. 特征个数越多,容易导致机器学习中经常出现的特征稀疏的问题,导致模型效果下降。 4. 对于模型来说,可能会导致不适定的情况,即是解出的参数会因为样本的微小变化而出现大的波动。 特征选择,能剔除不相关、
视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。
Echarts是一个基于JavaScript的开源可视化图表库,由百度开发和维护。它提供了多种类型的图表,包括折线图、柱状图、散点图、饼图、地图等,可以用于展示各种类型的数据。Echarts具有良好的交互性和可扩展性,可以通过自定义主题和图表样式来满足不同的需求。同时,Echarts还支持移动端和桌面端的多种平台,可以在不同的设备上进行数据可视化展示。
Copula方法是测度金融市场间尾部相关性比较有效的方法,而且可用于研究非正态、非线性以及尾部非对称等较复杂的相依特征关系。因此,Copula方法开始逐渐代替多元GARCH模型的相关性分析,成为考察金融变量间关系的流行方法,被广泛地用于市场一体化、风险管理以及期货套期保值的研究中。
可视化图表千千万,很多小伙伴在选择过程中就容易犯选择困难症。即使选择了一款图表,后期也可能发现可视化图表既无法准确表达自己的意图,也没能向阅读者传达出应有的信息,可视化图形让人困惑或看不懂。
选自arXiv 作者:Chao Li等 机器之心编译 参与:Pedro、刘晓坤 近日,西安电子科技大学、优必选和腾讯 AI Lab 联合提出了一种新型跨模态哈希方法:SSAH 模型框架。该框架将自监督语义学习和对抗学习结合,可以更有效地保留不同模态之间的语义相关性和表征一致性。在三个基准数据集上进行的大量实验表明 SSAH 优于当前最先进的方法。该研究的论文已被 CVPR 2018 大会接收。 简介 随着来自不同种类搜索引擎和社交媒体的多媒体数据的爆炸式增长,近年来跨模态检索已经成为了一个人们急需面对的议题
本文主要介绍CS224W的第六课,图的信息传播和节点分类。上一章讲述的谱聚类,就可以对节点进行分类,本节则从信息传递的角度来考虑节点的分类。
特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。一般来说包含以下几个方面的内容:
来源 | 新智元 编译 | 肖琴 出品 | 磐创AI技术团队 【磐创AI导读】:本文授权转载自新智元,主要介绍了一种“自注意力生成对抗网络”(SAGAN)。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 【介绍】图像合成是计算机视觉中的一个重要问题。谷歌大脑的Ian Goodfellow等人在他们的最新研究中提出“自注意力生成对抗网络”(SAGAN),将自注意力机制引入到卷积GAN中,作为卷积的补充,在ImageNet多类别图像合成任务中取得了最优的结果。(论文地址:https://arxiv.org/p
作者 | AI小昕 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文主要介绍特征工程中的数据预处理、特征选择、降维等环节。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 特征工程是
链接: https://ieeexplore.ieee.org/document/10184514
本文是针对触发诱导推荐(Trigger-Induced Recommendation,TIR)提出的推荐算法,所谓TIR就是比如在大促活动会场点击某个item后会跳转到承接页,承接页里会有相关的商品,这些商品就是通过点击前面的item触发的,这个item有点像一个“钩子”。例子如下图所示
这都2021年了,对 AI 而言,识别出猫猫狗狗肯定再简单不过了。
从内容属性去理解用户行为,预测用户行为,那么也可以通过理解用户行为去理解内容,预测内容属性。
数据归约是在保证数据信息量的基础上,尽可能精简数据量。筛选和降维是数据归约的重要手段,尤其在数据量大且维度高的情况下,可以有效地节约存储空间和计算时间。反之,当数据量不多,或者现有存储和计算资源能满足分析和预测时不一定需要降维,因为任何的归约都会造成数据损失。
什么是数据挖掘 前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。 先看一上概念: 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报
多因子模型在量化投资中占据了绝对的C位,以Barra风险模型,采用截面因子暴露对股票收益率进行建模的方法在业界得到了广泛的使用,可以用非常简单的等式表示截面股票收益与因子暴露之间的关系:
本文作者:hannahguo,腾讯 PCG 推荐算法工程师 在推荐系统中,特征工程扮演着重要的角色。俗话说数据和特征决定了机器学习算法的上限,而模型、算法的选择和优化只是在不断逼近这个上限。特征工程的前提是收集足够多的数据,使用数据学习知识,从大量的原始数据中提取关键信息并表示为模型所需要的形式。本文主要说明微视,这种富媒体形态的短视频平台,是如何通过视频内容特征以及用户属性和行为数据,来精准预测用户对短视频的喜好的。 引言 本文主要是跟各位读者分享特征工程领域的一些通用方法和技巧,以及微视在特
一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结构化的,而文档(web)都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中合理地表示文本,使之既要包含
人脑通过神经激活模式编码信息。虽然分析神经数据的常规方法侧重对大脑(去)激活状态的分析,但是多元神经模式相似性有助于分析神经活动所代表的信息内容。在成年人中,已经确定了许多与表征认知相关的特征,尤其是神经模式的稳定性、独特性和特异性。然而,尽管随着儿童时期认知能力的增长,表征质量也逐步提高,但是发育研究领域特别是在脑电图(EEG)研究中仍然很少使用基于信息的模式相似性方法。在这里,我们提供了一个全面的方法介绍和逐步教程——频谱脑电图数据的模式相似性分析,包括一个公开可用的资源和样本数据集的儿童和成人的数据。
Copula方法是测度金融市场间尾部相关性比较有效的方法,而且可用于研究非正态、非线性以及尾部非对称等较复杂的相依特征关系
秋雨思童年,落花念爱霖!一场秋雨的洗礼,让我们进入了真正能感觉得到的秋季。秋季是丰收的季节,不知朋友您收获如何?但是我相信您一定硕果累累,满载着各种成果、业绩和快乐继续向下一个目标努力前行。 ----
秋雨思童年,落花念爱霖!一场秋雨的洗礼,让我们进入了真正能感觉得到的秋季。秋季是丰收的季节,不知朋友您收获如何?但是我相信您一定硕果累累,满载着各种成果、业绩和快乐继续向下一个目标努力前行。
这就是我们出的新方法:批量核范数最大化(Batch Nuclear-norm Maximization)。
随着大规模数据集预训练模型的广泛应用,迁移学习已成为计算机视觉任务中的关键技术。但是,从大量的预训练模型库中为特定下游任务选择最优的预训练模型仍然是一个挑战。现有的方法主要依赖于编码的静态特征与任务标签之间的统计相关性来测量预训练模型的可迁移性,但它们忽略了微调过程中潜在的表示动力学的影响,导致结果不可靠,尤其是对于自监督模型。在本文中,我们从潜在能量的角度提出了一种新颖的方法——PED,来解决这些挑战。我们将迁移学习动力视为降低系统潜在能量的过程,并直接对影响微调动力学的相互作用力进行物理学建模。通过在物理驱动模型中捕获动态表示的运动来降低潜在能量,我们可以获得增强和更稳定的观测结果来估计可迁移性。在10个下游任务和12个自监督模型上的实验结果表明,我们的方法可以顺利集成到现有的优秀技术中,增强它们的性能,这揭示了它在模型选择任务中的有效性和发掘迁移学习机制的潜力。我们的代码将在https://github.com/lixiaotong97/PED上开源。
.NET数据挖掘与机器学习 原文:http://www.cnblogs.com/asxinyu/archive/2013/08/29/3289682.html 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,数据挖掘是目前国际上,数据库和信息决策领域的最前沿研究方向之一。因此分享一下很久以前做的一个小研究成果。也算是一个简单的数据挖掘处理的例
领取专属 10元无门槛券
手把手带您无忧上云