首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

文本数据的机器学习自动分类方法(上)

【编者按】:随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。 本文为第一部分,着重介绍文本预处理以及特征抽取的方法。第二部分将会着重介绍特征向量

06

基于3D打印机编译器侧信道的信息泄漏攻击

在网络物理增材制造系统中,侧信道攻击已被用于重建正在生产的 3D 对象的 G/M 代码(这是给制造系统的指令)。在产品大规模制造并投放市场之前的原型设计阶段,这种方法通过最意想不到的方式从组织窃取知识产权是有效的。然而,由于缺乏足够的侧信道信息泄漏,攻击者可能无法完全重建 G/M 码。在本文中提出了一种放大信息泄漏的新方法,通过暗中改变编译器来提高 G/M 代码恢复的机会。通过使用该编译器,攻击者可以轻松控制各种参数以放大 3D 打印机的信息泄漏,同时生产所需的对象并对真实用户隐藏。这种类型的攻击可能由有权访问工具链并寻求高度隐身的强大攻击者实施。本研究已经实现了此编译器,并证明与之前的攻击相比,它从四个侧信道(声学、功率、振动和电磁)恢复 G/M 代码的成功率提高了39%。

02

达观数据分享文本大数据的机器学习自动分类方法

随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程(达观数据科技联合创始人张健)。文本分类有着广泛的应用场景,例如: ●新闻网站包含大量报道文章,基于文章内容,需要将这些文章按题材进行自动分类(例如自动划分成政治、经济、军事、体育、娱乐等) ●在电子商务网站,用户进行了交易行为后对商品进行评价分类,商家需要对用户的评价划分为正面评价和负面评价

011

CPC(representation learning with contrastive predctive coding)

摘要: 监督学习在很多应用方面有了巨大的进步,但是非监督学习却没有如此广的应用,非监督学习是人工智能方面非常重要也非常具有挑战性的领域。这篇论文提出了 constrative predictive coding,一个非监督的通用的算法用于在高维度数据中提取有用的表示信息。算法的核心是通过强大的自回归(autoregressive)模型来学习未来的(预测的)隐变量表示。论文使用对比损失概率(probabilistic contrastive loss)来引入最大化预测样本的信息的隐变量。大多数其他研究的工作都集中在使用一个特殊的修正(公式)评估表示,论文(CPC)所使用的方法在学习有用信息表示的时候表现非常优异。

03

【CQA论文笔记】基于异构社交网络学习的社区问答方法,同时建模问题、回答和回答者

【导读】传统的社区的问答(CQA)仅对问题和答案的内容进行编码,为问题准确地匹配高质量的回答。这篇文章提出使用社区中用户的交互信息进行嵌入,借助了异构社交网络中大量的社交信息来缓解了CQA任务的稀疏性问题,辅助解决CQA任务。提出的框架协同地利用问题、回答和回答者之间的交互关系来学习回答的相对质量。另外,使用深度随机游走框架来充分利用异构社交网络中的信息,来提升问答匹配的效果。在大规模真实CQA数据上的实验表明,借助异构社交信息,提出的算法超过了当前最好的CQA算法。 【AAAI2016 论文】Commun

04

对抗网络2019-2020速览

Variational Discriminator Bottleneck: Improving Imitation Learning, Inverse RL, and GANs by Constraining Information Flow.(ICLR 2019高分论文) 首先讲一下需要了解的知识: A.信息瓶颈 他的原理是,在信息传播过程中,设置一个瓶颈,通过这个瓶颈的信息是有限的,然而仅用这些有限的信息还要完成分类或者回归的任务,所以流过瓶颈的这些“有限的信息”肯定是最重要,少而精的。通过信息瓶颈,可以获取到重要特征。 B.互信息 三种理解1)互信息度量 x 和 y 共享的信息。2)y的发生给x的不确定度的减少,也就是x如果发生能够带来的信息量减少了。就好比扔骰子,y是扔出偶数,x是扔出6。原本x能带来的信息量比发生y后要多,而这部分减少的信息量叫做互信息。3)如下图所示,A和B的交,I(X,Y)表示为互信息。

01
领券