dblp数据集_在DBLP数据集中查找聚类数_发现数据集验证数据集 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

DBLP数据集简介及简单用法

前一段时间利用大名鼎鼎的DBLP数据集做关于论文合作关系推荐的实验，感觉确实是一个非常不错的数据集，可挖掘的东西很多很多，在此对DBLP及其用法做一个简单介绍。简介 DBLP——Digital Bibliography & Library Project的缩写。这里是DBLP的主页 DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统，按年代列出了作者的科研成果。包括国际期刊和会议等公开发表的论文。DBLP没有提供对中文文献的收录和检索功能，国内类似的权威期刊及重要

07

文本分类综述 | 迈向NLP大师的第一步（下）

本系列文章总结自然语言处理（NLP）中最基础最常用的「文本分类」任务，主要包括以下几大部分：

02

您找到你想要的搜索结果了吗？

是的

没有找到

面向大规模社会关系网络数据的层次数据发现

现在随便哪个关系网络的数据规模都非常庞大，如https://snap.stanford.edu/data/上面公开的数据集，动不动都是几万个节点，十几万个边的。

02

DBLP数据集使用Python解析

dblp的使用总的来说，DBLP集成元素不多，只有最基本的论文题目，时间，作者，发表类型及期刊或会议名称等等。可能很多人想要的标签、关键词都没有。但是，基于DBLP数据集这些基本的元素，可以挖掘、利用的也是很多。例如官网给出的统计信息，就能引申出很多东西。涉及到DBLP，我能一下想到的关键词：经典的复杂网络，小世界，无标度，合作关系网，关系推荐，聚类，连接预测，随机游走，中心作者分析，作者影响力分析，研究热点发展等等，非常多。因此，DBLP是个很丰富宝贵的资源。 dblp下载 dblp.dtd

04

Python+Hadoop 从DBLP数据库中挖掘经常一起写作的合作者

任务描述：本文的写作目的是从DBLP数据库中找到经常一起写作的合作者。熟悉数据挖掘中频繁项挖掘的经典算法（FP-Growth）并作出改进和优化。实验代码用Python写的，分别在本地（Win8）和Hadoop集群（条件有限，虚拟机上跑的，3个节点）上实现。（下载本文所涉及全部代码https://github.com/findmyway/DBLP-Coauthor) 任务分解：从DBLP数据集中提取作者信息建立索引作者ID并对文件编码分析数据的规模构建FP-Tree并从FP-Tree得到频繁

05

GRADE：联合学习演化节点和社区表示的概率生成模型

今天给大家介绍加拿大蒙特利尔大学的著名学者唐建等人发表的一篇文章。作者在文章中针对现有的图动力学建模方法不能明确地捕捉到时间上的社区动态这一问题，提出了通过在轨迹上施加随机游走来学习生成不断发展的节点和社区表示的概率模型-GRADE。同时该模型还学习了通过过渡矩阵在时间步长之间进行更新的节点社区成员身份。实验表明，GRADE在动态链接预测中达到或超过基线模型，在动态社区发现方面显示出良好的性能，并且能识别出连贯且可解释的不断发展的社区。

06

资源 | OpenHINE：异质信息网络嵌入开源工具包

为了方便大家对异质信息网络表示学习（HINE）开展相关的实验或研究，北京邮电大学 DMGroup 的研究人员在 GitHub 上发布了 HINE 训练和测试框架 OpenHINE。

04

国外学者将500万篇CS论文搬进了毕业论文，结论：学海无涯“卷”作舟

大数据文摘授权转载自夕小瑶的卖萌屋作者：python 各位在CS（计算机）科研的苦海中挣扎的亲们，有没有觉得这些年科研越来越卷，论文越来越难发？实锤了！用数据说话，计算机领域的论文真的越来越卷了！最近，一篇德国伍珀塔尔大学的硕士毕业论文，基于DBLP Discovery Dataset数据集，对 1936~2022年之间的，计算机学科发表的500万篇论文做了统计分析。今天，小编就带大家看看这篇文章，看下计算机领域的科研最近卷成什么样子。论文题目： Analyzing the State of Co

02

机器学习之——LINE及LargeVis可视化算法

从word2vec算法发表以后，各种嵌入方法越来越火热，而LINE算法就是一种网络嵌入的算法。 📷 使用LargeVis可视化的MNIST数据集所谓网络嵌入，就是将一个网络里面的各个节点用向量表示出来。例如，所有节点都使用一个二维向量表示，那么就说这个网络嵌入了一个二维空间。类似的，也可以嵌入三维或更高维的空间。 LINE算法基本思路是：如果两个节点在网络上相连，那么它们所对应的向量之间的距离也应该比较小。要学习的参数就是每个节点对应的向量，例如共有10个节点，每个节点打算嵌入到3维空间里，那么就共有

08

ScholarRanking中国高校计算机学科排名：第2名你绝对想不到

导读：由中国人民大学孟小峰团队开发的ScholarSpace（C-DBLP）系统上线十年以来，一直致力于中文论文的数据融合，目前已达25个学科上百万论文。本次参考MIT计算机学科排名计算方法和发布结果，结合ScholarSpace计算机学科中文十一大期刊给出国内计算机十个领域的排名ScholarRanking，供大家参考。

03

PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]

PGL图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十] 1.PGL图学习项目合集 1.1 关于图计算&图学习的基础知识概览：前置知识点学习（PGL）[系列一] ：https://aistud

02

图学习项目合集&数据集分享&技术归纳业务落地技巧[系列十]

PGL图学习项目合集&数据集分享&技术归纳业务落地技巧系列十 1.PGL图学习项目合集 1.1 关于图计算&图学习的基础知识概览：前置知识点学习（PGL）系列一：https://aistudio.b

02

IJCAI 2020 | 3 篇异质信息网络相关论文

https://www.ijcai.org/Proceedings/2020/0190.pdf

02

集成图网络模型实现、基准测试，清华推出图表示学习工具包

清华大学计算机科学与技术系长聘教授、计算机系副主任、知识工程研究院教师唐杰发微博介绍 CogDL 项目。

01

《Attributed Social Network Embedding》论文学习笔记

本文提出了一种同时考虑结构信息和属性信息的图表示学习方法，该方法将节点表示为稠密向量，充分保留节点间的连接关系和属性信息。在具体实现上，该方法采用基于随机游走的图嵌入框架，利用图拉普拉斯算子进行特征提取，并结合深度学习技术进行节点表示学习。在实验部分，作者评估了所提方法在节点分类和链路预测等任务上的性能，并探讨了将所提方法用于其他多模态图表示学习场景的可行性。

05

如何用Neo4j和Scikit-Learn做机器学习任务？| 附超详细分步教程

图算法不是一个新兴技术领域，在开源库中已经有很多功能强大的算法实现。近两年，业内的学者与科学家都在积极探索可以弥补深度学习不可解释性，无法进行因果推断的这个缺陷，而图神经网络（GNN）成为备受关注和期待的“宠儿”。随着学界和业界越来越关注GNN，各种新工作不断被提出，基于图神经网络的框架随之产生，如大家现在都已经熟悉的DGL，两大深度学习框架PyTorch和TensorFlow中也开始支持相应的功能，大家对图（Graph）、图计算、图数据库、图机器学习等研究的关注度越发高涨。

03

最新 | CCF推荐国际学术刊物&国际学术会议-人工智能

CCF推荐会议分为A、B、C三类，会议论文指“Full paper”或“Regular paper”（正式发表的长文），对于会议上其他形式发表的论文如Short paper、Demo paper、Technical Brief、Summary以及作为伴随会议的Workshop等不计入目录考虑的范围。

06

7 Papers & Radios | 超图表示学习新框架HNHN；GNN的泛化与表示极限

论文 1：Implicit Neural Representations with Periodic Activation Functions

01

计算机视觉 | 中国计算机学会推荐国际学术刊物/会议

昨天Amusi推送了一份由CCF整理的人工智能 | 中国计算机学会推荐国际学术刊物/会议清单，那么在计算机视觉领域，我们常听到的TOG、TIP和SIGGRAPH属于什么级别呢？如果自己想发期刊/会议，有什么参考清单么？

03

2019年Philip S. Yu团队的图神经网络综述

使用graph来表示对象之间的复杂关系和依赖关系，然而graph数据的复杂已有的机器学习算法很难处理，所以使用深度学习方法来处理。A Comprehensive Survey on Graph Neural Networks论文回顾图神经网络（GNN）在文本挖掘和机器学习领域的发展，将GNN划分为递归图神经网络、卷积图神经网络、图自编码和时空图神经网络四类。此外还讨论图神经网络跨各种领域的应用、总结开源代码、数据集和图神经网络评价指标。最后给出可能的研究方向。

01

不要再用arxiv链接了！为了让论文引用更规范，上交毕业生、南加州大学华人博士创建了一个小工具

伴随着预印本平台 arXiv 的广泛使用，越来越多的研究者喜欢在写论文参考文献时直接使用 arXiv 信息。这看似非常方便，但也存在问题：这篇 arXiv 论文是否在 ACL、EMNLP、NAACL、ICLR 或 AAAI 等学术会议上发表过？

01

GCC图神经网络预训练概述

GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

02

【ACL2018】腾讯AI Lab入选5篇论文解读：神经机器翻译、情感分类等

【新智元导读】第 56 届计算语言学协会年会ACL 2018 将于当地时间7 月15-20 日在澳大利亚墨尔本举办。腾讯AI Lab 今年共有 5 篇论文入选，涉及到神经机器翻译、情感分类和自动评论等研究方向。

00

【广告技术】如何科学地划分用户群体？在聚类中考虑用户特征和社会关系

对互联网广告来说，让不同的用户看到不同的广告是一件特别基本、也特别重要的事。比如，会吸引一位男性游戏爱好者的广告，内容很可能是电竞显示器、专业游戏键盘，而且他也很可能真的去购买广告中推荐的商品；可要是广告推荐的内容是香水、口红，他既不了解、也不感兴趣，这个广告推荐的机会就白白浪费了。

02

WWW 2015 | LINE：大规模信息网络的嵌入

题目：LINE: Large-scale Information Network Embedding

02

Wiztalk腾讯广告专场系列直播第一场：基于图神经网络的聚类分析

如何科学地划分用户群体？如何在聚类中同时考虑用户特征和社会关系？如何利用好多个视角的数据获得一个更加全面的用户聚类结果？5月29日（本周五）晚上7点开始的Wiztalk线上直播中，北京邮电大学的石川教授介绍其发表于WWW2020上面的两篇论文，为以上问题给出先进的解决思路，欢迎各位聆听。关于Wiztalk Wiztalk是腾讯高校合作中心组织的系列产学融合知识分享讲座，鼓励用更加科普式的知识传播方式，讲解近代及当代技术发展中的大事件，让读者能够系统性了解在过去、现在、未来中，科学研究如何为人类的社会

03

K2乔戈里，上交大团队推出一个70亿参数的地球科学大语言模型

地球科学是一门古老的学科，不仅研究岩石、矿物和土地的性质，还探讨地球的气候、海洋、大气、生态系统等多个方面现象和原理。地学与我们的日常生活息息相关，帮助我们预测天气，了解地球的演化历史，维护海洋生态系统平衡和海洋资源均衡等。同时火山活动、地震、恐龙化石、气象现象等引人入胜的内容，也被一个个地学工作者阐述出来，带给大家一个又一个令人惊奇和引人入胜的故事。

02

arXiv引用格式转换为已发表会议标准引用格式小工具分享

伴随着预印本平台 arXiv 的广泛使用，越来越多的研究者喜欢在写论文参考文献时直接使用 arXiv 信息。这看似非常方便，但也存在问题：这篇 arXiv 论文是否在 ACL、EMNLP、NAACL、ICLR 或 AAAI 等学术会议上发表过？

05

AAAI2021 | 图神经网络的异质图结构学习

近年来，异质图神经网络引起了广泛关注并应用在各种下游任务上。现有异质图神经网络模型通常依赖于原始的异质图结构并暗含着原始图结构是可靠的假设。然而，这种假设往往并不现实，异质图结构普遍存在噪声和缺失的问题。因此，如何为异质图神经网络学习一个合适的图结构而不是依赖于原始图结构是一个关键问题。为解决这一问题，本文首次研究了异质图结构学习(Heterogeneous Graph Structure Learning)问题，并提出了HGSL框架来联合学习适合分类的异质图结构和图神经网络参数。HGSL 通过挖掘特征相似性、特征与结构之间的交互以及异质图中的高阶语义结构来生成适合下游任务的异质图结构并联合学习 GNN参数。三个数据集上的实验结果表明，HGSL 的性能优于基线模型。

02

AAAI Spring Symposium 2019|CrystalGan:使用生成对抗网络发现晶体结构

今天给大家介绍巴黎东大和索邦大学的Asma Nouira等人在AAAI Spring Symposium 2019上分享的文章“CrystalGAN: Learning to Discover Crystallographic Structures with Generative Adversarial Networks”。作者在文章中提出使用生成对抗网络(generative adversarial networks,GAN)可以高效地生成新的数据，因此可以应用于生成新的晶体结构数据。但在材料科学领域，需要生成相对于样本复杂度更高阶的数据，一般的生成对抗网络难以满足这一要求。本文提出的CrystalGan可以生成更高复杂度的新的稳定的晶体结构。本文提出的这一种高效的方法在新型氢化物发现等实际问题中可能会有比较深入的应用。

01

年度回顾：各类监督方法流行趋势分析

机器学习领域在过去几十年中经历了巨大的变化，不可否认的是，虽然有些方法已经存在了很长时间，但仍然是该领域的主要内容。例如，最小二乘法（ least squares）的概念在19世纪早期由勒让德和高斯提出，最基本的形式的神经网络（ neural networks）早在1958年就引入的，并在过去的几十年中大幅提升、支持向量机（SVM）等方法则更是较新的方法，这些方法仍然占据了机器学习领域应用中的半壁江山。随着科研的进行，有大量可用的监督学习方法被发明。使用者通常会提出以下问题：什么是最好的模型？众所周知，这个问题没有标准答案，因为模型的有用性取决于手头的数据以及具体处理的问题，合适的就是最好的。那么，可以转换下思路，换成这个问题：最受欢迎的模型是什么？这将是本文的关注点。

02

学界 | 腾讯AI Lab解读多篇ACL 2018入选长文

本文转载自腾讯 AI Lab，微信号 tencent_ailab。本文将详解 2018 年 NLP 领域顶级学术会议 ACL 上，腾讯AI Lab入选 5 篇文章中的 4 篇长文。

02

AI论文学习资料汇总

1. 视频讲解跟李沐学AI：讲解的非常透彻明了。 2. 科研工具 ReadPaper：论文阅读神器！ AI-Paper-Search：AI 论文检索神器！ AI-research-tools：AI 科研工具大礼包！ AMiner：科技情报大数据挖掘与服务系统平台，可以提供订阅等功能，为广大科研人提供科研动态的实时追踪、个人科研信息流的定制化服务。 DBLP：DBLP 计算机科学书目提供有关主要计算机科学期刊和会议录的开放书目信息，可谓论文信息检索查询大利器！ Conference-Accepted-Pap

03

记录一些工具

下载地址：https://www.onlinedown.net/soft/113511.htm

01

CVE-Flow:1999-2020年CVE数据分析

在我写的文章中，经常会交代文章的“起源”，介绍写这篇文章的原因和其中思考的过程。这主要来源于早几年在乌云看洞的时候，漏洞详情经常有果无因，只介绍了漏洞的触发点和利用方式，而最重要的如何发现这个触发点的过程却没有被提及，对于漏洞平台来说，要的是结果，而对于白帽子来说，更重要的可能是发现漏洞的过程，而这部分是缺失的，当然，这也可以理解，毕竟漏洞详情不是文章。

04

【趣味】数据挖掘(3)—Apriori算法-论文引用与数据血统论

本文先通俗地介绍快速挖掘关联规则的Apriori算法，然后介绍发表这一算法的论文(它被引用了11480+次），最后关注此文的实际影响与传统影响因子的差距。有言在先，趣味数据挖掘和趣味数学一样，有些段落比较细致，此文虽只要中学数学知识，但须静心把它当回事，或许要在草稿上写画，才读得顺畅。 1 朴素挖掘方法中的组合数呈指数增长上文中，关联规则朴素挖掘法的主要脉络是 “组合对象--选举-唱票-计票”。人们说组合对象数量很大，究竟大到什么程度？　从m个对象中选k个对象的组合数

06

计算机视觉邻域论文查找方法

https://dblp.uni-trier.de/db/conf/icml/icml2017.html

02

开发 | 如何加速神经语言模型训练？东北大学小牛翻译团队有妙招

团队简介：东北大学自然语言处理实验室（小牛翻译团队）由姚天顺教授于1980年创立，长期从事机器翻译及语言分析方面的研究。小牛翻译团队所研发的NiuTrans系统开源版和小牛翻译企业版已经被来自 60 余个国家的2000多个机构使用，并支持44种语言的翻译。团队在CWMT、NTCIR等评测中取得多项第一、第二的成绩，发表AI、IJCAI、AAAI、ACL等期刊及会议论文40余篇，并于2016年获得中文信息处理领域最高奖钱伟长中文信息科学技术奖（一等奖）。一、神经语言模型简介语言作为人类之间进行沟通交

【专知荟萃03】知识图谱KG知识资料全集（入门/进阶/论文/代码/数据/综述/专家等）（附pdf下载）

【导读】主题荟萃知识是专知的核心功能之一，为用户提供AI领域系统性的知识学习服务。主题荟萃为用户提供全网关于该主题的精华（Awesome）知识资料收录整理，使得AI从业者便捷学习和解决工作问题！在专知人工智能主题知识树基础上，主题荟萃由专业人工编辑和算法工具辅助协作完成，并保持动态更新！另外欢迎对此创作主题荟萃感兴趣的同学，请加入我们专知AI创作者计划，共创共赢！今天专知为大家呈送第三篇专知主题荟萃-知识图谱知识资料全集荟萃（入门/进阶/论文/代码/数据/专家等），请大家查看！专知访问www.zhuan

08

郑文琛：基于网络功能模块的图特征学习 | AI 研习社79期大讲堂

AI研习社按：图是一种常见的数据结构，可以被用于许多不同的预测任务。如何从图数据学习有效特征是个重要的问题。我们的新概念是从点和边出发，拓展到更高阶的子图结构（比如路径、子图）来帮助图特征学习。这些高阶的子图结构通常具有不同的功能，事实上在一起共同构造了整个网络，所以我们称这些高阶的子图结构为网络功能模块（Network Functional Blocks）。

04

2018全球Top 1000 计算机科学家h指数发布，中国29名学者上榜！

【新智元导读】Guide2Research网站日前发布了2018年全球计算机科学和电子领域H-index排名前1000的科学家。密歇根州立大学的 Anil K. Jain 教授超越诺贝尔奖得主司马贺成为最新的榜首。源码资本的张宏江博士是中国第一。中国共有29名科学家上榜，距离美国（632人）仍有很远的距离。

00

数据挖掘与大数据国际会议 DMBD'2022 火热征稿中，9月30截止

第七届数据挖掘与大数据国际会议（DMBD'2022） The Seventh International Conference on Data Mining and Big Data (DMBD'2022) 第七届数据挖掘与大数据国际会议（DMBD'2022）是研究人员和从业者交流其在数据挖掘和大数据以及人工智能技术的理论、算法、模型和应用方面的进展和最新成果的国际性论坛。 DMBD'2022将于2022年11月21日至24日在北京召开，今年的会议主题是“智能金融与创新”。DMBD'2022是继之前的广州、

02

Academic social networks: Modeling, analysis, mining and applications 2019翻译

在快速增长的学术大数据背景下，社交网络技术最近引起了学术界和工业界的广泛关注。学术社会网络的概念正是在学术大数据的背景下产生的，指的是由学术实体及其关系形成的复杂的学术网络。有大量的学术大数据处理方法来分析学术社交网络丰富的结构类型和相关信息。现在各种学术数据都很容易获取，这让我们更容易分析和研究学术社交网络。本研究调查了学术社交网络的背景、现状和趋势。我们首先阐述了学术社会网络的概念和相关研究背景。其次，基于节点类型和时效性分析模型。第三，我们回顾分析方法，包括相关的指标，网络属性，和可用的学术分析工具。此外，我们还梳理了一些学术社交网络的关键挖掘技术。最后，我们从行动者、关系和网络三个层面系统地回顾了该领域具有代表性的研究任务。此外，还介绍了一些学术社交网站。本调查总结了当前的挑战和未解决的问题。

03

自己一些思考 | 人工智能学硕研究生阶段的学习规划

不断提高自己信息检索与利用，独立解决问题能力：学术搜索：谷歌学术、AMiner、PubMed、Semantic Scholar、百度学术、SCI-Hub等 arXiv、The latest in Machine Learning | Papers With Code，DBLP、Web of Science 、领研、以及经典论文的 related work & cited by 搜索引擎：谷歌、必应、SearXNG以及一些聚合搜索等学校买了的一些专业数据库，以及专业方向有关的好的期刊、会议。公众号媒体等

03

Key-Value Memory Network

Deep Memory Network 深度记忆网络 Deep Memory Network在Aspect Based Sentiment方向上的应用(optional)

01

两万字 | 视觉SLAM研究综述与未来趋势讨论

摘要：近年来，基于视觉传感器在同时定位与地图构建（SLAM）系统中展示出了显著的性能、准确性和效率。在这里，视觉同时定位与地图构建（VSLAM）方法是指使用相机进行姿态估计和地图生成的SLAM方法。

02

两万字 | 视觉SLAM研究综述与未来趋势讨论

摘要：近年来，基于视觉传感器在同时定位与地图构建（SLAM）系统中展示出了显著的性能、准确性和效率。在这里，视觉同时定位与地图构建（VSLAM）方法是指使用相机进行姿态估计和地图生成的SLAM方法。

05

查找计算机视觉顶会CVPR/ECCV/ICCV论文的方法大全

曾经我从这些地方搬运了很多论文，专注做收藏侠好多年，如今我已经不再专注做搬运工与收藏侠，有好东西就跟大家分享一下！我已经开启阅后即焚的模式，我劝大家也不要再做收藏侠跟搬运工，这个世界上论文多的看不完，书籍多的你也看不完！

04

【每周NLP论文推荐】知识图谱重要论文介绍

欢迎来到《每周NLP论文推荐》。在这个专栏里，还是本着有三AI一贯的原则，专注于让大家能够系统性完成学习，所以我们推荐的文章也必定是同一主题的。

04

北卡州立大学计算机系郭志山课题组招收多名博士生

学校 & 城市北卡州立大学位于北卡罗来纳州的州府--罗利市 (Raleigh)，在美国著名的北卡三角研究园(Research Triangle Park) 的最核心位置。工学院2022年US News全美排名26，计算机系2022年全美排名49并有强烈上升势头，统计专业2022年全美排名11。三角地区还有其他两所知名大学: 杜克大学和北卡教堂山分校，半小时以内车程。三角研究园内含有超过300家公司，包括苹果专注AI的新园区，谷歌的新工程中心，IBM，微软，亚马逊，联想全球总部，Cisco总部，Red H

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭