首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1932962
阅读量
188
订阅数
如何挖掘医疗数据?看这份KDD2021《异构医疗数据挖掘》教程
来源:专知 本文约1000字,建议阅读5分钟 在本教程中,我们将介绍最先进的深度学习方法及其实际应用,特别关注于探索不同类型医疗数据的独特特征。 [ 导读 ]ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是世界数据挖掘领域的最高级别的学术会议,由 ACM 的数据挖掘及知识发现专委会(SIGKDD)主办,被中国计算机协会推荐为 A 类会议。自 1995 年以来,KDD 已经连续举办了26届,今年于2021年8月14日至18日举办,今年的会议主办地在新加坡。 来自华为的研究人员在PSU上给出
数据派THU
2023-03-29
3470
斯坦福经典书《统计学习导论》第二版(附PDF)
来源:专知 本文约1000字,建议阅读5分钟 这本《统计学习导论》不仅是优秀的“统计学习”或“机器学习”课程的教材,也是数据挖掘、数据分析等相关从业者不可或缺的参考书。 链接:https://www.statlearning.com/ 统计学习是一套以复杂数据建模和数据理解为目的的工具集,是近期才发展起来的统计学的一个新领域。本书出自统计学习领域声名显赫的几位专家,结合R语言介绍了分析大数据必不可少的工具,提供一些重要的建模和预测技术,并借助丰富的实验来解释如何用R语言实现统计学习方法。论题包括线性回归、
数据派THU
2023-03-29
9510
【经典书】图数据挖掘算法,安全性及应用
来源:专知本文为书籍推荐,建议阅读5分钟这本书提供了图数据挖掘方法的最先新综述。 图数据非常强大,因为它能够为对象之间的任意关系建模,并在生物信息学、交通网络、科学协作、万维网和社交网络等领域的一系列现实世界应用中遇到它。图数据挖掘用于从图数据中发现有用的信息和知识。节点、链接和半结构形式的复杂性对节点分类、链接预测、图分类等计算任务提出了挑战。在这种背景下,各种先进的技术,包括图嵌入和图神经网络,最近被提出来提高图数据挖掘的性能。这本书提供了图数据挖掘方法的最先新综述。本文针对当前的一个热门话题——图数
数据派THU
2022-08-29
5700
数字化与数据化——概念界定与辨析
来源:创新科技杂志社本文约16000字,建议阅读20+分钟本文介绍了神经科学和机器学习的进一步发展。近年来,信息技术迅猛发展,人类社会正在由工业时代迈入以数字化为特征的数字时代。 [ 摘要 ] 针对当前数字化研究概念混淆与界定缺乏的情况,以SCI、SSCI一区期刊与自然科学基金委管理科学部认定的30种重要期刊为主要文献来源,使用文献计量法与文献研究法对“数字化”与“数据化”以及“数字化转型”与“数据化转型”两组中英文概念进行区分与界定,明确其内涵外延、演化规律及应用现状,提出数字化未来的研究框架。在数字化快
数据派THU
2022-07-25
9000
10 种聚类算法的完整 Python 操作示例
来源:海豚数据科学实验室本文约7000字,建议阅读14分钟本文将介绍一篇关于聚类的文章,10种聚类介绍和Python代码。 聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在 python 中安装和使用顶级聚类算法。 完成本教程后,你将知道: 聚类是在输入数据的特征空间中查找自然组的无监督问题。 对于所有数据集,
数据派THU
2022-05-12
7320
5分钟 NLP系列—— 11 个词嵌入模型总结
来源:DeepHub IMBA本文约1000字,建议阅读5分钟本片文章将对词嵌入的模型做一个完整的总结。 TF-IDF, Word2Vec, GloVe, FastText, ELMO, CoVe, BERT, RoBERTa 词嵌入在深度模型中的作用是为下游任务(如序列标记和文本分类)提供输入特征。在过去的十年中,已经提出了很多种词嵌入方法,本片文章将对这些词嵌入的模型做一个完整的总结。 与上下文无关 这类模型学习到的表征的特点是,在不考虑单词上下文的情况下,每个单词都是独特的和不同的。 不需要学
数据派THU
2022-03-04
7580
杨璐嘉 : 治学无界,不应以文理为自我设限 | 提升之路系列(二)
为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
数据派THU
2021-12-31
5080
国内高校大数据教研机构调研报告
本篇报告由清华大学大数据研究中心独家支持(原清华-青岛数据科学研究院发起),清华大学新闻传播学院博士后何静(沈阳教授团队)发布,研究内容主要围绕国内高校大数据教研机构的发展现状、教育科研水平及其行业影响力、传播影响力的对比分析等方面。以下为报告部分内容节选:
数据派THU
2021-07-16
6010
独家 | 利用Python实现主题建模和LDA 算法(附链接)
主题建模是一种用于找出文档集合中抽象“主题”的统计模型。LDA(Latent Dirichlet Allocation)是主题模型的一个示例,用于将文档中的文本分类为特定的主题。LDA算法为每一个文档构建出一个主题,再为每一个主题添加一些单词,该算法按照Dirichlet分布来建模。
数据派THU
2021-01-29
2.4K0
干货 | 国家信息中心杜平谈关于数字化的几点思考
[ 导读 ]清华大学109周年校庆之际,清华校友总会软件学院分会、大数据系统软件国家工程实验室和清华大学大数据研究中心共同主办了以“软件定义新基建,数据驱动新未来”为主题的系列线上讲座活动。
数据派THU
2020-05-07
6900
干货 | 统计学概论和医疗临床大数据分析(附PPT下载)
本文内容选自加拿大约克大学数学统计系终身教授王晓刚于近期在清华大数据“技术·前沿”系列讲座所做的题为《统计学概论和医疗临床大数据分析》的演讲。
数据派THU
2019-12-10
7991
独家 | 脑洞大开!机器学习与AI突破(附链接)
本文介绍了近期在机器学习/人工智能领域一些非常有创意的突破,每一个都脑洞大开,不管是否是相关从业人员都值得一读。
数据派THU
2019-05-15
3550
独家 | 用于数据清理的顶级R包(附资源)
每天有数百万或数十亿的数据元素进入您的企业,其中不可避免的存在一些缺乏建立高效业务模型的必要质量的数据元素。然而,确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要的部分。因为没有它,您将很难看到重要的内容,并可能由于数据重复,数据异常或缺少信息等原因做出错误的决策。
数据派THU
2019-05-14
1.3K0
独家 | 带你认识机器学习的的本质(附资料)
本文总结了四种机器学习主流定义,分别从学习的优化过程、计算力、相似性和算法,研究了先驱者们和著名研究员们对机器学习本质的理解。
数据派THU
2019-05-09
4990
干货|4条实用小建议,送给初入NLP领域的你(附链接)
ACL2019投稿刚刚落幕,投稿数超过了2800篇,可以说是历史以来最盛大的一届ACL。在深度学习的推动下,自然语言处理这个子领域也逐渐被推上人工智能大舞台的最前列。
数据派THU
2019-05-09
4680
融合与发展:五位业界专家正式接受聘请,成为数据科学研究院RONG研究员
清华数据院为实现 “打造中国大数据最强集团军”这一使命,建设极具活力、开拓进取的教学及科研队伍,鼓励支持数据科学方向的优秀生源,在已有的“RONG”品牌之下,于2016年9月设立了数据科学研究院“RONG基金”。该基金的设立将用于每年聘请“RONG教授”“RONG研究员”以及发放学生“RONG奖学金”,以促进跨学科、跨领域、跨行业的沟通交流,实现清华大数据科研“顶天、立地”的目标。
数据派THU
2018-12-27
1K0
独家 | 一文带你读懂特征工程!
本文描述了一个典型的基于跨行业标准流程的标准机器学习管道,作为数据挖掘行业的标准过程模型。
数据派THU
2018-09-17
5570
大数据时代:从1.0到3.0 | 专访清华社会学系教授罗家德
罗家德:分享一下有关于针对社会、商业、营销大数据而有的社会计算(social computing)的三个阶段,我简称其为大数据1.0 、2.0和 3.0的阶段(更准确地说,这是社会计算区分出来的,可简称其为社会计算1.0 、2.0和 3.0的阶段)。其他大数据应用,如健康、规划、医学等等是不是如此分,我非专业,不敢说,所以这只对与社会科学及管理学理论有关的社会计算而言。
数据派THU
2018-07-30
6900
教你用Python解决非平衡数据问题(附代码)
本文为你分享数据挖掘中常见的非平衡数据的处理,内容涉及到非平衡数据的解决方案和原理,以及如何使用Python这个强大的工具实现平衡的转换。
数据派THU
2018-07-30
6540
数据蒋堂 | 人工智能中的“人工”
自从AlphaGo赢了之后,人工智能就变得非常热门了。不过,大家在关注“智能”时,却很少把注意力放在“人工”上,似乎感觉上了人工智能之后,一切都能自动化了。其实,这份智能的背后有着大量的“人工”,还有相当多不能自动化的事情。 这里的"人工"主要体现在两个方面: 1. 数据准备 现代的人工智能技术,或者说机器学习,其基本方法和N多年前的数据挖掘并没有什么太大的不同,也还是将大量数据喂给计算机用于训练模型,模型生成之后就可以用于自动化处理,看起来就像有了智能。 然而,用于实际业务的机器学习项目,并不像Alph
数据派THU
2018-06-12
6050
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档