首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏成员
2149
文章
2147707
阅读量
191
订阅数
原创 | SQL和 NoSQL的基本操作和查询语句
SQL是用于管理和操作关系型数据库的语言。它遵循结构化模式,将数据组织成具有预定义关系的表格形式。以下是SQL的一些关键特点:
数据派THU
2023-08-08
4120
【2023新书】整理财务: R语言
来源:专知本文为书籍介绍,建议阅读5分钟这本教科书在可再现金融上拉开帷幕,并展示了如何通过提供一个完全透明的R代码基础来应用金融和计量经济学的理论概念。 这本教科书在可再现金融上拉开帷幕,并展示了如何通过提供一个完全透明的R代码基础来应用金融和计量经济学的理论概念。聚焦于R的编码和数据分析,我们展示了学生、研究人员、数据科学家和专业人员如何从零开始进行实证金融研究。我们从对初学者友好的R包tidyverse系列介绍开始,我们的方法围绕着它。然后,展示如何访问和准备公共开源数据源(如法国数据库、宏观经济数据
数据派THU
2023-02-27
4390
编程与线性代数
来源:数学中国本文约5400字,建议阅读10+分钟向量模型是整个线性代数的核心,向量的概念、性质、关系、变换是掌握和运用线性代数的重点。 先来了解线性代数是什么东东? 在大学数学学科中,线性代数是最为抽象的一门课,从初等数学到线性代数的思维跨度比微积分和概率统计要大得多。很多人学过以后一直停留在知其然不知其所以然的阶段,若干年之后接触图形编程或机器学习等领域才发现线性代数的应用无处不在,但又苦于不能很好地理解和掌握。的确,多数人很容易理解初等数学的各种概念,函数、方程、数列一切都那么的自然,但是一进入线性代
数据派THU
2023-02-24
4740
干货 | 数字经济创新创业——软件研究
下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。
数据派THU
2022-12-16
4170
独家 | 四个提升数据管道的最佳软件工程策略
二者非常相似,许多起源于软件工程的最佳实践对数据工程同样有效,前提是需要正确地构建它们。
数据派THU
2022-12-16
1990
独家 | GPT-3“知道”我什么?
作者:Melissa Heikkilä  翻译:顾伟嵩校对:欧阳锦 本文约5800字,建议阅读10+分钟本文详细介绍了大型语言网络的隐私安全问题。 大型语言模型是根据从互联网上收集的大量个人数据进行训练的。所以我想知道:它对我有什么影响? 对于一位报道AI的记者来说,今年最大的新闻之一是大型语言模型的兴起。这些人工智能模型生成了本是人类才能写出的文本,有时非常令人信服,他们欺骗了人们,让他们认为自己是有意识的。 这些模型的力量来自于从互联网上收集的大量公开的人造文本。这不禁让我思考:这些模型拥有关于我的什
数据派THU
2022-09-20
3660
干货 | 清华大学叶晓俊《信息安全技术 大数据服务安全能力要求》国家标准修订思考
本文内容整理自《数据安全与数据要素治理研讨会》中,清华大学软件学院教授叶晓俊所做的《信息安全技术 大数据服务安全能力要求》国家标准修订思考的主题演讲。 下面由我向大家介绍由清华大学牵头制定的GB/T 35274-2017 《信息安全技术 大数据服务安全能力要求》国家标准在本次修订过程中我们的一些感想。今天汇报包括以下部分:1)标准修订的背景2)标准修订情况3)标准内容介绍4)标准修订思考5)后续工作安排。 首先回顾该标准修订的背景。2016年全国信息技术安全标准化委员会(简称信安标委)成立大数据安全标准特
数据派THU
2022-08-31
7510
密码就快要彻底消失了,没有人怀念它
来源:果壳本文约3600字,建议阅读6分钟本文介绍了 FIDO 无密码技术。 我打开了一个叫“PasswordMonster”的网站,想测试一下地球人最常用的密码有多(不)安全。 输入“123456”,网站显示这个密码被暴力破解的时间是 0 秒。“88888888”则是 0.01 秒。 现在,你很容易就能找到类似“如何设置一个无法破解的密码”的教程,多花心思就可以创建一个密码,一个需要 60 亿年才能被暴力破解的密码。 但问题是,你很有可能记不住。不然为什么很多人只要没被系统提示密码过于简单,就一定会
数据派THU
2022-08-29
4510
【2022新书】可扩展系统的基础设计:分布式架构
来源:专知本文为书籍推荐,建议阅读5分钟这本实用的书涵盖了一些设计方法和技术,这些方法和技术使得快速且经济有效地扩展应用程序成为可能。 在许多系统中,随着用户基数的增长,可扩展性成为主要的驱动因素。吸引人的特点和高实用性带来了成功,也带来了更多的处理请求和更多的数据管理。但是当在轻负荷下有意义的设计决策突然变成技术债务时,组织就会到达一个临界点。这本实用的书涵盖了一些设计方法和技术,这些方法和技术使得快速且经济有效地扩展应用程序成为可能。 作者Ian Gorton带领软件架构师和开发人员了解基本分布式系统
数据派THU
2022-08-29
3090
清华大学(软件学院)-用友网络科技股份有限公司时序数据与物联应用联合研究中心成立
6月27日上午,“清华大学(软件学院)-用友网络科技股份有限公司时序数据与物联应用联合研究中心”(以下简称“联合研究中心”)成立大会暨揭牌仪式在大数据系统软件国家工程研究中心举行。大数据系统软件国家工程研究中心主任、中国工程院院士孙家广,清华大学软件学院院长王建民,用友网络科技股份有限公司(以下简称“用友网络”)执行副总裁樊冠军及联合研究中心领导及部分研究人员20人参会。会议由王建民院长主持。 清华大学软件学院王建民院长主持成立大会 孙家广院士代表清华大学对用友网络的领导表示欢迎,并对用友网络与清华大学长
数据派THU
2022-06-29
6710
原创 | 手把手带你玩转Apache MADlib
作者:陈之炎 本文约5500字,建议阅读15分钟本文对利用MADlib项目来创建一个框架,以满足大规模数据量的需求。 随着数据规模的不断扩大,目前,许多现有的分析解决方案都无法胜任大规模数据量的计算任务。利用MADlib项目来创建一个框架,以满足大规模数据量的需求,该框架旨在利用现代计算能力,提供适应业务需求的强大解决方案。 概述 MADlib实现方案来自商业实践、学术研究和开源开发社区的多方面努力,它是一个基于SQL的数据库内置的可扩展的开源机器学习库,由Pivotal与UCBerkeley合作开发。MA
数据派THU
2022-06-24
1.2K0
AI指挥无人车队,中国造出世界最大3D打印建筑
来源:新智元本文共2100字,建议阅读9分钟青海羊曲大坝建筑项目将由核心AI操控无人工程车队,用3D打印技术建造。 据《南华早报》和Insider杂志报道,据参与该项目的科学家称,中国正在利用人工智能实质上将青藏高原上的一个水坝项目变成世界上最大的3D打印机。 羊曲大坝将成全球最大3D打印出的建筑物 黄河干流上游的青海羊曲水电站将采用3D打印的相同增材制造工艺,「逐片」建造。工程参与者是无人驾驶的挖掘机、卡车、推土机、摊铺机和压路机,全部由AI规划与控制。 如果工程能按期结束,羊曲水电站将在2024
数据派THU
2022-06-07
2860
知识图谱到底如何落地?这本书阐述企业重数据库与知识图谱的关联
来源:专知本文为书籍分享,建议阅读5分钟本书是在实践中从企业关系数据库设计和构建知识图谱的指南。 这本书是在实践中从企业关系数据库设计和构建知识图谱的指南。它提出了一个原则性框架,其核心是连接关系数据库和知识图谱的映射模式、组织中负责知识图谱的角色,以及将数据和人员组合在一起的过程。本书的内容适用于使用属性图或RDF图技术构建的知识图谱。知识图谱实现了创建大规模集成知识和数据的智能系统的愿景。科技巨头已经采用知识图谱作为下一代企业数据和元数据管理、搜索、推荐、分析、智能代理等的基础。我们现在发现,越来越多
数据派THU
2022-06-07
2840
10 种聚类算法的完整 Python 操作示例
来源:海豚数据科学实验室本文约7000字,建议阅读14分钟本文将介绍一篇关于聚类的文章,10种聚类介绍和Python代码。 聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术,用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将发现如何在 python 中安装和使用顶级聚类算法。 完成本教程后,你将知道: 聚类是在输入数据的特征空间中查找自然组的无监督问题。 对于所有数据集,
数据派THU
2022-05-12
8440
收藏 | 90+深度学习开源数据集整理:包括目标检测、工业缺陷、图像分割等多个方向(附下载)
来源:极市平台本文多干货,建议收藏本文整理汇总了90+深度学习各方向的开源数据集,包含了小目标检测、目标检测、工业缺陷检测、人脸识别、姿态估计、图像分割、图像识别等方向。附下载链接。  小目标检测 1. AI-TOD航空图像数据集 数据集下载地址:http://m6z.cn/5MjlYk AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比,AI-TOD 中目标的平均大小约为 12.8 像素,远小于其他数据集。 2. iSAI
数据派THU
2022-05-05
6.5K0
Hive 高频面试题 30 题
来源:大数据技术与架构本文约6000字,建议阅读10分钟本文收集了Hive面试中的高频考题。 如果你是数据开发、数据研发、或数据分析师,那么这篇文章将对你非常有用。记得转发收藏哦。 一、Hive面试题 1、hive内部表和外部表的区别 未被external修饰的是内部表,被external修饰的为外部表。 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),
数据派THU
2022-04-06
1.4K0
独家 | 利用深度学习来预测Spotify上的Hip-Hop 流行程度
作者:Nicholas Indorf翻译:Gabriel Ng校对:zrx 本文约10000字,建议阅读13分钟项目中收集并使用了 Spotify 数据库中最近发布的hip-hop曲目的音频预览样本和相关的流行度分数。 摘要 在这个项目里面,我想构建一个工具来帮助我的表弟,一位名叫“KC Makes Music”的Hip-Hop艺术家。这个工具将会评估他尚未发布的歌曲是否有在Spotify上流行的潜力。 项目中只收集并使用了 Spotify 数据库中最近发布的hip-hop曲目的音频预览样本和相关的流行度分
数据派THU
2022-04-06
7470
福利 | 2022全球敏捷运维峰会:跟技术老将畅聊时下数据库、运维、金融科技应“云”而生的技术创新
文末有数据派THU福利哦 2022年度Gdevops全球敏捷运维峰会,将于5月13日以广州为起点正式开启! 与大家携手走过的第7个年头,Gdevops始终坚持输出技术干货、传播前沿理念与实战经验。本次广州站峰会,除了致力于帮助大家解决运维、数据库、金融科技等领域的老大难问题以外,Gdevops还希望与产学研界技术同仁一起探索云原生时代、数字化转型背景下的新趋势、新挑战和新解法。 Gdevops全球敏捷运维峰会·广州站 时间:2022年5月13日 地点:广州阳光酒店 指导单位:上海市软件行业协会、上海市
数据派THU
2022-03-28
4540
谷歌AI一次注释了10%的已知蛋白质序列,超过人类十年研究成果
来源:机器之心本文约1800字,建议阅读5分钟和 AlphaFold 不同,这次谷歌探索的是用深度学习给蛋白质打上功能标签。 蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。 目前已知存在的蛋白质种类有数十亿,但其中大约有三分之一的功能是不可知的。我们迫切地需要探索这片未知区域,因为它们关系到抗菌素耐药性,甚至气候变化等重要议题。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可用于减少大气中的二氧化碳。 近日,谷歌与欧洲生物信息学研究所合作开发了一种技术 ProtCN
数据派THU
2022-03-04
2580
杨璐嘉 : 治学无界,不应以文理为自我设限 | 提升之路系列(二)
为了发挥清华大学多学科优势,搭建跨学科交叉融合平台,创新跨学科交叉培养模式,培养具有大数据思维和应用创新的“π”型人才,由清华大学研究生院、清华大学大数据研究中心及相关院系共同设计组织的“清华大学大数据能力提升项目”开始实施并深受校内师生的认可。项目通过整合建设课程模块,形成了大数据思维与技能、跨界学习、实操应用相结合的大数据课程体系和线上线下混合式教学模式,显著提升了学生大数据分析能力和创新应用能力。
数据派THU
2021-12-31
5890
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档