首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2138
文章
1923318
阅读量
188
订阅数
干货 | 智慧教育平台生成式人工智能应用的安全要求
综合性:本标准全面漫盖了智慧教育平台ChatGPT安全保护的要求,以便用户参考,井有利于各类组织和第三方评估机构对慧教育平台的数据处理活动进行监督、管理和评估,从而有效应对数据处理活动中的安全风险。
数据派THU
2023-08-08
1510
干货 | 郭晓雷:数智安全监管机制研究与思考
作者:郭晓雷 本文约4300字,建议阅读8分钟本文报告的主要内容关于数据安全,从学术或者技术的角度,更多地认为人工智能是数据处理的新技术,其应用会产生更加丰富的数据处理活动场景。
数据派THU
2023-08-03
3600
10个Pandas的另类数据处理技巧
来源:DeepHub IMBA本文约2000字,建议阅读5分钟本文介绍了10个Pandas的常用技巧。 本文所整理的技巧与以前整理过10个Pandas的常用技巧不同,你可能并不会经常的使用它,但是有时候当你遇到一些非常棘手的问题时,这些技巧可以帮你快速解决一些不常见的问题。 1、Categorical类型 默认情况下,具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择。我们可以这些列建立索引,并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categori
数据派THU
2023-04-18
1.1K0
干货 | 虹膜识别数据安全要求标准草案、编制说明、应用指南与调研报告
虹膜识别的广泛应用场景与安全风险,且缺乏数据安全要求标准,在对于虹膜识别的产业、技术、法律、标准、安全背景详细的中期调研报告基础上,最终出具了我们原创的标准草案,同时包括详细的编制说明与应用指南,除了规范数据处理者的行为,监管部门与第三方评估机构也可以参照使用。
数据派THU
2023-03-29
3690
干货 | 数据安全和个人信息保护审计的方法研究
我们的研究核心是个人信息保护合规审计,具体指个人信息处理活动是否遵守我国相关法律法规的监督性审计。在个保法出台后,我国形成了以内部审计为主,外部强制审计为辅的审计体系。
数据派THU
2023-03-29
3.8K1
干货 | 涉疫数据的安全应用方案
我们以新冠肺炎疫情为例,构建数据图谱,将涉疫数据分为三个大类,八个小类,共分为50项数据。对具体数据的应用分析,以及不同涉疫数据对于不同涉疫主体的归属和处理活动分析。
数据派THU
2023-03-29
2290
Pandas中Apply函数加速百倍的技巧
来源:kaggle竞赛宝典  本文约2000字,建议阅读5分钟 本文为你介绍让apply函数加速600倍的小技巧。 [ 引言 ] 虽然目前dask,cudf等包的出现,使得我们的数据处理大大得到了加速,但是并不是每个人都有比较好的gpu,非常多的朋友仍然还在使用pandas工具包,但有时候真的很无奈,pandas的许多问题我们都需要使用apply函数来进行处理,而apply函数是非常慢的,本文我们就介绍如何加速apply函数600倍的技巧。 实验对比 01 Apply(Baseline) 我们以Apply为
数据派THU
2023-03-29
5080
【2023新书】现代深度学习表格数据处理:常见建模问题的新方法
来源:专知本文为书籍介绍,建议阅读5分钟这本书提供了一个强大的概念和理论工具包来解决具有挑战性的表格数据问题。 深度学习是现代人工智能领域最强大的工具之一。虽然主要应用于高度专业化的图像、文本和信号数据集,但本书对一个看似不太可能的领域——表格数据,合成并提出了新的深度学习方法。无论是在金融、商业、安全、医学还是无数其他领域,深度学习都可以帮助挖掘和建模表格数据中的复杂模式——这是一种非常普遍的结构化数据形式。 本书的第一部分提供了与整体建模和操作表格数据相关的机器学习原则、算法和实现技能的严格概述。第二
数据派THU
2023-03-29
2320
【干货书】基于机器学习的文本挖掘:原理和技术
来源:专知本文为书籍介绍,建议阅读5分钟本书对基于机器学习的方法在自然语言文本知识发现中的应用提供了一个视角。 本书对基于机器学习的方法在自然语言文本知识发现中的应用提供了一个视角。通过分析各种数据集,可以得出通常不明显的结论,并可用于各种目的和应用。本书解释了应用于文本挖掘的经过时间验证的机器学习算法的原理,并逐步演示了如何使用流行的R语言及其实现的机器学习算法揭示真实世界数据集中的语义内容。这本书不仅面向IT专家,而且面向更广泛的需要处理大量文本文档并具备该主题基本知识的读者,例如电子邮件服务提供商、
数据派THU
2023-03-29
2770
知乎精选 | ChatGPT与数学优化
来源:运筹or帷幄‍‍‍本文约2200字,建议阅读9分钟ChatGPT的准确性和速度以及处理复杂任务的能力使其成为一种非常有用的工具。 作者信息:宋志刚,中国科学院大学物理学博士 一、引言 ChatGPT是一个由OpenAI训练的大型语言生成模型,基于最先进的Transformer技术。它可以理解和生成人类语言,因此可以完成多种文本生成任务,例如问答、对话、文本生成、内容摘要等。它的准确性和速度以及处理复杂任务的能力使其成为一种非常有用的工具。 ChatGPT的技术特点包括: 1)自然语言处理能力:可以理
数据派THU
2023-02-24
9120
万字详解大数据架构新概念
来源:五分钟学大数据 本文约10000+字,建议阅读10+分钟 本文将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析。 随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性。 但是数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充? 本文作者来自阿里巴巴计算平台部门,深度参与阿里巴巴大数据/数
数据派THU
2023-02-23
4120
原创 | 一文读懂 BERT 源代码
文:陈之炎 本文约4400字,建议阅读10+分钟本文对BERT模型预训练任务的源代码进行了详细解读,在Eclipse开发环境里,对BERT 源代码的各实现步骤分步解析。 BERT模型架构是一种基于多层双向变换器(Transformers)的编码器架构,在tensor2tensor库框架下发布。由于在实现过程当中采用了Transformers,BERT模型的实现几乎与Transformers一样。 BERT预训练模型没有采用传统的从左到右或从右到左的单向语言模型进行预训练,而是采用从左到右和从右到左的双向语言
数据派THU
2022-09-14
5300
干货 | 清华大学叶晓俊《信息安全技术 大数据服务安全能力要求》国家标准修订思考
本文内容整理自《数据安全与数据要素治理研讨会》中,清华大学软件学院教授叶晓俊所做的《信息安全技术 大数据服务安全能力要求》国家标准修订思考的主题演讲。 下面由我向大家介绍由清华大学牵头制定的GB/T 35274-2017 《信息安全技术 大数据服务安全能力要求》国家标准在本次修订过程中我们的一些感想。今天汇报包括以下部分:1)标准修订的背景2)标准修订情况3)标准内容介绍4)标准修订思考5)后续工作安排。 首先回顾该标准修订的背景。2016年全国信息技术安全标准化委员会(简称信安标委)成立大数据安全标准特
数据派THU
2022-08-31
6820
100页幻灯片图解《数据出境安全评估办法》及修订对照(附下载)
来源:炼石网络CipherGateway本文多图,建议阅读20+分钟读懂数据出境“安检”要求,落实数据保护“武装”手段。 数据出境安全评估办法 (2022年9月1日施行) 2022年7月7日,国家互联网信息办公室公布《数据出境安全评估办法》(以下简称《办法》),自2022年9月1日起施行。近年来,随着数字经济的蓬勃发展,数据跨境活动日益频繁,数据处理者的数据出境需求快速增长。同时,由于不同国家和地区法律制度、保护水平等的差异,数据出境安全风险也相应凸显。数据跨境活动既影响个人信息权益,又关系国家安全和社会公
数据派THU
2022-07-20
7200
数据科学的面试的一些基本问题总结
来源:Deephub Imba本文约5000字,建议阅读10分钟本文将介绍如何为成功的面试做准备的,以及可以帮助我们面试的一些资源。 在这篇文章中,将介绍如何为成功的面试做准备的,以及可以帮助我们面试的一些资源。 代码开发基础 如果你是数据科学家或软件开发人员,那么应该已经知道一些 Python 和 SQL 的基本知识,这对数据科学家的面试已经足够了,因为大多数的公司基本上是这样的——但是,在你的简历中加入 Spark 是一个很好的加分项。 对于 SQL,你应该知道一些最简单的操作,例如: 从表中选择
数据派THU
2022-06-29
6500
原创 | 破解个人数据“不可能三角”初探
作者:张家林 本文约5300字,建议阅读10分钟个人数据开发利用新范式的主要问题是要解决好开放、隐私和安全。 个人数据开发利用的“不可能三角”是指在个人数据开发利用中,不可能同时满足开放、隐私和安全这三个目标;与此同时,其中任何一个目标都对其他两个目标产生影响,从而无法独立的实现各自目标。 个人数据开发利用的旧范式是App应用服务商向个人提供服务,个人向App应用服务商提供或生产个人数据。App应用服务商通过处理、交易个人数据,从而获得直接或间接收益。在过去几十年中,这种范式处于主导地位。自2016年欧盟推
数据派THU
2022-06-02
2440
清华大学程啸:现代社会中的数据权属问题
程啸 清华大学法学院副院长、教授 习近平总书记指出:“数字技术正以新理念、新业态、新模式全面融入人类经济、政治、文化、社会、生态文明建设各领域和全过程,给人类生产生活带来广泛而深刻的影响。”现代社会是信息时代、网络社会,数据正处于越来越重要的地位。人们将数据比喻为“二十一世纪的石油”,还有人说它是“数字经济的血液”。《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》明确将数据作为一种生产要素,与传统的生产要素如土地、劳动力、资本、技术等并列,并提出加快培育数据要素市场,推进政府数据开放共享
数据派THU
2022-04-25
2150
国家发改委就数据基础制度征求意见 鼓励互联网企业开放公共属性数据
来源:人民网、人民数据本文约2100字,建议阅读5分钟内容涉及数据产权制度、数据要素流通交易制度、数据要素收益分配制度以及数据要素安全治理制度等4个方面。 据国家发展改革委官网消息,国家发展改革委创新和高技术发展司日前发布《关于对“数据基础制度观点”征集意见的公告》(以下简称《公告》),内容涉及数据产权制度、数据要素流通交易制度、数据要素收益分配制度以及数据要素安全治理制度等4个方面,共28条。 《公告》建议以充分实现数据要素价值、推动数字经济发展、促进全体人民共享数据发展红利为根本目的,以优化数据要素布
数据派THU
2022-03-24
2290
「图神经网络东」最新2022综述
来源:专知本文约5000字,建议阅读5分钟本文为你介绍了《图神经网络综述》。 中国石油大学《图神经网络最新》综述论文 近几年来,将深度学习应用到处理和图结构数据相关的任务中越来越受到人们的关注。图神经网络的出现使其在上述任务中取得了重大突破,比如在社交网络、自然语言处理、计算机视觉甚至生命 科学等领域得到了非常广泛的应用。图神经网络可以把实际问题看作图中节点之间的连接和消息传播 问题,对节点之间的依赖关系进行建模,从而能够很好地处理图结构数据。鉴于此,系统综述了图神经网络模型以及应用。首先从谱域、空间域和
数据派THU
2022-03-04
3320
国内高校大数据教研机构调研报告
本篇报告由清华大学大数据研究中心独家支持(原清华-青岛数据科学研究院发起),清华大学新闻传播学院博士后何静(沈阳教授团队)发布,研究内容主要围绕国内高校大数据教研机构的发展现状、教育科研水平及其行业影响力、传播影响力的对比分析等方面。以下为报告部分内容节选:
数据派THU
2021-07-16
5990
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档