首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1935209
阅读量
188
订阅数
独家 | 何时微调大语言模型?
领英(LinkedIn)账号的fork中向我提出了这样一个问题:如何微调诸如LLaMA的开源模型。公司正在寻找销售LLM托管和部署解决方案的业务案例,将人工智能和LLM应用于具体的产品。我问他们为什么不使用像ChatGPT这样的非开源模型时,他们没有给出正确的答案。所以我决定写这篇文章来解答如何利用llm解决日常业务问题。
数据派THU
2023-08-08
3070
原创 | SQL和 NoSQL的基本操作和查询语句
SQL是用于管理和操作关系型数据库的语言。它遵循结构化模式,将数据组织成具有预定义关系的表格形式。以下是SQL的一些关键特点:
数据派THU
2023-08-08
3160
基于AI+数据驱动的慢查询索引推荐
本文约4600字,建议阅读10+分钟本文与你分享美团数据库研发中心跟蔡鹏教授展开科研合作后的具体实践。 目前,美团内部每天产生的慢查询数量已经超过上亿条。如何高效准确地为慢查询推荐缺失的索引来改善其执行性能,是美团数据库研发中心面临的一项挑战。为此,我们与华东师范大学开展了科研合作,在AI领域对索引推荐进行了探索和实践,并将基于代价的方法和新提出的基于AI+数据驱动的方法共同应用于慢查询的索引推荐,成功提升了推荐效果。 1 背景 2 索引推荐介绍 2.1 基于代价的索引推荐 2.2 基于AI+数据驱动的索引
数据派THU
2023-05-18
4530
ChatGPT的提示的一些高级知识
来源:DeepHub IMBA本文约2000字,建议阅读9分钟本文为你提供使用ChatGPT优化提示的知识和技巧。 作为一个大型语言模型(LLM)接口,ChatGPT有令人印象深刻的潜力,但是真正能否用好取决与我们的提示(Prompt ),一个好的提示可以让ChatGPT晋升到一个更好的层次。 在这篇文章中,我们将介绍关于提示的一些高级知识。无论是将ChatGPT用于客户服务、内容创建,还是仅仅为了好玩,本文都将为你提供使用ChatGPT优化提示的知识和技巧。 背景知识 LLM架构知识是一个好的提示的先决
数据派THU
2023-05-11
2220
干货 | 蚂蚁集团阳振坤:从OceanBase看创新软件的研制
今天我会围绕以上几个方面展开:首先,为什么要选这个项目来做,我自己没学过数据库,而且在当时也没用过。项目诞生之后很快就遇到了生存危机,危机之后找到一些发展机会。我经常跟很多人讲,数据库跟图书馆书架特别像,数据库其实就是个数字图书馆,大家想想看在一个块里插一套记录,是不是就相当于插一本书进去把别人的书往后挪一下。 李国杰院士跟我讲:“最好的东西就是ACID,最糟糕的东西也是它”。之所以糟糕,是因为最不好做,最难的也在这里。关系数据库能做很多事,它的核心是具备了三个能力——记账、转账、算账,因为数据库就是在这
数据派THU
2023-04-03
3760
干货 | 移动互联网应用程序(APP)个人信息安全自我评测工具
截止今年6月,我国已经有APP 232万款,手机网民达到10.47亿,在APP中大规模的个人信息收集和使用成为常态,个人信息安全也极容易受到威胁。
数据派THU
2023-03-29
8050
李飞飞对话王建民 | 云原生数据库:重启冰山下的战争
来源:阿里研究院 本文约4800字,建议阅读5分钟 云原生正在重构数据库市场的竞争格局。 本期嘉宾: 李飞飞 阿里巴巴集团副总裁、达摩院数据库与存储实验室负责人 王建民 清华大学软件学院院长 安筱鹏 阿里研究院副院长 2020年9月17日,美国数据库公司Snowflake上市,市值一度超过1000亿美元,但其2019年销售额不到3亿美元。 2020年微软取代了Oracle,历史上第一次站在了数据库全球市场的榜首地位。 亚马逊创始人贝索斯曾说,“The real battle will be in dat
数据派THU
2023-03-29
3350
“河南洪灾”并非偶然?Nature最新封面:全球受洪灾影响人口数量正在扩大
来源:学术头条 本文约3300字,建议阅读6分钟 全球受洪灾影响人口数量正在扩大。 今年夏季汛期,我国河南地区遭受的极端暴雨和洪涝灾害给当地造成了严重损失。 截至 8 月 2 日 12 时,河南全省共有 150 个县(市、区)、1663 个乡镇、1453.16 万人受灾,倒塌房屋 30106 户、89001 间;农作物成灾面积 872万 亩,绝收面积 380 万亩,直接经济损失高达 1142.69 亿元。更令人心痛的是,此次特大洪涝灾害共造成 302 人死亡,50 人失踪。 我们在为遇难者惋惜默哀的同
数据派THU
2023-03-29
2750
全球首个大规模虐童图像数据库!标记15万图像、20类信息,自动判断图片是否违法​
来源:大数据文摘 本文约2000字,建议阅读5分钟 本文主要介绍为打击性虐视频传播,打破各国犯罪数据孤岛,一分析师团队逐渐建立儿童性虐图像元数据库。 去年3月份,韩国N号房一事被曝光,黑产集团用裸照威逼利诱女性、幼童,对受害者实施性剥削的产业链终于公之于大众,在Telegram上的聊天室发布这些性剥削画面供会员观看并收取会费,66名与N号房事件有关人士被捕,主犯也最终被判入狱。 韩国警方所掌握线索的被害女性多达74人,其中16人为未成年人,最小年龄受害者为年仅11岁的小学生。 以N号房为代表的性侵事件涉事
数据派THU
2023-03-29
3790
黄向东:工业物联网数据库 IoTDB及其应用
本文约7200字,建议阅读15分钟 本文分享关于工业时序数据库IoTDB(全称Apache IoTDB)及它的一些应用。 IoTDB源自清华大学软件学院。王院长带领团队从2011年开始关注,2014/2015年开始研制,一路走来始终围绕工业数据软件,其中包括了数据管理软件、机器学习软件、数据处理软件以及应用开发软件。我主要负责数据管理软件。让数据发挥价值,首先要把数据管起来,便于未来的数据处理和应用开发。 今天分享关于工业时序数据库IoTDB(全称Apache IoTDB)及它的一些应用,主要分四个方面:I
数据派THU
2023-03-29
6980
【2023新书】整理财务: R语言
来源:专知本文为书籍介绍,建议阅读5分钟这本教科书在可再现金融上拉开帷幕,并展示了如何通过提供一个完全透明的R代码基础来应用金融和计量经济学的理论概念。 这本教科书在可再现金融上拉开帷幕,并展示了如何通过提供一个完全透明的R代码基础来应用金融和计量经济学的理论概念。聚焦于R的编码和数据分析,我们展示了学生、研究人员、数据科学家和专业人员如何从零开始进行实证金融研究。我们从对初学者友好的R包tidyverse系列介绍开始,我们的方法围绕着它。然后,展示如何访问和准备公共开源数据源(如法国数据库、宏观经济数据
数据派THU
2023-02-27
4060
干货 | 数字经济创新创业——软件研究
下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。
数据派THU
2022-12-16
3980
独家 | 四个提升数据管道的最佳软件工程策略
二者非常相似,许多起源于软件工程的最佳实践对数据工程同样有效,前提是需要正确地构建它们。
数据派THU
2022-12-16
1800
图数据库和知识图谱在微财风控系统中的探索和应用
来源:AI前线 本文约3500字,建议阅读7分钟 本文为你介绍图数据库作为复杂关系网络分析的一个强有力的工具在微财风控系统中的探索和应用。 近年来随着监管力度的不断提升,金融机构业务的不断发展,交易方式越发便利的背景下。客户、账务、资金等关系也越发复杂,黑产也更加隐蔽,对内部风控要求也在不断加强。传统的关系型数据库在这种复杂的关系网络上发挥的效果越发有限,在多维度的查询上很难在合理的时间内返回结果。图数据库作为复杂关系网络分析的一个强有力的工具,如何高效的发挥其在高性能、高扩展、高稳定性方面的能力,显得至
数据派THU
2022-10-09
5050
独家 | GPT-3“知道”我什么?
作者:Melissa Heikkilä  翻译:顾伟嵩校对:欧阳锦 本文约5800字,建议阅读10+分钟本文详细介绍了大型语言网络的隐私安全问题。 大型语言模型是根据从互联网上收集的大量个人数据进行训练的。所以我想知道:它对我有什么影响? 对于一位报道AI的记者来说,今年最大的新闻之一是大型语言模型的兴起。这些人工智能模型生成了本是人类才能写出的文本,有时非常令人信服,他们欺骗了人们,让他们认为自己是有意识的。 这些模型的力量来自于从互联网上收集的大量公开的人造文本。这不禁让我思考:这些模型拥有关于我的什
数据派THU
2022-09-20
3410
干货 | 清华大学叶晓俊《信息安全技术 大数据服务安全能力要求》国家标准修订思考
本文内容整理自《数据安全与数据要素治理研讨会》中,清华大学软件学院教授叶晓俊所做的《信息安全技术 大数据服务安全能力要求》国家标准修订思考的主题演讲。 下面由我向大家介绍由清华大学牵头制定的GB/T 35274-2017 《信息安全技术 大数据服务安全能力要求》国家标准在本次修订过程中我们的一些感想。今天汇报包括以下部分:1)标准修订的背景2)标准修订情况3)标准内容介绍4)标准修订思考5)后续工作安排。 首先回顾该标准修订的背景。2016年全国信息技术安全标准化委员会(简称信安标委)成立大数据安全标准特
数据派THU
2022-08-31
6850
密码就快要彻底消失了,没有人怀念它
来源:果壳本文约3600字,建议阅读6分钟本文介绍了 FIDO 无密码技术。 我打开了一个叫“PasswordMonster”的网站,想测试一下地球人最常用的密码有多(不)安全。 输入“123456”,网站显示这个密码被暴力破解的时间是 0 秒。“88888888”则是 0.01 秒。 现在,你很容易就能找到类似“如何设置一个无法破解的密码”的教程,多花心思就可以创建一个密码,一个需要 60 亿年才能被暴力破解的密码。 但问题是,你很有可能记不住。不然为什么很多人只要没被系统提示密码过于简单,就一定会
数据派THU
2022-08-29
4370
【2022新书】可扩展系统的基础设计:分布式架构
来源:专知本文为书籍推荐,建议阅读5分钟这本实用的书涵盖了一些设计方法和技术,这些方法和技术使得快速且经济有效地扩展应用程序成为可能。 在许多系统中,随着用户基数的增长,可扩展性成为主要的驱动因素。吸引人的特点和高实用性带来了成功,也带来了更多的处理请求和更多的数据管理。但是当在轻负荷下有意义的设计决策突然变成技术债务时,组织就会到达一个临界点。这本实用的书涵盖了一些设计方法和技术,这些方法和技术使得快速且经济有效地扩展应用程序成为可能。 作者Ian Gorton带领软件架构师和开发人员了解基本分布式系统
数据派THU
2022-08-29
2800
清华大学(软件学院)-用友网络科技股份有限公司时序数据与物联应用联合研究中心成立
6月27日上午,“清华大学(软件学院)-用友网络科技股份有限公司时序数据与物联应用联合研究中心”(以下简称“联合研究中心”)成立大会暨揭牌仪式在大数据系统软件国家工程研究中心举行。大数据系统软件国家工程研究中心主任、中国工程院院士孙家广,清华大学软件学院院长王建民,用友网络科技股份有限公司(以下简称“用友网络”)执行副总裁樊冠军及联合研究中心领导及部分研究人员20人参会。会议由王建民院长主持。 清华大学软件学院王建民院长主持成立大会 孙家广院士代表清华大学对用友网络的领导表示欢迎,并对用友网络与清华大学长
数据派THU
2022-06-29
6250
原创 | 手把手带你玩转Apache MADlib
作者:陈之炎 本文约5500字,建议阅读15分钟本文对利用MADlib项目来创建一个框架,以满足大规模数据量的需求。 随着数据规模的不断扩大,目前,许多现有的分析解决方案都无法胜任大规模数据量的计算任务。利用MADlib项目来创建一个框架,以满足大规模数据量的需求,该框架旨在利用现代计算能力,提供适应业务需求的强大解决方案。 概述 MADlib实现方案来自商业实践、学术研究和开源开发社区的多方面努力,它是一个基于SQL的数据库内置的可扩展的开源机器学习库,由Pivotal与UCBerkeley合作开发。MA
数据派THU
2022-06-24
1.2K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档