首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏作者
2139
文章
1952831
阅读量
188
订阅数
独家 | Scikit-LLM:Sklearn邂逅大语言模型
Scikit-LLM是文本分析的游戏规则改变者,它将功能强大的ChatGPT语言模型和scikit-learn相结合,为理解和分析文本提供了一个无与伦比的工具包。利用scikit-LLM,可以在各种类型的文本数据中发现隐含的模式、情绪和上下文,如客户反馈、社交媒体帖子和新闻文章等。它汇集了语言模型和scikit-learn的优势,能够从文本中提取有价值的见解。
数据派THU
2023-08-08
3040
原创 | SQL和 NoSQL的基本操作和查询语句
SQL是用于管理和操作关系型数据库的语言。它遵循结构化模式,将数据组织成具有预定义关系的表格形式。以下是SQL的一些关键特点:
数据派THU
2023-08-08
3260
李飞飞对话王建民 | 云原生数据库:重启冰山下的战争
来源:阿里研究院 本文约4800字,建议阅读5分钟 云原生正在重构数据库市场的竞争格局。 本期嘉宾: 李飞飞 阿里巴巴集团副总裁、达摩院数据库与存储实验室负责人 王建民 清华大学软件学院院长 安筱鹏 阿里研究院副院长 2020年9月17日,美国数据库公司Snowflake上市,市值一度超过1000亿美元,但其2019年销售额不到3亿美元。 2020年微软取代了Oracle,历史上第一次站在了数据库全球市场的榜首地位。 亚马逊创始人贝索斯曾说,“The real battle will be in dat
数据派THU
2023-03-29
3370
独家|OpenCV 1.1 Mat - 基本图像容器(附链接)
翻译:陈之炎 校对:吴振东、林夕 本文约3600字,建议阅读10分钟本文为大家系统地介绍了OpenCV官方教程。 写在前边 让读者朋友们较为系统地了解和学习OpenCV官方教程,数据派THU翻译组联合研究部共同推出OpenCV官方教程翻译系列。由于所列章节较多,教程将被分为多篇文章持续更新发布。 原文链接:https://docs.opencv.org/4.5.2/de/d7a/tutorial_table_of_content_core.html 目标 我们可以通过多种方式从现实世界中获取数字图像,比如:
数据派THU
2023-03-29
6680
IoTDB——用数据助力十四五战略规划实现
一、IoTDB的研发背景 (一)IoTDB的发展历程 IoTDB是由清华大学大数据软件团队于2016年开始开发的一个物联网数据库项目,旨在满足大规模物联网和工业物联网应用的数据、存储和分析需求。2018年11月,IoTDB进入了Apache孵化器,开始了它的开源之旅。在孵化期间,IoTDB吸引了来自全球的贡献者和用户,并与其他Apache项目如Spark和Hadoop进行了无缝集成。2020年9月,IoTDB正式成为Apache顶级项目,并获2020年北京市科技进步一等奖。2021年10月,IoTDB受邀参
数据派THU
2023-03-29
6930
形象理解傅里叶变换!
来源:机器学习杂货店 本文约3100字,建议阅读6分钟本文分享一篇关于傅立叶变换理解的文章。 这篇文章可以说是介绍傅里叶变换最清晰通俗的,没有之一,直接把你当做小学生来讲,通过大量的动画不但告诉你傅里叶变换是什么,还告诉你傅里叶变换能干什么。 难能可贵的是,你可以通过手动绘制图案和拖动滑块来加深读傅里叶变换的理解。 动画链接: https://www.jezzamon.com/fourier/index.html 傅里叶变换是一种在各个领域都经常使用的数学工具。这个网站将为你介绍傅里叶变换能干什么,为什么
数据派THU
2023-03-29
7550
【2023新书】Python数据科学手册:使用数据的基本工具
来源:专知本文为书籍介绍,建议阅读5分钟只有通过Python数据科学手册,你才能获得所有的资源——ipython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相关工具。 对于许多研究人员来说,Python是一个一流的工具,主要是因为它用于存储、操作和洞察数据的库。这个数据科学技术栈的各个部分有很多资源,但只有通过Python数据科学手册,你才能获得所有的资源——ipython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相关工具。 htt
数据派THU
2023-03-29
4720
从神经搜索到多模态应用
本文约5400字,建议阅读10分钟 从神经搜索到多模态应用,这里的神经搜索指的是在搜索系统中用神经网络模型。 提到神经搜索就必然想到多模态数据,因为神经网络相比于传统搜索方式,其最大的优势就在于可以很方便地对不同模态的数据进行融合。 本文将从以下几个方面进行介绍: 从神经搜索到多模态应用 多模态数据 多模态应用服务 Jina全家桶在DocsQA中的实践 01 从神经搜索到多模态应用 首先看一个典型的多模态数据——新闻,除了文字之外还会有图片的信息,有的新闻还会有视频的信息,它就是一个不同模态数据的混合。
数据派THU
2023-03-29
4880
黄向东:工业物联网数据库 IoTDB及其应用
本文约7200字,建议阅读15分钟 本文分享关于工业时序数据库IoTDB(全称Apache IoTDB)及它的一些应用。 IoTDB源自清华大学软件学院。王院长带领团队从2011年开始关注,2014/2015年开始研制,一路走来始终围绕工业数据软件,其中包括了数据管理软件、机器学习软件、数据处理软件以及应用开发软件。我主要负责数据管理软件。让数据发挥价值,首先要把数据管起来,便于未来的数据处理和应用开发。 今天分享关于工业时序数据库IoTDB(全称Apache IoTDB)及它的一些应用,主要分四个方面:I
数据派THU
2023-03-29
7090
干货 | 数字经济创新创业——数据是数字经济的基础
下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”(数字经济创新创业课程)的精彩内容。
数据派THU
2022-12-16
2720
独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了
Pandas 对 CSV 的输入输出操作是串行化的,这使得它们非常低效且耗时。我在这里看到足够的并行优化空间,但遗憾的是,Pandas 还没有提供这个功能。尽管我从不赞成一开始就使用 Pandas 创建 CSV(请阅读https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f了解原因),但我知道在某些情况下,除了使用 CSV 之外别无选择。
数据派THU
2022-12-16
1.4K0
干货 | 打造数据金库,护航数据安全——构建以数据金库为核心的数据安全基础设施
本文内容整理自《数据安全与数据要素治理研讨会》中,中国电子信息产业集团党组成员、副总经理陆志鹏所做的主题演讲。 ---- 数据安全和数据要素化是当前的重要话题,但同时又是两个不同的研究领域。从2020年底,中国电子与清华大学围绕数据安全和数据要素化展开了联合研究,今天我就其中一部分研究内容和成果给大家做报告,从数据安全领域谈一谈当前面临的形势、解决问题的思路和解决方案,请大家批评指正。 党中央高度重视数据安全。2017年习总书记就强调要切实保障国家数据安全,2020年提出在“保障国家数据安全”的同时需要“加
数据派THU
2022-08-31
1.5K0
NASA发布史上最深的宇宙全彩照!韦伯如何回传150万公里外的太空数据?
来源:大数据文摘本文约3000字,建议阅读5分钟距离地球约150 万公里处的数据,到底是如何被存储并且准确传输到地球的呢? 2022年7月11日凌晨,乔·拜登总统、副总统卡玛拉·哈里斯和美国国家航空航天局局长比尔·纳尔逊公布了耗资100亿美元的詹姆斯·韦伯太空望远镜的首秀! 这是詹姆斯韦伯太空望远镜(JWST)发布了第一批图像。本张图片也是韦伯望远镜发布的首张全彩图像和光谱数据。 根据美国国家航空航天局的说法,这是迄今为止最深的宇宙红外图像!NASA表示,这张照片只用了望远镜四个仪器中的一个12.5小时
数据派THU
2022-07-19
3730
超越所有微调方法,参数量大幅减少,康奈尔大学等提出视觉prompt新方法
来源:机器之心本文约2000字,建议阅读5分钟一种优化 Transformer 的有效方案,在只添加少量参数的情况下,对下游任务有极大的提升效果。 来自康奈尔大学、Meta AI 和哥本哈根大学的研究者提出一种优化 Transformer 的有效方案,在只添加少量参数的情况下,对下游任务有极大的提升效果。 识别问题往往是通过预训练大型基础模型处理大量精选或原始数据的方式解决的。这似乎是一种可行的模式:只需利用最新最好的基础模型,就可以在多个识别问题上取得极大的进展。 然而,在实践中,将这些大型模型用于下游任
数据派THU
2022-05-19
2390
Hive 高频面试题 30 题
来源:大数据技术与架构本文约6000字,建议阅读10分钟本文收集了Hive面试中的高频考题。 如果你是数据开发、数据研发、或数据分析师,那么这篇文章将对你非常有用。记得转发收藏哦。 一、Hive面试题 1、hive内部表和外部表的区别 未被external修饰的是内部表,被external修饰的为外部表。 区别: 内部表数据由Hive自身管理,外部表数据由HDFS管理; 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),
数据派THU
2022-04-06
1.1K0
基于移动机器人的拣货系统研究进展
来源:专知本文约900字,建议阅读5分钟本文为你介绍基于移动机器人的拣货系统。 基于移动机器人的拣货系统(Robotic mobile fulfillment systems, RMFS)作为一种新型物至人的拣货系统, 相比人工拣货系统和AS/RS拣货系统(下文统称传统拣货系统)具有更高的拣货效率、更好的系统可扩展性和柔性. 为全面了解RMFS的运行模式及其优化方向, 本文首先回顾了RMFS的工作流程及优化理论框架, 然后对RMFS的货位指派、订单分批、任务分配、路径规划以及建模方法等问题进行了文献回顾和
数据派THU
2022-03-04
2440
【Manning新书】Kafka实战
来源:专知本文约700字,建议阅读5分钟Kafka in Action介绍了Kafka的核心特性,以及如何在实际应用中使用它的相关例子。 Kafka in Action介绍了Kafka的核心特性,以及如何在实际应用中使用它的相关例子。在其中,您将探索最常见的用例,如日志记录和管理流数据。当你完成之后,你就可以在一个以Kafka为中心的团队中处理基于开发者和管理员的基本任务了。 https://www.manning.com/books/kafka-in-action 这本书分三部分,共十二章。第一部分介
数据派THU
2022-03-04
4490
数据蒋堂 | 数据压缩手段
本文共2600字,建议阅读9分钟。 如果能物理地减少数据存储量,也就自然而然地减少了外存访问量。
数据派THU
2019-09-10
6310
数据蒋堂 | 遍历复用
本文共2500字,建议阅读7分钟。 减少外存(硬盘)访问量一直是提高大数据计算性能的永恒话题。
数据派THU
2019-08-30
4540
独家 | 一文盘点数据集市和数据仓库的差异(附链接)
当一家企业开始应用商业智能(Business Intelligence,BI)的战略和技术时,首先需要明确数据集市和数据仓库的区别。理解这种差异将决定你采用何种BI架构和数据驱动决策。
数据派THU
2018-12-07
9150
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档