数据派THU-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据派THU

专栏成员

2149

文章

2150400

阅读量

191

订阅数

独家 | Scikit-LLM：Sklearn邂逅大语言模型

存储翻译模型数据 LLM

Scikit-LLM是文本分析的游戏规则改变者，它将功能强大的ChatGPT语言模型和scikit-learn相结合，为理解和分析文本提供了一个无与伦比的工具包。利用scikit-LLM，可以在各种类型的文本数据中发现隐含的模式、情绪和上下文，如客户反馈、社交媒体帖子和新闻文章等。它汇集了语言模型和scikit-learn的优势，能够从文本中提取有价值的见解。

2023-08-08

3880

原创 | SQL和 NoSQL的基本操作和查询语句

数据库 nosql sql 存储数据

SQL是用于管理和操作关系型数据库的语言。它遵循结构化模式，将数据组织成具有预定义关系的表格形式。以下是SQL的一些关键特点：

2023-08-08

4140

李飞飞对话王建民 | 云原生数据库：重启冰山下的战争

数据库存储数据系统云原生

来源：阿里研究院本文约4800字，建议阅读5分钟云原生正在重构数据库市场的竞争格局。本期嘉宾：李飞飞阿里巴巴集团副总裁、达摩院数据库与存储实验室负责人王建民清华大学软件学院院长安筱鹏阿里研究院副院长 2020年9月17日，美国数据库公司Snowflake上市，市值一度超过1000亿美元，但其2019年销售额不到3亿美元。 2020年微软取代了Oracle，历史上第一次站在了数据库全球市场的榜首地位。亚马逊创始人贝索斯曾说，“The real battle will be in dat

2023-03-29

3590

独家｜OpenCV 1.1 Mat - 基本图像容器（附链接）

容器存储对象翻译数据

翻译：陈之炎校对：吴振东、林夕本文约3600字，建议阅读10分钟本文为大家系统地介绍了OpenCV官方教程。写在前边让读者朋友们较为系统地了解和学习OpenCV官方教程，数据派THU翻译组联合研究部共同推出OpenCV官方教程翻译系列。由于所列章节较多，教程将被分为多篇文章持续更新发布。原文链接：https://docs.opencv.org/4.5.2/de/d7a/tutorial_table_of_content_core.html 目标我们可以通过多种方式从现实世界中获取数字图像，比如：

2023-03-29

7020

IoTDB——用数据助力十四五战略规划实现

存储大数据物联网管理数据

一、IoTDB的研发背景 (一)IoTDB的发展历程 IoTDB是由清华大学大数据软件团队于2016年开始开发的一个物联网数据库项目，旨在满足大规模物联网和工业物联网应用的数据、存储和分析需求。2018年11月，IoTDB进入了Apache孵化器，开始了它的开源之旅。在孵化期间，IoTDB吸引了来自全球的贡献者和用户，并与其他Apache项目如Spark和Hadoop进行了无缝集成。2020年9月，IoTDB正式成为Apache顶级项目，并获2020年北京市科技进步一等奖。2021年10月，IoTDB受邀参

2023-03-29

8060

形象理解傅里叶变换！

存储动画数据压缩原理

来源：机器学习杂货店本文约3100字，建议阅读6分钟本文分享一篇关于傅立叶变换理解的文章。这篇文章可以说是介绍傅里叶变换最清晰通俗的，没有之一，直接把你当做小学生来讲，通过大量的动画不但告诉你傅里叶变换是什么，还告诉你傅里叶变换能干什么。难能可贵的是，你可以通过手动绘制图案和拖动滑块来加深读傅里叶变换的理解。动画链接： https://www.jezzamon.com/fourier/index.html 傅里叶变换是一种在各个领域都经常使用的数学工具。这个网站将为你介绍傅里叶变换能干什么，为什么

2023-03-29

7900

【2023新书】Python数据科学手册:使用数据的基本工具

机器学习存储工具数据数据科学

来源：专知本文为书籍介绍，建议阅读5分钟只有通过Python数据科学手册，你才能获得所有的资源——ipython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相关工具。对于许多研究人员来说，Python是一个一流的工具，主要是因为它用于存储、操作和洞察数据的库。这个数据科学技术栈的各个部分有很多资源，但只有通过Python数据科学手册，你才能获得所有的资源——ipython、NumPy、Pandas、Matplotlib、Scikit-Learn和其他相关工具。 htt

2023-03-29

5280

从神经搜索到多模态应用

存储服务模型数据搜索

本文约5400字，建议阅读10分钟从神经搜索到多模态应用，这里的神经搜索指的是在搜索系统中用神经网络模型。提到神经搜索就必然想到多模态数据，因为神经网络相比于传统搜索方式，其最大的优势就在于可以很方便地对不同模态的数据进行融合。本文将从以下几个方面进行介绍：从神经搜索到多模态应用多模态数据多模态应用服务 Jina全家桶在DocsQA中的实践 01 从神经搜索到多模态应用首先看一个典型的多模态数据——新闻，除了文字之外还会有图片的信息，有的新闻还会有视频的信息，它就是一个不同模态数据的混合。

2023-03-29

5400

黄向东：工业物联网数据库 IoTDB及其应用

数据库存储物联网管理数据

本文约7200字，建议阅读15分钟本文分享关于工业时序数据库IoTDB（全称Apache IoTDB）及它的一些应用。 IoTDB源自清华大学软件学院。王院长带领团队从2011年开始关注，2014/2015年开始研制，一路走来始终围绕工业数据软件，其中包括了数据管理软件、机器学习软件、数据处理软件以及应用开发软件。我主要负责数据管理软件。让数据发挥价值，首先要把数据管起来，便于未来的数据处理和应用开发。今天分享关于工业时序数据库IoTDB（全称Apache IoTDB）及它的一些应用，主要分四个方面：I

2023-03-29

8560

干货 | 数字经济创新创业——数据是数字经济的基础

大数据数据分析开源存储

下文整理自清华大学大数据能力提升项目能力提升模块课程“Innovation & Entrepreneurship for Digital Economy”（数字经济创新创业课程)的精彩内容。

2022-12-16

3000

独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

文件存储 python 存储

Pandas 对 CSV 的输入输出操作是串行化的，这使得它们非常低效且耗时。我在这里看到足够的并行优化空间，但遗憾的是，Pandas 还没有提供这个功能。尽管我从不赞成一开始就使用 Pandas 创建 CSV（请阅读https://towardsdatascience.com/why-i-stopped-dumping-dataframes-to-a-csv-and-why-you-should-too-c0954c410f8f了解原因），但我知道在某些情况下，除了使用 CSV 之外别无选择。

2022-12-16

1.4K0

干货 | 打造数据金库，护航数据安全——构建以数据金库为核心的数据安全基础设施

数据安全安全存储 .net

本文内容整理自《数据安全与数据要素治理研讨会》中，中国电子信息产业集团党组成员、副总经理陆志鹏所做的主题演讲。 ---- 数据安全和数据要素化是当前的重要话题，但同时又是两个不同的研究领域。从2020年底，中国电子与清华大学围绕数据安全和数据要素化展开了联合研究，今天我就其中一部分研究内容和成果给大家做报告，从数据安全领域谈一谈当前面临的形势、解决问题的思路和解决方案，请大家批评指正。党中央高度重视数据安全。2017年习总书记就强调要切实保障国家数据安全，2020年提出在“保障国家数据安全”的同时需要“加

2022-08-31

1.9K0

NASA发布史上最深的宇宙全彩照！韦伯如何回传150万公里外的太空数据？

来源：大数据文摘本文约3000字，建议阅读5分钟距离地球约150 万公里处的数据，到底是如何被存储并且准确传输到地球的呢？ 2022年7月11日凌晨，乔·拜登总统、副总统卡玛拉·哈里斯和美国国家航空航天局局长比尔·纳尔逊公布了耗资100亿美元的詹姆斯·韦伯太空望远镜的首秀！这是詹姆斯韦伯太空望远镜(JWST)发布了第一批图像。本张图片也是韦伯望远镜发布的首张全彩图像和光谱数据。根据美国国家航空航天局的说法，这是迄今为止最深的宇宙红外图像！NASA表示，这张照片只用了望远镜四个仪器中的一个12.5小时

2022-07-19

4020

超越所有微调方法，参数量大幅减少，康奈尔大学等提出视觉prompt新方法

存储日志服务

来源：机器之心本文约2000字，建议阅读5分钟一种优化 Transformer 的有效方案，在只添加少量参数的情况下，对下游任务有极大的提升效果。来自康奈尔大学、Meta AI 和哥本哈根大学的研究者提出一种优化 Transformer 的有效方案，在只添加少量参数的情况下，对下游任务有极大的提升效果。识别问题往往是通过预训练大型基础模型处理大量精选或原始数据的方式解决的。这似乎是一种可行的模式：只需利用最新最好的基础模型，就可以在多个识别问题上取得极大的进展。然而，在实践中，将这些大型模型用于下游任

2022-05-19

2710

Hive 高频面试题 30 题

数据库 sql 存储 hive mapreduce

来源：大数据技术与架构本文约6000字，建议阅读10分钟本文收集了Hive面试中的高频考题。如果你是数据开发、数据研发、或数据分析师，那么这篇文章将对你非常有用。记得转发收藏哦。一、Hive面试题 1、hive内部表和外部表的区别未被external修饰的是内部表，被external修饰的为外部表。区别：内部表数据由Hive自身管理，外部表数据由HDFS管理；内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），

2022-04-06

1.4K0

基于移动机器人的拣货系统研究进展

来源：专知本文约900字，建议阅读5分钟本文为你介绍基于移动机器人的拣货系统。基于移动机器人的拣货系统(Robotic mobile fulfillment systems, RMFS)作为一种新型物至人的拣货系统, 相比人工拣货系统和AS/RS拣货系统(下文统称传统拣货系统)具有更高的拣货效率、更好的系统可扩展性和柔性. 为全面了解RMFS的运行模式及其优化方向, 本文首先回顾了RMFS的工作流程及优化理论框架, 然后对RMFS的货位指派、订单分批、任务分配、路径规划以及建模方法等问题进行了文献回顾和

2022-03-04

2680

【Manning新书】Kafka实战

来源：专知本文约700字，建议阅读5分钟Kafka in Action介绍了Kafka的核心特性，以及如何在实际应用中使用它的相关例子。 Kafka in Action介绍了Kafka的核心特性，以及如何在实际应用中使用它的相关例子。在其中，您将探索最常见的用例，如日志记录和管理流数据。当你完成之后，你就可以在一个以Kafka为中心的团队中处理基于开发者和管理员的基本任务了。 https://www.manning.com/books/kafka-in-action 这本书分三部分，共十二章。第一部分介

2022-03-04

4880

数据蒋堂 | 数据压缩手段

存储大数据编程算法

本文共2600字，建议阅读9分钟。如果能物理地减少数据存储量，也就自然而然地减少了外存访问量。

2019-09-10

6540

数据蒋堂 | 遍历复用

编程算法 bash 大数据存储 sql

本文共2500字，建议阅读7分钟。减少外存（硬盘）访问量一直是提高大数据计算性能的永恒话题。

2019-08-30

4650

独家 | 一文盘点数据集市和数据仓库的差异（附链接）

企业存储金融 http

当一家企业开始应用商业智能(Business Intelligence，BI)的战略和技术时，首先需要明确数据集市和数据仓库的区别。理解这种差异将决定你采用何种BI架构和数据驱动决策。

2018-12-07

9390

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态