首页
学习
活动
专区
工具
TVP
发布

Tripod

专栏成员
6
文章
4688
阅读量
8
订阅数
技术控,看这里,一款支持断点调试的数据科学工具
数据科学是一门利用统计学、机器学习、数据挖掘、数据可视化等技术和方法,从数据中提取知识和信息的交叉学科。自上世纪60年代,统计学家John W.Tukey首次提出“数据分析”(Data Analysis)的概念起,数据科学已历经了几十年的蓬勃发展,渡过了统计分析、数据挖掘、大数据等几个不同的发展阶段,直到今天的人工智能(AI)时代。
colorknight
2023-05-08
3720
疯狂SQL转换系列- SQL for Milvus
众所周知,邮件、图片、音频、视频等非结构化数据已占据了我们日常生活数据总量的80%以上。如果想要使用计算机来处理这些数据,需要使用embedding技术将它们转化为向量。Milvus作为一款开源的向量数据库,可存储这些向量,并提供基于向量的索引及检索服务。Milvus提供了一套类SQL的数据检索API,方便使用者通过这些API检索数据。由于它与SQL语法间仍有差别,且必须通过编程的方式才能获取数据,使用起来仍不够方便。
colorknight
2023-05-07
5050
“平民化”半结构数据处理
伴随着大数据技术的兴起,半结构化数据得到了迅猛发展,时至今日仍趋势不减。半结构化数据被视为一种特殊的结构化数据,其拥有语义元素,是一种自描述结构。常见的半结构数据格式有,XML、Json等。据IDC预测,2025年,结构化数据规模将达35ZB,约占数据总量的20%。虽无准确数据表明半结构化数据在结构化数据中的占比。但通过我们对日常生产、生活中遇到的各类数据格式推断,半结构化数据占有结构化数据的半壁江山不算为过。比如,我们生活中最常遇到的HTML数据等就是一种特殊的XML结构。伴随着半结构化数据的广泛应用,面向半结构化数据的分析处理需求也不断提升。
colorknight
2023-02-09
9040
“平民化”非结构数据处理
在全球信息产业高速发展的背景下,IDC预测,2018 到 2025 年之间,全球产生的数据量将会从 33 ZB 增长到 175 ZB, 复合增长率27%,其中超过 80%的数据都会是处理难度较大的非结构化数据,如文档、文本、图形、图像、音频、视频等。非结构化数据在大数据时代的重要地位已成为共识。近些年,伴随着大数据存储、人工智能(AI)等技术的蓬勃发展,非结构化数据的价值得到了巨大的发挥。如:自然语言处理、图像识别、语音识别等技术,已在各行业得到广泛应用,并不断的提炼数据中的价值。
colorknight
2023-02-08
8790
SQL检索MongoDB的轻量级解决方案
关于使用SQL访问MongoDB的解决方案,网络上已经可以查到很多。有相当一部分都是比较重的,有的需要安装插件,通过插件界面进行查询交互的,如:DataGrip;有的需要安装分布式计算引擎,并能提供更好的访问性能及应用效果,如:Presto。而对于一些采用MongoDB数据库而没有特别复杂应用的开发场景,即直接使用sql就能很好满足数据库访问需求的轻量级应用场景,方案相对较少一些。本文将介绍一种由MOQL-Transx开源项目提供的采用sql检索MongoDB的轻量级解决方案。
colorknight
2022-02-28
1.3K0
如何实现实时文本过滤
对文本数据进行实时过滤的需求在舆情类系统的开发过程中经常碰到。如:对涉黄、涉政、涉恐文本的过滤;对广告数据的过滤;以及对非业务数据的过滤等。这些过滤需求由于比较难于描述其过滤规则,所有出现了很多分类算法用于对各类文本数据的分类过滤,这些算法在网上已经有很多文章进行了深入探讨,本文不再做赘述。本文将主要探讨一种基于规则的实时文本过滤技术。
colorknight
2021-06-14
7780
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档