首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering实践

为了解决我们其他系统中类似挑战,Uber Engineering Databricks 共同向Apache Spark 2.1开发了局部敏感哈希(LSH)。...LSH是大规模机器学习中常用随机算法哈希技术,包括聚类近似最近邻搜索。 在这篇文章中,我们将讲解Uber如何使用这个强大工具进行大规模欺诈行程检测。 为什么使用LSH?...大规模图片搜索: Google 使用 LSH PageRank 来构建他们图片搜索技术VisualRank。 音频/视频指纹识别:在多媒体技术中,LSH 被广泛用于 A/V 数据指纹识别。...实际上,Uber 在YARNMesos上都使用了几乎所有的Spark组件,如MLlib,Spark SQL,Spark Streaming直接RDD处理; 由于我们基础架构工具围绕Spark构建...与检测欺诈简单暴力算法相比,我们当前数据集下Spark工作完成速度提高了整个数量级(从使用N^2方法约55小时到使用LSH约4小时)。

3.5K90

大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering实践

为了解决我们其他系统中类似挑战,Uber Engineering Databricks 共同向Apache Spark 2.1开发了局部敏感哈希(LSH)。...LSH是大规模机器学习中常用随机算法哈希技术,包括聚类近似最近邻搜索。 在这篇文章中,我们将讲解Uber如何使用这个强大工具进行大规模欺诈行程检测。 为什么使用LSH?...大规模图片搜索: Google 使用 LSH PageRank 来构建他们图片搜索技术VisualRank。 音频/视频指纹识别:在多媒体技术中,LSH 被广泛用于 A/V 数据指纹识别。...实际上,Uber 在YARNMesos上都使用了几乎所有的Spark组件,如MLlib,Spark SQL,Spark Streaming直接RDD处理; 由于我们基础架构工具围绕Spark构建...与检测欺诈简单暴力算法相比,我们当前数据集下Spark工作完成速度提高了整个数量级(从使用N^2方法约55小时到使用LSH约4小时)。

4.1K110
您找到你想要的搜索结果了吗?
是的
没有找到

idea构建springboot_钉钉使用方法技巧

配置简单不需要编写太多xml; 基于spring构建,容易上手; 独立运行不依赖于容器; 内置服务器tomcat不需要打war包; 提供maven极简配置; 对于各种框架有很好集成; 为SpringCloud...微服务奠定基础,使微服务构建变得简单; 下面让我们使用idea一起搭建完整版SpringBoot项目: 一.创建SpringBoot项目 1.打开idea:File->New->Project: 2....Next 4.这里可以选择也可以不选择;我在这里是先选择了,Web下勾选SpringWeb;Template Englines勾选Thymeleaf;SQL勾选MySQL Driver,JDBC API ...自带meven仓库,也可配置自己meven仓库),配置自己需要下载maven仓库jar; 找到idea右侧maven,点击设置工具 maven官网:http://maven.apache.org/download.cgi...curd 在mall数据库新建user 15.在com.sun.mall包下创建model层,mapper层,service层以及实现serviceimpl层,controller层 在各个包层下面创建响应类以及接口

30330

Redis哨兵工作原理、配置使用方法,以及相应最佳实践

本文将详细介绍Redis哨兵工作原理、配置使用方法,以及相应最佳实践。Redis哨兵概述Redis哨兵是一个独立进程,用于监控管理Redis集群高可用性。...其中"master-name"是要监视Redis主节点名称,"ip""port"是该节点IP地址端口号。"...如果没有足够从节点,可能会使用未同步数据进行故障转移,那么在新主节点上可能会丢失数据。...Redis哨兵最佳实践以下列出几个最佳实践,以便在使用Redis哨兵时获得良好性能可靠性:部署足够多哨兵进程。...结论Redis哨兵是一种非常实用工具,可用于监控管理Redis集群高可用性。在使用Redis哨兵时,应该根据情况进行适当配置,并遵循一些最佳实践,以提高性能可靠性。

84320

使用 Spark, LSH TensorFlow 检测图片相似性

为了检测几近重复相似图片,我们使用了一套基于 Spark TensorFlow 数据流处理系统——NearDup。...为此,我们通过将图嵌入向量进一步缩减为 LSH 对象方法,显著缩小了问题规模,降低了处理难度。 LSH 是一种先进数据降维技术,降维前后数据点之间距离关系保持不变。...这个数据流处理过程是用 Spark 实现,并需要借助一系列优化措施来进一步保证这些海量数据能够转化到尽量简单有效地LSH 对象空间中进行处理。...( Off heaping ) 减少了垃圾回收(GC)过载 使用迁移学习候选选择 批量化LSH是产生高查全率(召回率)同时又能最小化计算成本一个很效果方法。...Spark Tensorflow 推断结合使用了分布式计算每个内核矢量化最佳特性,实现了高吞吐量低延迟预测。

1.6K20

大模型RAG向量检索原理深度解析

常规知识库检索通常使用是关键字与词条匹配,随着AGI爆发,越来越多知识库检索开始使用向量检索技术,特别是在RAG领域,增强型生成式问答检索正在大面积应用推广。...特别是在一些知识问答场景,如人工客服,知识库检索等方面,一个问题有很多种描述方法,所以在通过向量查询方式中,根据相似度计算后会最大可能得检索到所有相关答案,然后按照最佳匹配权重返回最理想结果,如大模型中...,不同检索数据检索场景应用检索算法也不一样,以下是几种基础检索算法应用场景简单介绍: 局部敏感哈希(LSH) LSH(Locality Sensitive Hashing),中文叫做“局部敏感哈希...示例: 在一个包含数百万条新闻文本语义检索系统中,可以使用LSH将新闻文本映射为向量并构建索引。查询时将用户查询语句也映射为向量,通过LSH快速检索出与之最相似的新闻文本。...示例: 在一个包含数十亿张图像图像检索系统中,可以使用HNSW将图像特征向量构建索引。查询时将上传图像特征向量输入,通过HNSW高效地检索出最相似的图像。

47700

使用LSH 进行特征提取

主要思想是将相似的数据点映射到同一个"哈希"桶中,从而可以在特定桶中进行搜索,而不必对整个数据集进行线性搜索。虽然这种方法不保证找到确切最近邻,但它在高维数据中提供了一种高效近似搜索方法。...哈希(Hash Table):哈希桶构成了一个哈希,通过在哈希中进行搜索,可以快速定位具有相似性数据点。 LSH性能取决于局部敏感性函数设计哈希桶构建。...这涉及到在保持相似性同时,将数据点映射到不同桶,以及在哈希中组织检索数据。...选择LSH算法LSH桶转换为嵌入方式非常重要。...使用从低分辨率到高分辨率独立级联LSH嵌入(inp_dim = 32,emb_dim = 512,n_proj = 32,num_bins =(1,2,4,8,12,16,20))并将其输出相加。

26030

KD树LSH局部敏感哈希

文档结构 文档表示 距离度量 KD树 原理 构建 查询 复杂度 KD树KNN KD树逼近KNN 不适用高维数据 LSH LSH潜在问题 LSH算法 复杂度 概率逼近 多表 文档结构 文档表示 词袋模型...LSH通过建立hash,将数据分散到不同部分,检索时候只需要检索hash到那部分点即可。该方法提供了大概率上发现NN方法。...复杂度 LSH构建hash复杂度为:hash个数*超平面的个数*数据维度*训练数据 LSH构建hash后检索复杂度为:hash个数*中检索bin个数*每个bin数据 概率逼近 ?...多表 如果检测三个bin,有两种方法: 建立一个,找到检索点对应bin后,在其周围找到两个bin。 建立三个, 每个各找一个bin。...一般来说,当hash直线(位数)越多时,第二种方法概率保证上效果更好,缺点是需要计算多个,计算复杂度比较高。 ?

1.7K80

在MySQL中,使用分库来优化数据库性能,以及它们最佳适用场景优缺点

MySQL分分库是一种数据库架构设计技术,在特定场景下可以优化数据库性能可扩展性。 在MySQL中,可以使用分库来优化数据库性能,具体步骤如下: 1....分: 将一张大拆分为多张小,每个小只包含部分数据,这样可以减少单个数据量查询复杂度。分方法有水平分垂直分两种。...按照字段进行分割,将中部分字段拆分到不同中,通常是将大字段或者不经常使用字段独立出来。...分库: 将数据按照一定规则划分到多个数据库中,每个数据库处理自己数据,这样可以提高并发处理能力负载均衡。分库方法有垂直分库水平分库两种。...以下是MySQL分分库最佳适用场景以及它们优缺点: 最佳适用场景: 高并发读写:当应用程序存在高并发读写需求时,可以通过分分库将数据分散存储在多个数据库中,实现并行处理负载均衡,提高并发处理能力

52631

Rust Wasm 融合,使用 yew 构建 web 前端(5)- 构建 HTTP 请求、与外部服务器通信两种方法

使用 web-sys 我们首先回忆一下前文中使用 web-sys 库获取 GraphQL 数据并解析方法过程。 构建请求 本文中,笔者使用示例为构建一个 GraphQL 请求。...如果你未使用或者不熟悉 GraphQL,直接忽略调 GraphQL 查询体构建部分即可,其它部分请求构建,完全一致。...我们已经在《使用 handlebars、rhai、graphql 开发 Rust web 前端》,以及《Rust Wasm 融合,使用 yew 构建 web 前端》中多次提及,如果有所遗忘请参阅文章...构建请求 本文中,笔者使用示例为构建一个 GraphQL 请求。...构建 GraphQL 请求查询体 QueryBody,或者不使用注意点,请参阅上文《使用 web-sys -> 构建请求》部分。

1.7K20

构建云原生数据仓库和数据湖最佳实践

数据仓库、数据湖和数据流概念架构数据库可以为解决业务问题提供补充。本文介绍了如何使用原生云技术构建现代数据堆栈。...构建云原生数据仓库和数据湖最佳实践 以下探索一下通过数据仓库、数据湖、数据流湖屋构建原生云数据分析基础设施经验教训: 教训1:在正确地方处理存储数据 首先要问问自己:数据用例是什么?...然而,有时两个平台都可以使用。了解底层基础设施,以最佳方式利用它。Apache Kafka可以替换一个数据库!尽管如此,它应该只在少数有意义场景中进行(例如,简化架构或增加业务价值)。...(2)数据流是为实时连续处理数据而构建 这就是事件流发挥作用地方。像Apache Kafka这样平台支持实时处理事务分析工作负载动态数据。 在现代事件驱动架构中不需要反向ETL!...数据产品输入输出数据端口应独立于所选解决方案: Kafka可以成为云原生数据网格一个战略组件。但是,即使不使用数据流,只使用静止数据构建数据网格,也没有什么灵丹妙药。

1K10

pinterest使用 Apache Flink(近)实时地检测图像相似性

设计与实现 对于每个新创建图像,我们运行以下步骤来检测相似图像: 从视觉嵌入中提取 LSH 项 查询自定义搜索引擎(使用 LSH 术语索引引导)以识别一组潜在候选人。...整个系统构建Apache Flink 工作流。 在高层次上,一旦嵌入准备好,就会触发相似性计算。 Pinterest 媒体团队已通过 Kafka 提供通知。...架构图 本节给出图表显示了管道架构本质。 image.png 流与流连接 相似度计算使用不同嵌入(部分用于历史目的)进行 LSH 机器学习评估。...Manas:自定义搜索引擎 我们使用 Manas(Pinterest 可配置搜索引擎)通过 LSH 词匹配来寻找潜在候选图片。 上一篇博文中解释了如何使用 LSH 术语识别相似图像详细信息。...处理失败 我们构建了以下工具来处理故障错误: 在管道中任何主要组件发生故障时回滚到良好状态工具 通过强制将图像更改为簇头映射来修复误报工具 未来工作 最初以图像为中心管道发现了从静态图像到动态

1.5K20

现代数据环境下,如何做数据集成?这11个靠谱实践收藏了

企业应该尽量捕获整个数据流架构每个方面的细节,同时最大限度地减少系统之间紧耦合磨合成本。一个好监控方法应满足以下特性: 将测量值异步传递给外部管理系统。...早期大数据采集开发框架(如Apache SqoopApache Flume)也是如此。...9、分离数据流转系统与基础架构 与为传统数据架构构建单体式解决方案不同,大数据基础设施需要在同类最佳(通常是开源)组件之间进行协调,以实现特定功能,例如提取、消息队列、存储、搜索、分析机器学习。...你不能再使用“即用即走”方法构建数据摄取管道。 在这样系统中,你必须规范化整体运作管理(包括对人员、流程以及系统管理),以确保该系统能可靠地运行并持续满足SLA。...当我们把需要数据从源库里面无侵入、准实时地抽取了出来之后,可能还需要:对来自多个库数据进行合并;对表结构进行重构,组成新模型;构建业务宽等。

58810

基于AIGC写作尝试:深入理解 Apache Hudi

它可以从各种来源(例如Kafka,AWS S3等)读取输入数据流,将其与现有数据集合并,并输出到Hudi中。Hudi Table:Hudi是指使用Hudi进行管理数据集。...Incremental Processing:该功能用于仅处理更改数据流增量部分,而无需重新处理整个数据集。这种方法可显著提高处理速度,并大大降低资源消耗。...使用场景Apache Hudi可以应用于各种大数据场景,以下是几个常见使用案例:实时数据湖:Apache Hudi可以帮助构建实时数据湖,通过支持增量式处理基于时间存储来处理不断涌入数据。...最佳实践以下是使用Apache Hudi时最佳实践建议:了解数据模型访问模式:在使用Hudi之前,了解您数据模型应用程序访问模式非常重要。这将帮助您为您用例选择正确设计配置选项。...以下是优化性能一些技巧建议:使用COPY_ON_WRITE类型以获得最佳性能。这种类型在每次写操作时将数据写入新文件中,为读取密集型工作负载提供更好性能。

1.7K20

将流转化为数据产品

在创建和收集数据时对数据执行分析(也称为实时数据流)并生成即时洞察以加快决策制定能力为组织提供了竞争优势。 组织越来越多地从实时数据流构建低延迟、数据驱动应用程序、自动化智能。...构建实时数据分析管道是一个复杂问题,我们看到客户在使用 Apache Storm、Spark Streaming Kafka Streams 等处理框架时遇到了困难。...Apache Kafka 作为流处理流存储基础至关重要,而 Apache Flink 是处理流最佳计算引擎。...SSB 使用户能够使用开箱即用连接器或他们自己连接器到任何数据源来配置数据提供者。创建数据提供者后,用户可以使用 DDL 轻松创建虚拟。...图 6:流式批处理融合:使用 SQL Stream Builder (SSB),用户可以轻松地为流式批处理数据源创建虚拟,然后使用 SQL 声明过滤、聚合、路由变异数据流表达式。

96710

TikTok背后AI如何运作

使用一系列机器学习深度学习算法与技术用于构建模型并生成适用于个人偏好建议; 微服务架构是底层基础设施,使整个系统快速高效地提供服务。 大数据框架 没有数据,就没有情报。...日志数据通过flumescribe收集汇总。它们通过管道进入Kafka 队列。然后,Apache Storm使用Apache Hadoop生态系统中其他组件实时处理数据流。...它应用了常见推荐方法,例如基于内容过滤 (CBF)、协同过滤 (CF) 更高级矩阵分解 (MF)。...由于高并发性要求,服务是使用 Go 语言和 gRPC 构建。在TikTok中,Go因其良好内置网络并发支持而成为服务开发中主导语言。...gRPC 是一个远程过程控制框架,用于有效地构建和连接服务。 Tiktok成功在于,它将加倍努力提供最佳用户体验。他们构建内部工具,以最大限度地提高低级别(系统级别)性能。

73130

Spark Extracting,transforming,selecting features

; 通过setNames()方法以字符串方式指定索引,这要求向量列有一AttributeGroup将每个Attribute与名字匹配上; 通过整数字符串指定都是可以,此外还可以同时指定整合字符串,...讲挺好,可以参考下; LSH是哈希技术中很重要一类,通常用于海量数据聚类、近似最近邻搜索、异常检测等; 通常做法是使用LSH family函数将数据点哈希到桶中,相似的点大概率落入一样桶,不相似的点落入不同桶中...-sensitive; 在Spark中,不同LSH family通过分离类实现(比如MinHash),每个类都提供用于特征转换、近似相似连接、近似最近邻API; LSH操作 我们选择了LSH能被使用主要操作类型...,每个FittedLSH模型都有方法负责每个操作; 特征转换 特征转换是一个基本功能,将一个hash列作为新列添加到数据集中,这对于降维很有用,用户可以通过inputColoutputCol指定输入输出列...; LSH也支持多个LSH哈希,用户可以通过numHuashTables指定哈希个数(这属于增强LSH),这也可以用于近似相似连接近似最近邻OR-amplification,提高哈希个数可以提高准确率

21.8K41
领券