首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

概率统计——为什么条件概率结果总和直觉不同

所以另一个孩子也是女孩概率是1/3。 这个答案计算过程没什么问题,我想大家应该都能看明白,但是不知道会有多少人觉得奇怪。为什么答案不是 1/2 呢?难道两个孩子性别不是独立吗?...还是之前题目里夫妻,还是那两个孩子(至少有一个是女孩)。不同是,假设有一天我们在公园碰见了这一对夫妻。不过,与此同时,夫妻还带了一个孩子。...我们之前一通分析,用上各种公式进行计算,得到结果明明是1/3,为什么这里就变成 1/2 了呢?这两道题难道不是一样吗?...我们遇见一个女孩条件下,两个都是女孩概率是 ? 这里潜在信息是,我们在公园遇见一个孩子,他是男是女概率是不同。我们遇见了女孩,会改变剩下一个孩子是女孩概率。...这样理解都行得通,但还是没有解决我们之前疑惑,为什么看起来完全一样两件事,得到结果不同呢?就因为我们看到了其中一个孩子吗?可是我们看到孩子,与孩子性别的概率应该无关才对。

1.2K20

数据搜索新战场,我们为什么需要向量数据

向量数据以这些具有隐式语义向量作为数据基础,向上层应用提供搜索服务。在AI作为搜索主要驱动力新阶段,向量数据是构成非结构化数据搜索技术栈重要基础软件。...以下,我们从基本模型角度出发,具体聊一聊为什么文本搜索技术难以适用到更加广泛数据搜索场景,并对向量搜索基本模型进行介绍。...另一方面,在实际搜索业务中往往希望引入多个维度非结构化信息,从而能够更加立体地描述业务对象。以视频推荐为例,其搜索输入是用户特征,而搜索结果是最符合用户当前浏览偏好一组视频。...搜索结果好坏很大程度上依赖于对“用户观看偏好”理解。但用户偏好是一个复杂概念,难以用单一维度信息进行准确描述。...在搜索引擎内部,主要考虑向量空间上操作,包括向量存储、距离计算、搜索过程优化。由于映射过程完全透明,搜索引擎不依赖“映射语义”(如文本搜索中某个词会被映射至某个维度)对搜索过程进行优化。

29220
您找到你想要的搜索结果了吗?
是的
没有找到

数据搜索新战场,我们为什么需要向量数据

向量数据以这些具有隐式语义向量作为数据基础,向上层应用提供搜索服务。在AI作为搜索主要驱动力新阶段,向量数据是构成非结构化数据搜索技术栈重要基础软件。...以下,我们从基本模型角度出发,具体聊一聊为什么文本搜索技术难以适用到更加广泛数据搜索场景,并对向量搜索基本模型进行介绍。 ?...另一方面,在实际搜索业务中往往希望引入多个维度非结构化信息,从而能够更加立体地描述业务对象。以视频推荐为例,其搜索输入是用户特征,而搜索结果是最符合用户当前浏览偏好一组视频。...搜索结果好坏很大程度上依赖于对“用户观看偏好”理解。但用户偏好是一个复杂概念,难以用单一维度信息进行准确描述。...在搜索引擎内部,主要考虑向量空间上操作,包括向量存储、距离计算、搜索过程优化。由于映射过程完全透明,搜索引擎不依赖“映射语义”(如文本搜索中某个词会被映射至某个维度)对搜索过程进行优化。

1.3K10

MySQL索引为什么用B+Tree?InnoDB数据存储文件和MyISAM有何不同

怎么还出来了,存储文件不同?哪怕考察个MVCC机制也行啊。所以这次我就好好总结总结这部分知识点。...IO,将索引数据分批加载到内存中,因此一个好索引数据结构,在得到正确结果前提下,一定是磁盘IO次数最少。...因为能保持平衡,所以它查询时间复杂度为O(logN),至于怎么保持平衡,主要是做一些左旋,右旋等,具体保持平衡细节不是本文主要内容,想了解可自行搜索。...经过以上几点分析,MySQL最终选择了B+Tree作为了它索引数据结构。 InnDB数据存储文件和MyISAM有何不同?...我服务器中MySQL存储数据目录是在: /var/lib/mysql/ 进入到这个目录里后,能看到所有数据目录,新建一个study_test数据

1.5K30

MySQL 不同存储引擎下 count(星) count(1) count(field) 结果集和性能上差异,不要再听网上乱说了

、count(field) 为上层标准结果不同存储引擎底层实现方式可以不相同,但是结果是一样,因此主要比较三种查询方式查询结果。...对于InnoDB这样事务性存储引擎,存储精确行数是有问题。多个事务可能同时发生,每个事务都可能影响计数。InnoDB不保留表内部行数,因为并发事务可能同时看到不同行数。...,对于使用 MyISAM 存储引擎表,如果一个COUNT(*) COUNT(n) 没有其它查询条件,或COUNT(field) 对应列不为 NULL,则会很快返回计数结果。...其实这是因为 MyISAM 表统计信息中有表实际行数统计信息。不同于InnoDB中字段只是一个估计值。...在我博客上,你将找到关于Java核心概念、JVM 底层技术、常用框架如Spring和Mybatis 、MySQL等数据管理、RabbitMQ、Rocketmq等消息中间件、性能优化等内容深入文章。

25820

如何用Serverless云函数做免费私域流量运营机器人

[39w8igablh.png] 这样之后,每天8点你企业微信群就能收到如下图消息了。 [61tqqnrek7.png] 知识搜索 上一个例子是单向通信例子。那这个例子则是双向通信例子。...在企业中,以及在私域流量运营中,我们经常有搜索知识寻找答案场景。这里我们就以搜索腾讯云文档为例,来向大家讲解如何完成一个双向通信知识搜索机器人。...我们要做就是当输入关键字,就去腾讯云文档搜索结果并返回,同时高亮显示关键字和文档链接。 首先,还是一样,你需要创建一个云函数。...完成了上述设置之后,你在群聊中@机器人并输入你想搜索关键字,你云函数就会收到对应JSON消息,msgContent就是你搜索关键字。...code=XXX>" } 这个时候你只需要拿到msgContent内容,然后去调用腾讯云文档搜索API,拿到JSON结果,把JSON结果处理为如下图中markdown格式,并返回。

1.9K71

如何用 Serverless 云函数免费做一个私域流量运营机器人

这样之后,每天8点你企业微信群就能收到如下图消息了。 知识搜索 上一个例子是单向通信例子。那这个例子则是双向通信例子。...在企业中,以及在私域流量运营中,我们经常有搜索知识寻找答案场景。这里我们就以搜索腾讯云文档为例,来向大家讲解如何完成一个双向通信知识搜索机器人。...我们要做就是当输入关键字,就去腾讯云文档搜索结果并返回,同时高亮显示关键字和文档链接。 首先,还是一样,你需要创建一个云函数。...完成了上述设置之后,你在群聊中@机器人并输入你想搜索关键字,你云函数就会收到对应 JSON 消息,msgContent就是你搜索关键字。...code=XXX>" } 这个时候你只需要拿到msgContent内容,然后去调用腾讯云文档搜索API,拿到 JSON 结果,把 JSON 结果处理为如下图中 markdown 格式,并返回。

1.4K30

前端 VS 后端

前端和后端完全是不同野兽。我能正确地学习后端之前,我必须尊重他们差异。...如果有人无法忍受我们动效怎么办? 用户喜欢明亮主题还是暗黑主题? 我们考虑很多东西 -- 从用户视图层面。这就是为什么我说前端是有关视觉。 我们为用户着想。然后我们为他们构建产品。...当我们构建后端时,我们会问如下问题: 我们需要从前端那里得到什么信息? 我们应该传什么信息到数据/API? 在数据/API上操作是否正确保存? 数据/API返回什么信息呢?...(想象一下,如果你发送了一些东西,但是没有收到任何回复的话会发生什么...)。但是,这是更加高级的话题了。...不同心理模型 这是我在学习后端早期观察到一种常见模式: 我会假设事情向着特定方式运行 我会在Google上搜索,如何通过我想到具体方式来实现东西 (Google结果也许是空) 我会破解它并构建自己基础设施

27610

【译】前端 VS 后端

前端和后端完全是不同野兽。我能正确地学习后端之前,我必须尊重他们差异。...如果有人无法忍受我们动效怎么办? 用户喜欢明亮主题还是暗黑主题? 我们考虑很多东西 -- 从用户视图层面。这就是为什么我说前端是有关视觉。 我们为用户着想。然后我们为他们构建产品。...当我们构建后端时,我们会问如下问题: 我们需要从前端那里得到什么信息? 我们应该传什么信息到数据/API? 在数据/API上操作是否正确保存? 数据/API返回什么信息呢?...(想象一下,如果你发送了一些东西,但是没有收到任何回复的话会发生什么...)。但是,这是更加高级的话题了。...不同心理模型 这是我在学习后端早期观察到一种常见模式: 我会假设事情向着特定方式运行 我会在Google上搜索,如何通过我想到具体方式来实现东西 (Google结果也许是空) 我会破解它并构建自己基础设施

52920

Grafana 系列文章(九):开源云原生日志解决方案 Loki 简介

下面是在 Grafana Labs 博客和演讲中反复出现一张图: 今天现实:不同系统,不同数据 Slack 向我发出警告,说有问题,我就打开 Grafana 上服务相关仪表盘。...现在,Loki 可能每秒收到数百万条写,我们不想在它们进来时就把它们写到数据中。那会搞宕任何数据。需要在数据进入时对其进行批处理和压缩。...一旦块 "填满 "了,我们就把它刷到数据中。我们为块(ObjectStorage)和索引使用不同数据,因为它们存储数据类型是不同。...Querier(查询器) 读取路径非常简单,由 Querier 来完成大部分繁重工作。给定一个时间范围和标签选择器,它查看索引以找出匹配块,并通过它们进行搜索,给你结果。...它还与 ingesters 对话,以获得尚未被刷到最新数据。 请注意,在 2019 年版本中,对于每个查询,一个 Ingester 为你搜索所有相关日志。

1.8K40

全新 Range Search 功能,可精准控制搜索结果

顾名思义,Range Search 即范围搜索不同于 KNN Search 返回最相似的 TOP-K 个结果,Range Search 会返回向量距离落于某一区间 TOP-K 个结果。...以下是接收到搜索请求时所采取步骤: SDK 接到一个用户查询请求,在 search param 中包含了 radius 和 range_filter 信息; proxy 在收到这个查询请求后,生成一个...中带参数,如果有 radius,则调用 knowhere::RangeSearch; knowhere 再根据索引类型调用到对应第三方 range_search 函数。...目前,所有的第三方索引都只支持单边 Range Search,也就是只接收一个参数 radius,而且返回结果是全量未排序结果。...接下来我会讲一下详细使用指南,在指南最后还提供了 Python 示例代码。 开始前 请确保已安装并运行 Milvus。

42130

说说我最近招人感受。。

收到简历很多,但认真投递、符合要求却寥寥无几,而且都是我自己看简历、选人、回复、面试,让本就饱和工作量更加雪上加霜,到最后真的是身心俱疲了。...但我是不相信这类道具效果,有缘人自然会出现~ 不过其中有一个道具很有意思,竟然可以批量给求职者发消息: 为什么很多同学反馈在 BOSS 上收到 HR 消息像机器人,破案了!...BOSS 后台还有 “人才” 功能,这个还挺方便,能直接捞到在硬性条件上符合你预期的人: 不过我也不指望用这种 “搜索方式招人,因为学历、经验这些标签,都是候选人自己可以随意修改,你懂我意思吧...: 当然,倒也不会只通过这种招呼语方式去筛选求职者,后台还提供了直接看候选人基本求职信息功能,我会在这里捞一捞符合要求同学: 结果你猜怎么着,和我沟通近 100 个人中,真正符合我发布岗位时设置基本要求...所以这里给到大家建议是,在个人介绍中,除了写基本技能、经历之外,尽量写一些与众不同内容。

30320

GitHub代码搜索服务发展历史

搜索界面将让您在源代码中输入您要查找任何内容,并获得我们公共存储中匹配任何文件突出显示结果。 您还将获得一个侧边栏,其中包含结果语言细分和存储细分方面计数。...您还可以搜索任何特定语言,如果您要通过在下拉列表中选择该语言来查找特定内容: 您还可以通过单击侧栏中列出语言或存储之一来细化搜索结果,以仅深入查看这些结果: 发布后不久,当时处于测试阶段 Google...搜索将忽略这些符号。 源代码不像普通文本,那些“标点符号”字符实际上很重要。 那么为什么它们会被 GitHub 生产代码搜索忽略呢?...上述方法是对不同策略进行仔细试验结果,代表了一种很好折衷方案,使我们能够启动和发展代码搜索近十年。 源代码另一个考虑因素是子字符串匹配。...当然,发生匹配存储也会影响排名。我们希望在作为测试创建长期被遗忘存储随机匹配之前显示来自流行开源存储结果。 所有这一切都在进行中。

1.3K10

通俗讲解:缓存、缓存算法和缓存框架

在他使用了他最爱搜索引擎搜索之后,他找到了一篇很不错关于缓存文章,并且开始去阅读…… 4 为什么我们需要缓存?...存储成本: 当没有命中时,我们会从数据取出数据,然后放入缓存。而把这个数据放入缓存所需要时间和空间,就是存储成本。 索引成本: 和存储成本相仿。...Most Recently Used(MRU): 我是 MRU,和 LRU 是对应我会移除最近最多被使用对象,你一定会问我为什么。...我是 FIFO 一样也是在观察队列前端,但是很FIFO立刻踢出不同我会检查即将要被踢出对象有没有之前被使用过标志(1一个 bit 表示),没有没有被使用过,我就把他踢出;否则,我会把这个标志位清除...文章作者收到了邮件,具有讽刺意味是,这个作者就是面试 programmer one 的人 ,作者回复了…… 在这一部分中,我们来看看如何实现这些著名缓存算法。

1.3K60

通俗讲解:缓存、缓存算法和缓存框架简介

在他使用了他最爱搜索引擎搜索之后,他找到了一篇很不错关于缓存文章,并且开始去阅读…… 为什么我们需要缓存?...存储成本: 当没有命中时,我们会从数据取出数据,然后放入缓存。而把这个数据放入缓存所需要时间和空间,就是存储成本。 索引成本: 和存储成本相仿。...Most Recently Used(MRU): 我是 MRU,和 LRU 是对应我会移除最近最多被使用对象,你一定会问我为什么。...我是 FIFO 一样也是在观察队列前端,但是很FIFO立刻踢出不同我会检查即将要被踢出对象有没有之前被使用过标志(1一个 bit 表示),没有没有被使用过,我就把他踢出;否则,我会把这个标志位清除...文章作者收到了邮件,具有讽刺意味是,这个作者就是面试 programmer one 的人 ,作者回复了…… 在这一部分中,我们来看看如何实现这些著名缓存算法。

51720

【真实面试经历】我和阿里面试官一次“邂逅”(附问题详解)

举个例子:某个黑客故意制造我们缓存中不存在 key 发起大量请求,导致大量请求落到数据。 总结一下就是: 缓存层不命中。 存储层不命中,不将空结果写回缓存。 返回空结果给客户端。...所以,一般 3000 并发请求就能打死大部分数据了。 面试官: 小伙子不错啊!还准备问你:“为什么 3000 并发能把支持最大连接数 4000 数据压死?”想不到你自己就提前回答了!不错!...举个简单例子: 如图所示,当字符串存储要加入到布隆过滤器中时,该字符串首先由多个哈希函数生成不同哈希值,然后在对应位数组下表元素设置为 1(当位数组初始化时 ,所有位置均为 0)。...我把所有可能存在请求值都存放在布隆过滤器中,当用户请求过来,我会先判断用户发来请求值是否存在于布隆过滤器中。不存在的话,直接返回请求参数错误信息给客户端,存在的话才会走下面的流程。...我:内心 os :“问题本质想问:不管是文件读写还是网络发送接收,信息最小存储单元都是字节,那为什么 I/O 流操作要分为字节流操作和字符流操作呢?”

53700

2018-11-23 当我们输入一条 SQL 查询语句时,发生了什么?

不同存储引擎表数据存取方式不同,支持功能也不同,在后面的文章中,我们会讨论到引擎选择。 从图中不难看出,不同存储引擎共用一个 Server 层,也就是从连接器到执行器部分。...你可以先对每个组件名字有个印象,接下来我会结合开头提到那条 SQL 语句,带你走一遍整个执行流程,依次看下每个组件作用。 连接器 第一步,你会先连接到这个数据上,这时候接待你就是连接器。...你可以看到,如果查询命中缓存,MySQL 不需要执行后面的复杂操作,就可以直接返回结果,这个效率会很高。 但是大多数情况下我会建议你不要使用查询缓存,为什么呢?因为查询缓存往往弊大于利。...查询缓存失效非常频繁,只要有对一个表更新,这个表上所有的查询缓存都会被清空。因此很可能你费劲地把结果存起来,还没使用呢,就被一个更新全清空了。对于更新压力大数据来说,查询缓存命中率会非常低。...这两种执行方法逻辑结果是一样,但是执行效率会有不同,而优化器作用就是决定选择使用哪一个方案。 优化器阶段完成后,这个语句执行方案就确定下来了,然后进入执行器阶段。

75750

【真实面试经历】我和阿里面试官一次“邂逅”(附问题详解)

举个例子:某个黑客故意制造我们缓存中不存在 key 发起大量请求,导致大量请求落到数据。 总结一下就是: 缓存层不命中。 存储层不命中,不将空结果写回缓存。 返回空结果给客户端。...所以,一般 3000 并发请求就能打死大部分数据了。 面试官: 小伙子不错啊!还准备问你:“为什么 3000 并发能把支持最大连接数 4000 数据压死?”想不到你自己就提前回答了!不错!...布隆过滤器hash计算如图所示,当字符串存储要加入到布隆过滤器中时,该字符串首先由多个哈希函数生成不同哈希值,然后在对应位数组下表元素设置为 1(当位数组初始化时 ,所有位置均为 0)。...我把所有可能存在请求值都存放在布隆过滤器中,当用户请求过来,我会先判断用户发来请求值是否存在于布隆过滤器中。不存在的话,直接返回请求参数错误信息给客户端,存在的话才会走下面的流程。...我:内心 os :“问题本质想问:不管是文件读写还是网络发送接收,信息最小存储单元都是字节,那为什么 I/O 流操作要分为字节流操作和字符流操作呢?”

64930

使用resnet, inception3进行fine-tune出现训练集准确率很高但验证集很低问题

通过查看github和博客发现是由于BN层导致,国外已经有人总结并提了一个PR(虽然并没有被merge到Keras官方中),并写了一篇博客,也看到知乎有人翻译了一遍:KerasBN你真的冻结对了吗...在这篇文章中,我会构建一个案例来说明为什么KerasBN层对迁移学习并不友好,并给出对Keras BN层一个修复补丁,以及修复后实验效果。 1....因此,如果你冻结了底层并微调顶层,顶层均值和方差会偏向新数据集,而推导时,底层会使用旧数据集统计值进行归一化,导致顶层接收到不同程度归一化数据。 ?...,因为模型正是使用训练集均值和方差统计值来训练,而这些统计值与冻结BN中存储不同,冻结BN中存储是预训练数据集均值和方差,不会在训练中更新,会在测试中使用。...CNN-RNN-CTC 实现手写汉字识别 yolo3 检测出图像中不规则汉字 同样是机器学习算法工程师,你面试为什么过不了?

2.2K20

理解什么是CDN

可是我在河南同学在京东(自营)买了一个手机下午购买第二天早晨就收到货了(并不是给京东打广告)。这是为什么呢?...的确,这两者目的其实都是加速用户访问,但是侧重点完全不同。CDN 重点在于分发,对象存储重点在于存储。可以把对象存储简单理解为网盘,CDN 是高速公路。...使用 CDN 好处 说了这么多,如果只是为了加速网站访问速度,完全可以选择其他方式,为什么一定要用 CDN 呢?或者说,除了可以加速,CDN 还有什么好处? 有利于搜索排名。...谷歌等搜索引擎已经把网站访问速度作为一个结果排名重要指标了。 网站不容易宕机。其实这就和把鸡蛋放在很多篮子里是一个道理,多个服务器分流之后,源站压力就会小很多。 减少托管成本。...一般在 html 中使用时候我会直接去 BootCDN 上复制粘贴下需要使用

2.1K10
领券