AI科技时讯-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

AI科技时讯

专栏成员

290

文章

257268

阅读量

28

订阅数

向量嵌入入门：为开发者准备的机器学习技术

机器学习开发者模型入门数据

可能你还未意识到，但向量嵌入已经渗透到我们生活的方方面面。它们是众多机器学习和深度学习算法的基石，广泛应用于从搜索引擎到人工智能助手等各类应用中。如果计划在这一领域构建自己的应用程序，向量嵌入几乎是不可避免会用到的技术。在本文中，我们将探讨向量嵌入的基本概念及其应用方式。

2024-08-19

1560

从文本到图像：深度解析向量嵌入在机器学习中的应用

对象量化模型数据机器学习

向量嵌入是机器学习领域中一项极具吸引力且实用的技术，它为多种应用提供了基础支撑，包括自然语言处理（NLP）、推荐系统和搜索算法。无论是推荐引擎、语音助手还是语言翻译器，这些系统的背后都可能运用了向量嵌入技术。机器学习算法，与多数软件算法一样，依赖于数字信息进行处理。对于数值数据，通常可以直接使用或将其转换为数值形式，例如将分类数据转换为数字标签，以便于算法处理。

2024-08-05

1300

机器学习中的关键距离度量及其应用

数据算法机器学习函数模型

在当今的数据驱动世界中，机器学习算法扮演着至关重要的角色，它们在图像分类、面部识别、在线内容审核、零售目录优化和推荐系统等多个领域发挥着重要作用。这些算法的核心在于它们能够识别和利用数据之间的相似性。而实现这一点的关键，就在于选择合适的距离度量。

2024-07-15

1150

高效部署：利用PMML实现机器学习模型的无缝集成

模型数据机器学习开源部署

预测模型标记语言（PMML）是一种开放、标准化的语言，用于表示和存储机器学习模型。其主要目的是提供一种跨平台、跨工具的方式来分享和部署预测模型。PMML是由数据挖掘组织（DMG）开发和维护的标准，从最初的版本1.1发展到现在的4.4版本，涵盖了越来越多的模型类型和功能。

2024-07-04

2430

相似性搜索揭秘：向量嵌入与机器学习应用

机器学习对象数据搜索效率

在当今数据驱动的世界中，有效地检索和利用信息是一项关键挑战。在数据库、搜索引擎和众多应用程序中，寻找相似数据是一项基本操作。传统数据库中，基于固定数值标准的相似项搜索相对直接，通过查询语言即可实现，如查找特定工资范围内的员工。然而，当面临更复杂的问题，如“库存中哪些商品与用户搜索项相似？”时，挑战便出现了。用户搜索词可能含糊且多变，如“鞋子”、“黑色鞋子”或“Nike AF-1 LV8”。

2024-06-19

1120

机器学习：更多关于元学习

机器学习教育模型数据算法

2024-06-19

650

机器学习：算法到底学到了什么？

算法网络机器学习迁移学习数据

2024-06-11

670

机器学习领域自适应学习domain adptation

机器学习测试模型数据自适应学习

训练数据和测试数据不一致，比如训练数据是黑白的，测试时彩色的，结果准确率非常低。训练数据和测试数据有点差距的时候，能不能效果也能好呢？这就用到了领域自使用domain adptation

2023-12-01

1660

机器学习介绍

机器学习监督学习 function 程序模型

Hand-crafted rules，叫做人设定的规则。那假设今天要设计一个机器人，可以帮忙打开或关掉音乐，那做法可能是这样：

2023-09-11

2180

机器学习：基于逻辑回归的分类预测

机器学习测试函数模型数据

尽管名为“回归”，逻辑回归实际上是一种分类模型，广泛应用于各个领域。当今社会，深度学习在许多方面已取得了显著成果，使得传统方法相形见绌。然而，正是由于这些传统方法所具有的独特优势，它们依然在各个领域发挥着重要作用。

2023-09-01

3880

数据不平衡问题

https 网络安全机器学习神经网络深度学习

对于一些二分类问题或者多分类问题，部分类别数据相较于其它类别数据而言是要小得多的，这种现象就是数据不平衡问题。数据不平衡问题会导致什么情况呢？假如是基于一些特征判断病人是否患有该疾病，且该疾病是一个小概率获得的疾病，假设概率为0.0001，那么表明有10000个来看病的人中只有一个人患有该疾病，其余9999个人都是正常病人。如果用这样的一批数据进行训练模型算法，即使该模型什么都不学，都判定为正常人，其准确率高达0.9999，完全满足上线要求。但我们知道，这个模型是不科学的，是无用的模型。这种数据分布严重不平衡的情况下，模型将具有严重的倾向性，倾向于数据样本的多的类别，因为模型每次猜样本多对应的类别的对的次数多。因此，如果直接将严重数据不平衡的数据拿来直接训练算法模型，将会遇到上述问题。一般在10倍以上可以判定为数据不平衡问题。

2023-02-14

7290

当前人工智能特别是深度学习最前沿的研究方向是什么？

强化学习迁移学习深度学习神经网络机器学习

当前深度学习技术主要是data driven的，即对一个特定任务来说，只要增加训练数据的规模，深度学习模型的表现就可以得到提高。但是发展到今天，这种思路面临很多挑战。主要面临下面几个问题：

2020-11-19

2.3K0

LSTM介绍及反向传播算法推导

机器学习深度学习人工智能编程算法

LSTM(Long short-term memory)通过刻意的设计来避免长期依赖问题，是一种特殊的RNN。长时间记住信息实际上是 LSTM 的默认行为，而不是需要努力学习的东西！

2020-11-04

1.1K0

如何使用python处理稀疏矩阵

numpy 文件存储机器学习神经网络深度学习

大多数机器学习从业者习惯于在将数据输入机器学习算法之前采用其数据集的矩阵表示形式。矩阵是一种理想的形式，通常用行表示数据集实例，用列表示要素。

2020-05-20

3.5K0

图像检索：基于内容的图像检索技术（二）

机器学习神经网络深度学习人工智能

相同物体图像检索是指对查询图像中的某一物体，从图像库中找出包含有该物体的图像。这里用户感兴趣的是图像中包含的特定物体或目标，并且检索到的图片应该是包含有该物体的那些图片。如1.3图所示，给定一幅”蒙娜丽莎”的画像，相同物体检索的目标就是要从图像库中检索出那些包含有”蒙娜丽莎”人物的图片，在经过相似性度量排序后这些包含有”蒙娜丽莎”人物的图片尽可能的排在检索结果的前面。相似物体检索在英文文献中一般称为物体检索(Object Retrieval)，近似样本搜索或检测(Duplicate Search or Detection)也可以归类于相同物体的检索，并且相同物体检索方法可以直接应用到近似样本搜索或检测上。相同物体检索不论是在研究还是在商业图像搜索产业中都具有重大的价值，比如购物应用中搜索衣服鞋子、人脸检索等。

2020-03-04

1.3K0

南京大学吴建鑫教授「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理

卷积神经网络 https 网络安全机器学习神经网络

【导读】卷积神经网络是深度学习中的基础模型。南京大学吴建鑫教授的「卷积神经网络CNN」笔记，35页pdf初学者学习指南理解CNN数学原理。

2020-03-04

1.5K0

深度学习用于图片的分类和检测总结

机器学习神经网络深度学习人工智能

1. CNN用于分类：具体的过程大家都知道，无非是卷积，下采样，激活函数，全连接等。CNN用于分类要求它的输入图片的大小是固定的（其实不单单是CNN，很多其它的方法也是这样的），这是它的一个不足之处之一。目前的大部分CNN都是用来做分类比较多。

2019-08-16

9630

深度学习任务面临非平衡数据问题？试试这个简单方法

数据库机器学习神经网络深度学习人工智能

对于数据科学或机器学习研究者而言，当解决任何机器学习问题时，可能面临的最大问题之一就是训练数据不平衡的问题。本文将尝试使用图像分类问题来揭示训练数据中不平衡类别的奥秘。

2019-08-16

7440

机器学习在实时性欺诈检测中的应用案例

机器学习神经网络深度学习人工智能数据库

“机器学习”是一门计算机科学，指的是机器对数据进行学习，并执行一些通常来说需要人类智力来完成的任务。现在，该技术正在快速发展的阶段：据Gartner称，到2022年，超过一半的数据和分析服务将由机器代替人来完成，将会比现在增长10％。

2019-08-16

1.3K0

仅用四行代码实现RNN文本生成模型

机器学习神经网络深度学习人工智能 git

文本生成（generating text）对机器学习和NLP初学者来说似乎很有趣的项目之一，但也是一个非常困难的项目。值得庆幸的是，网络上有各种各样的优秀资源，可以用于了解RNN如何用于文本生成，从理论到深入具体的技术，都有一些非常好的资源。所有的这些资源都会特别分享一件事情：在文本生成过程中的某个时候，你必须建立RNN模型并调参来完成这项工作。虽然文本生成是一项有价值的工作，特别是在学习的该过程中，但如果任务抽象程度高，应该怎么办呢？如果你是一个数据科学家，需要一个RNN文本生成器形式的模块来填充项目呢？或者作为一个新人，你只是想试试或者提升下自己。对于这两种情况，都可以来看看textgenrnn项目，它用几行代码就能够轻松地在任何文本数据集上训练任意大小和复杂的文本生成神经网络。 textgenrnn项目由数据科学家Max Woolf开发而成。 textgenrnn是建立在Keras和TensorFlow之上的，可用于生成字符和文字级文本。网络体系结构使用注意力加权来加速训练过程并提高质量，并允许调整大量超参数，如RNN模型大小、RNN层和双向RNN。读者可以在Github上或类似的介绍博客文章中阅读有关textgenrnn及其功能和体系结构的更多信息。

2019-08-16

6830

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态