机器学习原理

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

💡 社交互动怎样突破实时音视频卡顿与高流量消耗瓶颈？

🚀 短剧制作效率低下，AI如何辅助实现智能提效？

在当今快速发展的人工智能领域，检索增强生成（Retrieval-Augmented Generation, RAG）技术已成为一个备受关注的话题。RAG技术结合了检索系统和生成模型的优势，旨在提高回答问题和生成自然语言文本的准确性和一致性。

这要从Transformer设计之初说起。在人类语言中，单词的位置和顺序定义了语法，也影响着语义，无法捕获单词的顺序，会导致我们很难理解一句话的含义。
 

LLM技术探讨（1）---位置编码

This paper introduces a new prompting strategy called Plan-and-Solve (PS) prompting to improve the performance of large language models (LLMs) in multi-step reasoning tasks. The authors propose two components of PS prompting: devising a plan to divide the task into smaller subtasks, and carrying out the subtasks according to the plan. They also extend PS prompting with more detailed instructions to address calculation errors and improve the quality of generated reasoning steps, resulting in PS+ prompting.

Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models

遇到问题如下：

无法加载文件 D:\python_script\venv\Scripts\activate.ps1，因为在此系统上禁止运行脚本。有关详细信息，请参阅 https:/go.micros

pycharm 的terminal 报错virtualenv无法加载文件activate.ps1

神经搜索工具
特定语法
excutor
编写自己的flow；
class MyExecutor(Executor):
    @requests
    def foo(self, docs: DocumentArray, **kwargs):
        docs[0].text = 'hello, world!'
        docs[1].text = 'goodbye, world!'

    @requests(on='/crunch-numbers')

    def bar(sel

用jina快速构建搜索服务

来自多种模式（组学、成像、临床终点）的生物标志物的使用——尽管在科学界有所增加——在很大程度上落后于将其用于患者筛查作为治疗方案决策支持的承诺。这部分是因为异构实验数据和公共数据的语义整合困难，以及理解相关生物功能的复杂性，这两者对于预测生物学在临床上开发更安全的药物和更有效的治疗至关重要。

从多种生物标志物到以患者为中心的个性化医疗

工具访问地址
 构建一个选手招聘中心的自动推荐工具
 输入：标签组合
 输出：推荐标签，该标签可能签约的选手

[电竞经理]构建一个选手招聘中心的自动推荐工具

主要目标是针对临床试验筛选标准进行分类，所有文本数据均来自于真实临床试验，短文本数据来源于中文临床试验注册网站（http://chictr.org.cn/）的临床试验公示信息中的筛选标准模块。数据公开透明，官网也提供下载链接。

短文本识别说明文档

本文介绍shap原理，并给出一个简单的示例揭示shap值得计算过程；
 然后介绍如何将shap值转化为我们更容易理解的概率。

机器学习可解释性01--shap

摘要   背景  现状：多种基因组数据和临床数据尚未综合考虑癌症并预测其生存率  方法    先对各种数据进行融合，然后用GCN来训练     结论 GCN在癌症生存预测方面的有效性和优越性  介绍 异质性疾病癌症具有不同的分子特征、临床行为、形态学表现和对治疗的不同反应  一些传统的机器学习模型用于预测存活 一些机器学习分类方法，如支持向量机（SVM）[16-18]，朴素贝叶斯分类器（NB）[19]和随机森林（RF）[20]也可用于预测癌症存活率。例如，Nguyen等人[21]提出了一种基于随机森林

《A Cancer Survival Prediction Method Based on Graph Convolutional Network》

链接：https://github.com/yik-cyber/SNFtool
 总结
相似融合网络：聚合不同的基因数据类型
论文以计算机视觉多视图方式为启发，设计了一种图融合网络用于解决基因数据不能综合处理的困难。
  本文考虑将患同一种癌症的病人组成一个群体，利用群体里面每个病人个体的不同基因数据分别构建不同的图，并设计了一个图融合方式，将不同的图融合成一个最终的图，最终的图包括了所有的基因信息数据，因此是一个综合的结果，利用该综合的结果进行聚类，可以将癌症分为不同的亚型，利用该综合结果进行回归任务，

《Similarity network fusion for aggregating data types on a genomic scale》

在训练机器学习任务时候，会有一些假设，比如：KNN中假设特征空间中相邻的样本倾向于属于同一类；SVM中假设好的分类器应该最大化类别边界距离；等等。但是真实世界是没有这些假设的。这些假设是归纳出来的，而且和真实世界有一定的偏置，就叫归纳偏置。
 在深度学习方面也是一样。以神经网络为例，各式各样的网络结构/组件/机制往往就来源于归纳偏置。在卷积神经网络中，我们假设特征具有局部性(Locality)的特性，即当我们把相邻的一些特征放在一起，会更容易得到“解”；在循环神经网络中，我们假设每一时刻的计算依赖于历史计算结果；还有注意力机制，也是基于从人的直觉、生活经验归纳得到的规则

如何理解Inductive Bias

是什么 是多种类型的数据标注工具，同时支持机器学习算法 使用流程  一些术语  组件和架构 后端以及前端框架的选择

开源标准工具Label Studio

为什么使用colab
1.云端使用，打开即用
2.关联google云端硬盘
3.免费GPU资源。
4.容易分享你的代码，配合教学，学习很方便
例子1:：下载图片到你的云端硬盘
from google.colab import drive # Import a library named google.colab
drive.mount('/content/drive', force_remount=True)

%cd /content/drive/MyDrive 
#change directory to

googole colab Tutorial

简介
提供情感识别能力，可以帮您快速判断一段运营商评论文本的情感得分。
接口能力
接口名称	英文名称	请求方式	API地址
运营商情感分析	sentiment_operation_analysis	GET	http://192.168.0.19:50001/nlp/sentiment_operation_analysis

参数说明
请求参数
参数名称（英文）	是否必选	数据类型	示例数据	描述
token	是	string	340611b2014541c98ca14737f3892c79	用户标识
tex

运营商评论情感分析

用于高维数据的降维，可视化展示，相比较pca的线性降维，再可视化显示方面显示更加友好。相似的样本由附近的点建模，不相似的样本由高概率的远点建模。

高维数据可视化方法——T-SNE


 
 image
 
 我们用蓝色实线将这张图划分为16个区域。任意的一对数（也就是横轴x和纵轴y组成的任意的一个坐标点(x, y)）都会落到上面这张图中的某一特定区域。然后它就会被该区域的红星的点近似。这里有16块不同区域，就是16个红星点。然后这16个值就可以用4位的二进制码来编码表示（2^4=16）。因此，这是个2-dimensional, 4-bit VQ，它的速率同样是2bits/dimension。上面这些红星点就是量化矢量，表示图中的任意一个点都可以量化为这16个矢量中的其中一个。
 

A Growing Neural Gas Network Learns Topologies

我们在两个现实世界的大规模数据集上进行了实验：（1）METR-LA此交通数据集包含从洛杉矶县高速公路上的环路检测器收集的交通信息（Jagadish等，2014）。我们选择了207个传感器，并收集了从2012年3月1日到2012年6月30日的4个月的数据进行实验。 （2）PEMS-BA Y该交通数据集由加利福尼亚州运输机构（CalTrans）绩效评估系统（PeMS）收集。我们在湾区选择了325个传感器，并收集了从2017年1月1日到2017年5月31日的6个月数据进行实验

Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting(论文阅读02)

输入：拓扑图（节点个数为n），以及节点的数据（维度为m）
 建模：对图进行聚合，加入聚合h次，得到聚合的矩阵为,转化为矩阵的大小为（n,m,h)
 得到结构化数据之后进行分类。
 输出：节点分类或者回归
 建模过程示例：
 1.输入数据如下：

《Diffusion-Convolutional Neural Networks》(GNN论文阅读01)

一：理论部分
embedding和变长输入处理
序列式问题
循环神经网络
LSTM模型原理
二：实战
keras实现embedding
keras搭建循环神经网络
文本生成
文本分类
1.1embed

tensorflow2.3实战循环神经网络

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了机器学习原理专栏，为你提供了机器学习原理的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐