首页
学习
活动
专区
工具
TVP
发布

机器学习原理

专栏作者
119
文章
201171
阅读量
51
订阅数
LLM技术探讨(1)---位置编码
这要从Transformer设计之初说起。在人类语言中,单词的位置和顺序定义了语法,也影响着语义,无法捕获单词的顺序,会导致我们很难理解一句话的含义。
DC童生
2023-09-06
3260
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models
This paper introduces a new prompting strategy called Plan-and-Solve (PS) prompting to improve the performance of large language models (LLMs) in multi-step reasoning tasks. The authors propose two components of PS prompting: devising a plan to divide the task into smaller subtasks, and carrying out the subtasks according to the plan. They also extend PS prompting with more detailed instructions to address calculation errors and improve the quality of generated reasoning steps, resulting in PS+ prompting.
DC童生
2023-07-20
2480
pycharm 的terminal 报错virtualenv无法加载文件activate.ps1
遇到问题如下: 无法加载文件 D:\python_script\venv\Scripts\activate.ps1,因为在此系统上禁止运行脚本。有关详细信息,请参阅 https:/go.micros
DC童生
2022-11-21
1.1K0
用jina快速构建搜索服务
神经搜索工具 特定语法 excutor 编写自己的flow; class MyExecutor(Executor): @requests def foo(self, docs: DocumentArray, **kwargs): docs[0].text = 'hello, world!' docs[1].text = 'goodbye, world!' @requests(on='/crunch-numbers') def bar(sel
DC童生
2022-10-05
5410
从多种生物标志物到以患者为中心的个性化医疗
来自多种模式(组学、成像、临床终点)的生物标志物的使用——尽管在科学界有所增加——在很大程度上落后于将其用于患者筛查作为治疗方案决策支持的承诺。这部分是因为异构实验数据和公共数据的语义整合困难,以及理解相关生物功能的复杂性,这两者对于预测生物学在临床上开发更安全的药物和更有效的治疗至关重要。
DC童生
2022-09-29
5890
[电竞经理]构建一个选手招聘中心的自动推荐工具
工具访问地址 构建一个选手招聘中心的自动推荐工具 输入:标签组合 输出:推荐标签,该标签可能签约的选手
DC童生
2022-07-28
5060
短文本识别说明文档
主要目标是针对临床试验筛选标准进行分类,所有文本数据均来自于真实临床试验,短文本数据来源于中文临床试验注册网站(http://chictr.org.cn/)的临床试验公示信息中的筛选标准模块。数据公开透明,官网也提供下载链接。
DC童生
2022-04-02
1.3K0
机器学习可解释性01--shap
本文介绍shap原理,并给出一个简单的示例揭示shap值得计算过程; 然后介绍如何将shap值转化为我们更容易理解的概率。
DC童生
2022-04-02
1.4K0
《A Cancer Survival Prediction Method Based on Graph Convolutional Network》
摘要 背景 现状:多种基因组数据和临床数据尚未综合考虑癌症并预测其生存率 方法 先对各种数据进行融合,然后用GCN来训练 📷 结论 GCN在癌症生存预测方面的有效性和优越性 介绍 异质性疾病癌症具有不同的分子特征、临床行为、形态学表现和对治疗的不同反应 一些传统的机器学习模型用于预测存活 一些机器学习分类方法,如支持向量机(SVM)[16-18],朴素贝叶斯分类器(NB)[19]和随机森林(RF)[20]也可用于预测癌症存活率。例如,Nguyen等人[21]提出了一种基于随机森林
DC童生
2021-12-13
2860
《Similarity network fusion for aggregating data types on a genomic scale》
链接:https://github.com/yik-cyber/SNFtool 总结 相似融合网络:聚合不同的基因数据类型 论文以计算机视觉多视图方式为启发,设计了一种图融合网络用于解决基因数据不能综合处理的困难。 本文考虑将患同一种癌症的病人组成一个群体,利用群体里面每个病人个体的不同基因数据分别构建不同的图,并设计了一个图融合方式,将不同的图融合成一个最终的图,最终的图包括了所有的基因信息数据,因此是一个综合的结果,利用该综合的结果进行聚类,可以将癌症分为不同的亚型,利用该综合结果进行回归任务,
DC童生
2021-12-13
6040
如何理解Inductive Bias
在训练机器学习任务时候,会有一些假设,比如:KNN中假设特征空间中相邻的样本倾向于属于同一类;SVM中假设好的分类器应该最大化类别边界距离;等等。但是真实世界是没有这些假设的。这些假设是归纳出来的,而且和真实世界有一定的偏置,就叫归纳偏置。 在深度学习方面也是一样。以神经网络为例,各式各样的网络结构/组件/机制往往就来源于归纳偏置。在卷积神经网络中,我们假设特征具有局部性(Locality)的特性,即当我们把相邻的一些特征放在一起,会更容易得到“解”;在循环神经网络中,我们假设每一时刻的计算依赖于历史计算结果;还有注意力机制,也是基于从人的直觉、生活经验归纳得到的规则
DC童生
2021-11-29
4300
开源标准工具Label Studio
是什么 是多种类型的数据标注工具,同时支持机器学习算法 使用流程 📷 一些术语 📷 组件和架构 后端以及前端框架的选择 📷
DC童生
2021-11-24
6620
googole colab Tutorial
为什么使用colab 1.云端使用,打开即用 2.关联google云端硬盘 3.免费GPU资源。 4.容易分享你的代码,配合教学,学习很方便 例子1::下载图片到你的云端硬盘 from google.colab import drive # Import a library named google.colab drive.mount('/content/drive', force_remount=True) %cd /content/drive/MyDrive #change directory to
DC童生
2021-06-08
6260
运营商评论情感分析
简介 提供情感识别能力,可以帮您快速判断一段运营商评论文本的情感得分。 接口能力 接口名称 英文名称 请求方式 API地址 运营商情感分析 sentiment_operation_analysis GET http://192.168.0.19:50001/nlp/sentiment_operation_analysis 参数说明 请求参数 参数名称(英文) 是否必选 数据类型 示例数据 描述 token 是 string 340611b2014541c98ca14737f3892c79 用户标识 tex
DC童生
2021-03-27
3510
高维数据可视化方法——T-SNE
用于高维数据的降维,可视化展示,相比较pca的线性降维,再可视化显示方面显示更加友好。相似的样本由附近的点建模,不相似的样本由高概率的远点建模。
DC童生
2021-03-27
9230
A Growing Neural Gas Network Learns Topologies
image 我们用蓝色实线将这张图划分为16个区域。任意的一对数(也就是横轴x和纵轴y组成的任意的一个坐标点(x, y))都会落到上面这张图中的某一特定区域。然后它就会被该区域的红星的点近似。这里有16块不同区域,就是16个红星点。然后这16个值就可以用4位的二进制码来编码表示(2^4=16)。因此,这是个2-dimensional, 4-bit VQ,它的速率同样是2bits/dimension。上面这些红星点就是量化矢量,表示图中的任意一个点都可以量化为这16个矢量中的其中一个。
DC童生
2021-03-17
7510
Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting(论文阅读02)
我们在两个现实世界的大规模数据集上进行了实验:(1)METR-LA此交通数据集包含从洛杉矶县高速公路上的环路检测器收集的交通信息(Jagadish等,2014)。我们选择了207个传感器,并收集了从2012年3月1日到2012年6月30日的4个月的数据进行实验。 (2)PEMS-BA Y该交通数据集由加利福尼亚州运输机构(CalTrans)绩效评估系统(PeMS)收集。我们在湾区选择了325个传感器,并收集了从2017年1月1日到2017年5月31日的6个月数据进行实验
DC童生
2020-12-21
1.4K0
《Diffusion-Convolutional Neural Networks》(GNN论文阅读01)
输入:拓扑图(节点个数为n),以及节点的数据(维度为m) 建模:对图进行聚合,加入聚合h次,得到聚合的矩阵为,转化为矩阵的大小为(n,m,h) 得到结构化数据之后进行分类。 输出:节点分类或者回归 建模过程示例: 1.输入数据如下:
DC童生
2020-12-03
6410
tensorflow2.3实战循环神经网络
一:理论部分 embedding和变长输入处理 序列式问题 循环神经网络 LSTM模型原理 二:实战 keras实现embedding keras搭建循环神经网络 文本生成 文本分类 1.1embed
DC童生
2020-11-24
4230
tf.random.categorical()用法解析
从一个分类分布中抽取样本(索引对应的概率服从多项分布),输出分类的index tf.random.categorical( logits,#形状为 [batch_size, num_class
DC童生
2020-11-24
9700
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
热点技术征文第五期
新风口Sora来袭,普通人该如何把握机会?
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档