首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

ICML 2024 | Cell2Sentence: 教会大语言模型生物语言

今天为大家介绍的是来自David van Dijk团队和Rahul M. Dhodapkar团队的一篇论文。大型语言模型(如GPT)在自然语言任务中表现出色。在此,作者提出了一种新颖的方法,将这些预训练模型直接应用于生物学领域,特别是单细胞转录组学。作者的方法称为Cell2Sentence,它通过将基因表达数据表示为文本来实现这一点。具体来说,Cell2Sentence方法将每个细胞的基因表达谱转换为按表达水平排序的基因名称序列。作者展示了这些基因序列(“细胞句子”)可以用于微调因果语言模型,如GPT-2。关键的是,作者发现自然语言预训练提升了模型在细胞句子任务上的表现。当在细胞句子上进行微调时,GPT-2在给定细胞类型的情况下可以生成生物学上有效的细胞。相反,当给定细胞句子时,它也可以准确预测细胞类型标签。这表明,使用Cell2Sentence微调的语言模型可以获得对单细胞数据的生物学理解,同时保留其生成文本的能力。作者的方法提供了一个简单、适应性强的框架,可以使用现有的模型和库将自然语言和转录组学结合起来。代码可在以下网址获取:https://github.com/vandijklab/cell2sentence-ft。

01

推荐系统中模型训练及使用流程的标准化

导读:本次分享的主题为推荐系统中模型训练及使用流程的标准化。在整个推荐系统中,点击率 ( CTR ) 预估模型是最为重要,也是最为复杂的部分。无论是使用线性模型还是当前流行的深度模型,在模型结构确定后,模型的迭代主要在于特征的选择及处理方面。因而,如何科学地管理特征,就显得尤为重要。在实践中,我们对特征的采集、配置、处理流程以及输出形式进行了标准化:通过配置文件和代码模板管理特征的声明及追加,特征的选取及预处理等流程。由于使用哪些特征、如何处理特征等流程均在同一份配置文件中定义,因而,该方案可以保证离线训练和在线预测时特征处理使用方式的代码级一致性。

02
领券