喔家ArchiSelf-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

喔家ArchiSelf

一个20多年的老码农一个半吊子全栈工匠

专栏成员

322

文章

373456

阅读量

43

订阅数

面向数据产品的10个技能

产品工具模型数据机器学习

【引子】本文源自和一个产品经理的对话。由于老码农经历过产研一体的磨砺，鉴于个人对数据型产品感知，觉得一些数据科学的基础技能对产品经理或者普通的研发工程师都会有些帮助，遂成此文。

半吊子全栈工匠

2024-06-27

990

解读大模型应用的可观测性

机器学习监控模型数据系统

似乎在一夜之间，每个IT企业的待办事项清单以及招聘启事都包含了生成式AI，基于大模型的应用已经在改变人们的工作、学习、写作、设计、编码、旅行和购物的方式，而且可能只是冰山一角。

半吊子全栈工匠

2024-06-03

2270

数据集中的10种变量类型

机器学习变量函数模型数据

在任何数据集中，尤其是表格形式的数据集中，我们通常将列分类为特征或目标。在处理和分析数据时，理解哪些是特征哪些是目标对于构建有效的模型至关重要。

半吊子全栈工匠

2024-05-22

1160

机器学习模型性能的10个指标

机器学习模型数据算法性能

尽管大模型非常强大，但是解决实践的问题也可以不全部依赖于大模型。一个不太确切的类比，解释现实中的物理现象，未必要用到量子力学。有些相对简单的问题，或许一个统计分布就足够了。对机器学习而言，也不用言必深度学习与神经网络，关键在于明确问题的边界。

半吊子全栈工匠

2023-12-28

2.1K0

浅析多模态机器学习

机器学习翻译函数模型数据

GPT-4的发布给ChatGPT带来了又一次飞跃，ChatGPT不仅支持文字输入，还能看得懂图片、甚至是漫画、梗图，以GPT-4为代表的多模态大模型非常强大。多模态大模型就是指模型可以处理多种结构/类型的数据，例如GPT-4，它既可以处理你输入的文本，也可以处理你上传的图片。

半吊子全栈工匠

2023-09-02

4050

隐私计算中的联邦学习

联邦学习编程算法数据分析安全机器学习

数据资产已经成为产品和服务设计的关键工具，但是集中采集用户数据会使个人隐私面临风险，进而使组织面临法律风险。从2016年开始，人们开始探索如何在用户隐私保护下使用数据的所有权和来源，这使得联邦学习和联邦分析成为关注的热点。随着研究范围的不断扩大，联邦学习已经开始应用到物联网等更广泛的领域。

半吊子全栈工匠

2022-12-03

9410

算法与模型的浅析

编程算法机器学习决策树神经网络深度学习

讨论问题的前提是概念的澄清，概念的混淆是研发沟通中的一大障碍，极大地影响了沟通的效率。在人工智能尤其是机器学习领域，算法和模型是两个相关而又有区别的两个概念，弄清二者的含义和联系可以使我们讨论的问题更加明确。

半吊子全栈工匠

2022-12-03

2K0

一文读懂“语言模型”

NLP 服务机器学习深度学习

【摘要】自然语言处理(NLP)近年来发生了革命性的变化，特别预训练语言模型的开发和使用，在许多应用方面都取得了显著的成绩。预训练语言模型有两个主要优点：一个是可以显著提高许多 NLP 任务的准确性。例如，可以利用 BERT 模型来获得比人类更高的语言理解能力，可以利用 GPT-3模型来生成类似于人类文字的生成文本。第二个优点是通用的语言处理工具。如果在传统的自然语言处理中进行基于机器学习的任务，需要标记大量的数据来训练模型。相比之下，目前只需要标记少量数据就可以对预先训练好的语言模型进行微调即可。

半吊子全栈工匠

2022-12-03

7820

清单管理？面向机器学习中的数据集

机器学习神经网络深度学习人工智能其他

毋庸置疑的是，数据在机器学习中起着至关重要的作用。每个机器学习模型实例都是使用静态数据集的形式进行训练和评估，这些数据集的特性从根本上影响了模型的行为: 如果一个模型的部署环境与它的训练或评估数据集不匹配，或者这些数据集存在不必要的误差和偏见，那么它就不可能有良好的表现。当机器学习模型应用于高风险领域时，如招聘和金融等领域时，这种不匹配会产生特别严重的后果。即使在其他领域，不匹配也可能导致收益的损失。

半吊子全栈工匠

2021-12-13

5870

AI系统中的偏差与偏见

机器学习神经网络深度学习人工智能编程算法

人工智能系统中存在着偏见，但是有偏见的算法系统并不是一个新现象。随着包括司法和健康等领域在内的各种组织都在采用人工智能技术，人们开始关注对基于人工智能的决策缺乏问责制和偏见。从人工智能研究人员和软件工程师到产品领导者和消费者，各种各样的利益相关者都参与到人工智能流水线中。在人工智能、数据集以及政策和权利领域的必要专业知识，可以共同揭示偏见，但是，这些利益相关者之间并不是统一可用的。因此，人工智能系统中的偏见会在不明显的情况下复合。

半吊子全栈工匠

2021-08-06

9700

难以捉摸？机器学习模型的可解释性初探

编程算法强化学习监督学习机器学习神经网络

有监督的机器学习模型往往具有显著的预测能力，很多学术文献为解释性提供了多样的、有时是稍有矛盾的描述，并提供了很多的技术来呈现可解释的模型。可解释性的定义并不明确，但是，人们还是都宣称他们的模型是可解释，尽管没有进一步的论据。问题在于，我们目前还不清楚这些关于模型可解释性技术的共同特性到底是什么。

半吊子全栈工匠

2021-01-13

4690

“从数学到机器的故事”读后

编程算法机器学习神经网络深度学习人工智能

假期是悠闲的，最悠闲的事情莫过于坐下来喝一杯茶，静静地读一本书。陪我度过这个假期是一本薄薄小册子，名为《极简算法史》

半吊子全栈工匠

2020-10-19

4350

浅谈人工智能的学习

机器学习深度学习强化学习人工智能大数据

人工智能（AI）的发展是一个从学术研究、行业验证、商业落地、行业平台到智能生态的一层层深入过程，这也是人工智能理想的发展阶段。人工智能的重要性无需赘述，对AI学习对我们来说同样重要，但是如何学习人工智能呢？

半吊子全栈工匠

2019-05-10

1K0

面向数据架构的云演变

存储企业机器学习 apache hadoop

现代数据架构的概念在过去的10多年里发生了巨大的变化，具体可以参见公众号“补天遗石”的《从数据仓库到数据湖——浅谈数据架构演进》一文。

半吊子全栈工匠

2018-12-17

6290

一文贯通python文件读取

python 数据分析机器学习人工智能数据库

不论是数据分析还是机器学习，乃至于高大上的AI，数据源的获取是所有过程的入口。数据源的存在形式多为数据库或者文件，如果把数据看做一种特殊格式的文件的话，即所有数据源都是文件。获得数据，就是读取文件的操作，文件有各种各样的格式即数据的组织形式，如何方便快捷地获取文件中的内容呢？

半吊子全栈工匠

2018-08-22

1.7K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态