数据派THU

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

作者：李媛媛本文约2000字，建议阅读5分钟本文将带你一窥爬虫应用在大数据时代下的合法与非法，让你更加了解这个充满魅力的技术领域。

科普之旅 ｜ 大数据时代下的爬虫、反爬虫与反反爬虫

当我们看着时钟的秒针移动时，我们的大脑会激活一系列的神经元，这些神经元对特定的视觉角度敏感。这些细胞形成美丽的「风车」图，每部分代表不同角度的视觉感知。

为虚拟神经科学开辟新领域，斯坦福AI新算法模拟大脑如何理解视觉世界

在我的上一篇博客中，我深入地介绍了RAG以及它是如何用LlamaIndex实现的。然而，RAG在回答问题时经常遇到许多挑战。在本博客中，我将解决这些挑战，更重要的是，我们将深入研究提高RAG性能的解决方案，使其可用于生产环境。

独家 | 进阶RAG-提升RAG效果

https://hdl.handle.net/11245.1/c14b7d6a-136c-4e15-af82-d3ad7330add2

【阿姆斯特丹博士论文】图神经网络的归纳偏差

作者：Devansh
翻译：陈之炎校对：ZRX本文约2900字，建议阅读8分钟Pinterest的扩展历程 —— 从0到每月数十亿页面浏览量，仅用了两年。

独家 | Pinterest如何仅用6名工程师搞定1100万用户

作者：Rosaria Silipo翻译：尤杨校对：赵茹萱‍‍‍
本文约2600字，建议阅读10分钟最好的数据科学家将不再是能更快地编写代码的人，而是能更好地指导数据科学项目的组装。

独家 | 数据科学死了吗

在这个信息爆炸的时代，你是否曾幻想过与机器流畅交谈，或是让AI助你笔下生花，创作出惊艳的文章？这一切，都离不开大语言模型的神奇魔力。今天，让我们一起揭开这层神秘的面纱，走进大语言模型的科普奇幻之旅！

科普之旅 ｜ 什么是大语言模型

我们定义了一个Vision Transformer (ViT)支持的分类模型(使用流行的timm Python包版本0.9.10)以及一个随机生成的数据集。我们选择了ViT-Huge的有6.32亿个参数的最大的模型，这样可以演示FP8的效果。

使用FP8加速PyTorch训练的两种方法总结

在各种机器学习、深度学习模型快速发展的当下，评分卡模型作为一种可解释机器学习模型，仍然在金融、营销等领域被广泛使用。这一模型通过构建一组基于输入变量的评分规则，能够直观地对样本进行评分，非常易于理解和操作。举一个金融信用风险评分卡的例子，要判断一笔贷款能够被按时偿还的风险大小，可以设置这样一个评分卡：

原创｜手把手教你构建评分卡模型

然而，我错过的还有很多，而且花费的时间也太长了。如果我能够更早地应用我所学到的态度、原则和优先事项，我可以更快地达到这些事业上的成就。如果你正在开始你的职业生涯，这篇文章将节约你15年的时间，想象一下在23岁而不是我现在的38岁，就能拥有所有这些成就（除了IEEE需要10年）。

独家 | 编程20年，给当年的自己和现在的你的一点建议（上）

作者：Artem Shelamanov   
翻译：陈之炎校对：赵茹萱本文约2800字，建议阅读5分钟本文介绍了机器学习库，并掌握了模型架构之后，便可以训练模型解决现实问题。

独家 ｜ 数据科学家应该了解的5个 Python库（附链接）

归一化层是深度神经网络体系结构中的关键，在训练过程中确保各层的输入分布一致，这对于高效和稳定的学习至关重要。归一化技术的选择（Batch, Layer, GroupNormalization）会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的，随着网络体系结构、批处理大小和特定任务的不同而变化。

归一化技术比较研究：Batch Norm, Layer Norm, Group Norm

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

CVPR 2024 | 多模态大模型幻觉原因找到了！

ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

​港中文提出CLongEval中文基准测试集，准确评估大模型长上下文能力

作者：Kelvin Lu
翻译：陈之炎校对：赵茹萱本文约4300字，建议阅读9分钟本文介绍了作者对于“全栈数据科学家”的一些见解。‍‍

独家 ｜ 探秘全栈数据科学家

在创建新事物的时候，我们都会依赖经过尝试检验的方法、途经和模式。这个说法适用于软件工程领域，但对于生成式AI和人工智能来说可能并非如此。对于像生成式AI等新兴技术，我们缺乏充分记录的模式来支持我们的解决办法。

独家 | 生成式AI的设计模式：一份全面的指南

据IBM的介绍，探索性数据分析（EDA）是数据科学家用来分析和研究数据集并总结其主要特征的一种方法，通常采用数据可视化技术。因此可以说，EDA 是通过创建可视化和摘要来研究和理解数据集的过程。

独家 | 80%的时间中，数据科学家使用的20%探索数据的图——您需要了解的探索性数据分析（EDA）

《麻省理工科技评论》的“接下来是什么”一期环顾了行业，趋势和技术以求为您提供最新的未来视角。阅读我们该期的剩余内容（https://www.technologyreview.com/tag/whats-next-in-tech/）。

独家 | 2024，AI即将面临什么？

OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境，使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以是简单的数学问题，也可以是复杂的机器人控制问题。它还提供了多种预定义的环境，如CartPole、MountainCar等，这些环境都可以用于测试和比较强化学习算法。

原创 | 基于Python的强化学习库

其实关于“因果推断”的疑惑在我的本科阶段就埋下了种子。我相信几乎所有上过计量或者统计的同学，上课的课件里一定会有一句：Correlation is not causation（相关性不是因果性），仿佛先给你打好预防针：我给你讲的是“相关”，你别当“因果”。其实我当时是困惑的：“那因果性是个啥？因果性和相关性这俩又是啥关系？”但我没有深究为什么，只想着做做题应付考试就好，但自那时起这些疑问似乎成为了一个心结，被封存在长时记忆里，却经常蠢蠢欲动。直到六七年后，我开始重新认真思考这个问题。一次偶然，我在“因果推断”的书籍里发现了一个简单的而又绝妙的推导，我不禁拍案叫绝（是真的拍，拍掉了我的煎饼果子），因为它恰好回答了这个问题。我想通过这篇文章分享这个推导过程，希望能让各位读者也感受到“因果推断”这个领域的奇思妙想。

原创 | 一个简单的推导：从相关性走向因果性

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了数据派THU专栏，为你提供了数据派THU的相关文章，致力于帮助开发者快速成长与发展。

数据派THU

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐