首页
学习
活动
专区
工具
TVP
发布

数据派THU

专栏成员
2149
文章
2079119
阅读量
191
订阅数
科普之旅 | 大数据时代下的爬虫、反爬虫与反反爬虫
作者:李媛媛本文约2000字,建议阅读5分钟本文将带你一窥爬虫应用在大数据时代下的合法与非法,让你更加了解这个充满魅力的技术领域。
数据派THU
2024-07-10
1250
为虚拟神经科学开辟新领域,斯坦福AI新算法模拟大脑如何理解视觉世界
当我们看着时钟的秒针移动时,我们的大脑会激活一系列的神经元,这些神经元对特定的视觉角度敏感。这些细胞形成美丽的「风车」图,每部分代表不同角度的视觉感知。
数据派THU
2024-06-28
930
独家 | 进阶RAG-提升RAG效果
在我的上一篇博客中,我深入地介绍了RAG以及它是如何用LlamaIndex实现的。然而,RAG在回答问题时经常遇到许多挑战。在本博客中,我将解决这些挑战,更重要的是,我们将深入研究提高RAG性能的解决方案,使其可用于生产环境。
数据派THU
2024-06-28
2050
【阿姆斯特丹博士论文】图神经网络的归纳偏差
https://hdl.handle.net/11245.1/c14b7d6a-136c-4e15-af82-d3ad7330add2
数据派THU
2024-06-27
910
独家 | Pinterest如何仅用6名工程师搞定1100万用户
作者:Devansh 翻译:陈之炎校对:ZRX本文约2900字,建议阅读8分钟Pinterest的扩展历程 —— 从0到每月数十亿页面浏览量,仅用了两年。
数据派THU
2024-06-25
940
独家 | 数据科学死了吗
作者:Rosaria Silipo翻译:尤杨校对:赵茹萱‍‍‍ 本文约2600字,建议阅读10分钟最好的数据科学家将不再是能更快地编写代码的人,而是能更好地指导数据科学项目的组装。
数据派THU
2024-05-31
990
科普之旅 | 什么是大语言模型
在这个信息爆炸的时代,你是否曾幻想过与机器流畅交谈,或是让AI助你笔下生花,创作出惊艳的文章?这一切,都离不开大语言模型的神奇魔力。今天,让我们一起揭开这层神秘的面纱,走进大语言模型的科普奇幻之旅!
数据派THU
2024-05-30
1370
使用FP8加速PyTorch训练的两种方法总结
我们定义了一个Vision Transformer (ViT)支持的分类模型(使用流行的timm Python包版本0.9.10)以及一个随机生成的数据集。我们选择了ViT-Huge的有6.32亿个参数的最大的模型,这样可以演示FP8的效果。
数据派THU
2024-05-30
1720
原创|手把手教你构建评分卡模型
在各种机器学习、深度学习模型快速发展的当下,评分卡模型作为一种可解释机器学习模型,仍然在金融、营销等领域被广泛使用。这一模型通过构建一组基于输入变量的评分规则,能够直观地对样本进行评分,非常易于理解和操作。举一个金融信用风险评分卡的例子,要判断一笔贷款能够被按时偿还的风险大小,可以设置这样一个评分卡:
数据派THU
2024-05-17
3810
独家 | 编程20年,给当年的自己和现在的你的一点建议(上)
然而,我错过的还有很多,而且花费的时间也太长了。如果我能够更早地应用我所学到的态度、原则和优先事项,我可以更快地达到这些事业上的成就。如果你正在开始你的职业生涯,这篇文章将节约你15年的时间,想象一下在23岁而不是我现在的38岁,就能拥有所有这些成就(除了IEEE需要10年)。
数据派THU
2024-05-10
1430
独家 | 数据科学家应该了解的5个 Python库(附链接)
作者:Artem Shelamanov 翻译:陈之炎校对:赵茹萱本文约2800字,建议阅读5分钟本文介绍了机器学习库,并掌握了模型架构之后,便可以训练模型解决现实问题。
数据派THU
2024-04-25
2250
归一化技术比较研究:Batch Norm, Layer Norm, Group Norm
归一化层是深度神经网络体系结构中的关键,在训练过程中确保各层的输入分布一致,这对于高效和稳定的学习至关重要。归一化技术的选择(Batch, Layer, GroupNormalization)会显著影响训练动态和最终的模型性能。每种技术的相对优势并不总是明确的,随着网络体系结构、批处理大小和特定任务的不同而变化。
数据派THU
2024-04-18
4270
CVPR 2024 | 多模态大模型幻觉原因找到了!
OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation
数据派THU
2024-04-16
4890
​港中文提出CLongEval中文基准测试集,准确评估大模型长上下文能力
ClongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
数据派THU
2024-04-16
3540
独家 | 探秘全栈数据科学家
作者:Kelvin Lu 翻译:陈之炎校对:赵茹萱本文约4300字,建议阅读9分钟本文介绍了作者对于“全栈数据科学家”的一些见解。‍‍
数据派THU
2024-04-01
1400
独家 | 生成式AI的设计模式:一份全面的指南
在创建新事物的时候,我们都会依赖经过尝试检验的方法、途经和模式。这个说法适用于软件工程领域,但对于生成式AI和人工智能来说可能并非如此。对于像生成式AI等新兴技术,我们缺乏充分记录的模式来支持我们的解决办法。
数据派THU
2024-04-01
4630
独家 | 80%的时间中,数据科学家使用的20%探索数据的图——您需要了解的探索性数据分析(EDA)
据IBM的介绍,探索性数据分析(EDA)是数据科学家用来分析和研究数据集并总结其主要特征的一种方法,通常采用数据可视化技术。因此可以说,EDA 是通过创建可视化和摘要来研究和理解数据集的过程。
数据派THU
2024-03-01
1540
独家 | 2024,AI即将面临什么?
《麻省理工科技评论》的“接下来是什么”一期环顾了行业,趋势和技术以求为您提供最新的未来视角。阅读我们该期的剩余内容(https://www.technologyreview.com/tag/whats-next-in-tech/)。
数据派THU
2024-01-26
1700
原创 | 基于Python的强化学习库
OpenAI Gym是一个用于开发和比较强化学习算法的Python库。它提供了一个标准化的环境,使得研究人员可以轻松地测试和比较他们的算法。Gym库中的环境可以是简单的数学问题,也可以是复杂的机器人控制问题。它还提供了多种预定义的环境,如CartPole、MountainCar等,这些环境都可以用于测试和比较强化学习算法。
数据派THU
2024-01-24
2590
原创 | 一个简单的推导:从相关性走向因果性
其实关于“因果推断”的疑惑在我的本科阶段就埋下了种子。我相信几乎所有上过计量或者统计的同学,上课的课件里一定会有一句:Correlation is not causation(相关性不是因果性),仿佛先给你打好预防针:我给你讲的是“相关”,你别当“因果”。其实我当时是困惑的:“那因果性是个啥?因果性和相关性这俩又是啥关系?”但我没有深究为什么,只想着做做题应付考试就好,但自那时起这些疑问似乎成为了一个心结,被封存在长时记忆里,却经常蠢蠢欲动。直到六七年后,我开始重新认真思考这个问题。一次偶然,我在“因果推断”的书籍里发现了一个简单的而又绝妙的推导,我不禁拍案叫绝(是真的拍,拍掉了我的煎饼果子),因为它恰好回答了这个问题。我想通过这篇文章分享这个推导过程,希望能让各位读者也感受到“因果推断”这个领域的奇思妙想。
数据派THU
2024-01-23
2240
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档