首页
学习
活动
专区
工具
TVP
发布

DataFunTalk

DataFun:专注于大数据、人工智能领域的知识分享平台。
专栏作者
41
文章
43216
阅读量
45
订阅数
图算法在风控场景的应用
图算法最早来源于图论和组合优化相关算法,在风控里面应用比较多的基本上都是传统的图算法或比较偏数学理论的算法,如最短路径发现,不同的账号和交易之间存在异常的最短路径,某些账号或设备存在异常的关联。另外,还有图的识别,比如洗钱,会涉及到异常的环路。
DataFunTalk
2022-12-16
1.1K0
基于知识图谱的多模内容创作技术
导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识图谱技术进行智能创作的新想法。本文将分享基于知识图谱的多模内容创作技术及应用。主要包括以下四大部分:
DataFunTalk
2022-12-14
7910
京东零售大数据云原生平台化实践
云原生这个概念大家已经很熟悉了,但是否有一个准确的定义呢?每个人都在说云原生,但大家对云原生的理解是不同的。
DataFunTalk
2022-12-03
1.4K0
京东零售大数据云原生平台化实践
导读:随着业务调整和集群资源整合需求,大数据系统中集群数据迁移复杂混乱。本文将以京东大数据平台为例,介绍京东近一年在数据分布式存储和分层存储上的探索和实践。
DataFunTalk
2022-11-26
2K0
未来数据库需要关心的硬核创新
导读:数据库经过了几十年的发展,目前已经是一项非常成熟的技术,然而随着当今互联网的极速增长,我们进入到云时代,企业亟需构建现代化的应用,因此数据库有了更大的挑战。今天结合当前时代的发展和趋势,分享未来数据库需要关注的硬核创新。
DataFunTalk
2022-07-24
7540
美团大脑百亿级知识图谱的构建及应用进展
导读:美团作为中国最大的在线本地生活服务平台,连接着数亿用户和数千万商户,其背后蕴含着丰富的与日常生活相关的知识。美团知识图谱团队从2018年开始着力于图谱构建和利用知识图谱赋能业务,改善用户体验。具体来说,“美团大脑”是通过对美团业务中千万数量级的商家、十亿级别的商品和菜品、数十亿的用户评论和百万级别的场景进行深入的理解来构建用户、商户、商品和场景之间的知识关联,进而形成的生活服务领域的知识大脑。目前,“美团大脑”已经覆盖了数十亿实体、数百亿的三元组,在餐饮、外卖、酒店、到综等领域验证了知识图谱的有效性。今天我们介绍美团大脑中生活服务知识图谱的构建及应用,主要围绕以下3个方面展开:
DataFunTalk
2022-07-23
1.5K0
翟佳:高可用、强一致、低延迟——BookKeeper的存储实现
导读:多数读者们了解BookKeeper是通过Pulsar,实际上BookKeeper在数据库和存储场景都有着非常广泛的应用。BookKeeper是Pulsar的底层存储,Pulsar有着广泛数据入口,Pulsar跟Kafka及各类MQ(RabbitMQ、ACTIVEMQ)的较大区别是Pulsar是统一的云原生消息流平台,不但是分布式系统,而且做了存算分离,可以让用户在云的环境下,体验到云原生的优势,例如随意扩缩容、数据灵活迁移复制等。希望通过本文,让大家对Pulsar底层的BookKeeper有更深入的了解。
DataFunTalk
2022-07-22
8610
腾讯叶聪:朋友圈爆款背后的计算机视觉技术与应用
导读:本次分享系统介绍计算机视觉的基础知识,如何利用这些识别算法实现一个应用,同时进行部署、推广这一整套流程。主要包括以下六个部分:
DataFunTalk
2022-06-19
6900
牛亚男:基于多Domain多任务学习框架和Transformer,搭建快精排模型
导读:本文主要介绍了快手的精排模型实践,包括快手的推荐系统,以及结合快手业务展开的各种模型实战和探索,全文围绕以下几大方面展开:
DataFunTalk
2022-06-18
7530
李呈祥:bilibili在湖仓一体查询加速上的实践与探索
导读:本文主要介绍哔哩哔哩在数据湖与数据仓库一体架构下,探索查询加速以及索引增强的一些实践。主要内容包括:
DataFunTalk
2022-06-15
1.2K0
蒋鸿翔:网易数据基础平台建设
我们公司主要从事平台技术开发和建设方面,工作的重点方向主要在解决用户在数据治理中的各种问题,让用户能更高效地管理自己的数据,进而产生更大的价值,比如如何整合现有功能流程,节省用户使用成本;增加新平台不断调研,丰富平台功能;新平台功能、性能改造,从而满足用户大规模使用需求;根据业务实际需求,输出相应的解决方案等。今天分享的内容主要是从数据库内核到大数据平台底层技术开发,分享网易数据科学中心多年的大数据建设经验。
DataFunTalk
2022-06-14
6190
罗景:连接效率优化实践
这是58app端的业务展示,可以看出58的业务场景丰富且复杂,产品形态多样,涵盖了租房、二手房、二手车、招聘、本地服务以及二手物品等多种业务,针对每个业务,又分为置顶,精品,普通等多种不同的产品形态。
DataFunTalk
2022-06-11
2780
蚂蚁金服杨军:蚂蚁数据分析平台的演进及数据分析方法的应用
导读:大家好,今天主要分享数据分析平台的平台演进以及我们在上面沉淀的一些数据分析方法是如何应用的。
DataFunTalk
2022-06-10
9730
苏涛:对抗样本技术在互联网安全领域的应用
导读:验证码作为网络安全的第一道屏障,其重要程度不言而喻。当前,卷积神经网络的高速发展使得许多验证码的安全性大大降低,一些新型验证码甚至选择牺牲可用性从而保证安全性。针对对抗样本技术的研究,给验证码领域带来了新的契机,并已应用于验证码反识别当中,为这场旷日持久攻防对抗注入了新的活力。
DataFunTalk
2022-06-09
6400
融360蒋宏:自动化特征工程和自动建模在风控场景的应用
目前,模型开发的流程越来越规范化,通常可以分为业务分析、样本准备、特征工程、模型构建、模型评估及监控这几个步骤。其中,特征工程和模型构建在建模的整个流程中依然非常耗时,并且非常依赖于模型开发者对业务的理解及数据处理的能力。
DataFunTalk
2022-06-08
8520
陈宏智:字节跳动自研万亿级图数据库ByteGraph及其应用与挑战
导读:作为一种基础的数据结构,图数据的应用场景无处不在,如社交、风控、搜广推、生物信息学中的蛋白质分析等。如何高效地对海量的图数据进行存储、查询、计算及分析,是当前业界热门的方向。本文将介绍字节跳动自研的图数据库ByteGraph及其在字节内部的应用和挑战。
DataFunTalk
2022-06-01
1.1K0
李卓豪:网易数帆数据中台逻辑数据湖的实践
导读:本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分:
DataFunTalk
2022-05-27
1K0
陈宏申:浅谈京东电商商品文案挖掘难点与优化实践
导读:在电商推荐中,除了推送商品的图片和价格信息外,文案也是商品非常重要的维度。基于编码器解码器范式的序列文本生成模型是文案挖掘的核心,但该种方法面临着两大技术挑战:一是文案生成结果不可靠和生成质量不可控,无法满足业务对电商商品文案内容可靠性的严格要求;二是序列文本生成模型经常面临数据坍塌,比较容易生成万金油式的安全文案,文案内容本身的多样性会越来越低,且无法捕捉语言本身的流行或演化趋势。针对以上两大挑战,在以文案生成系统为核心的基础上,引入了文案摘要清洗系统和文案质量评估系统,总结提出了一个通用的电商商品文案挖掘方案。今天将和大家分享京东电商平台的电商商品文案挖掘的优化实践,包括以下几方面内容:
DataFunTalk
2022-05-25
9630
天空卫士陆明:数据法在企业如何落地
导读:数据安全立法2018年9月于十三届全国人大常委会列入立法规划。经过三次审议,在2021年6月10日,十三届全国人大常委会第二十九次会议正式表决通过,并于2021年9月1日起施行。从法律角度来说,国家对于数据安全越来越重视,作为企业该如何针对数据安全法进行数据安全治理的规划,最终进行对应的技术落地?本文将分享数据法在企业的落地。
DataFunTalk
2022-05-23
5340
罗强:腾讯新闻如何处理海量商业化数据?
导读:随着信息化时代的来临,信息呈现出爆炸式的增长。尤其是在移动互联网的推动下,每天大量信息涌入让人们应接不暇,腾讯新闻客户端的出现,就是以帮助用户寻找有用信息而出现。这时,面对海量的数据、繁多的业务,如何处理手中的数据,利用数据赋能是今天会议讨论的重点。
DataFunTalk
2022-05-22
6420
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档