展开

关键词

P2P用户——以拍拍为例

在当前经济下行压力增的环境下,P2P行业风险日益暴露,加之备案一拖再拖,P2P平台举步维艰。 目录 1 背景和目的 2 介绍 3 清洗 4 4.1 款客户画像 4.2 各变量与历史逾期的相关性 5 建议 1 背景和目的 拍拍(NYSE:PPDF)成立于2007年6月,总部位于上海 该表一共是328553行,21列。 字段描述: ? 21个字段致可以为基本信息、信用信息、认证信息、借款信息4个维度。 ? 4 4.1 款客户画像 4.1.1基本信息-性别/年龄 --查询性别布 select 性别, count(listingid) as 量 from lc group by 性别 同时E、F评级的历史逾期率远于之前的四个评级,可以看作客户资质好坏的水岭; (4)由于用户未进行认证或只进行了一项认证,导致取得两个及以上认证的用户过少,难以反映出历史逾期率与认证的相关性

2.6K31

款违约预测-Task2

Task2 此部为零基础入门金融风控的 Task2 ,带你来了解,熟悉,为后续的特征工程做准备,欢迎家后续多多交流。 间相关关系 特征和特征之间关系 特征和目标变量之间关系 用pandas_profiling生成报告 2.3 代码示例 2.3.1 导入及可视化过程需要的库 import pandas 说明: 本次探索,尤其可视化部均选取某些特定变量进行了举例,所以它只是一个方法的展示而不是整个赛题的解决方案。 另外可以横向比较,如果在集中,某些样本列都是缺失的且样本足够的情况下可以考虑删除。 Tips: 比赛杀器lgb模型可以自动处理缺失值,Task4模型会具体学习模型了解模型哦! /example.html") 2.4 总结 探索性是我们初步了解,熟悉为特征工程做准备的阶段,甚至很多时候EDA阶段提取出来的特征可以直接当作规则来用。

33430
  • 广告
    关闭

    云数据仓库ClickHouse首购10元特惠

    适用于业务初期的行为分析、经营策略等分析查询场景,首购限时10元,快来抢购吧!

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    互金协会P2P揭示的趋势

    自2017年4月开始,中国互联金融协会互联金融登记披露服务平台(简称“登记披露平台”)开始登记披露各平台的运营,到2018年3月,一年时间,共有100多家平台进行了相关披露。 虽然部平台披露不够完整,但是这一百多家平台几乎囊括了行业最优秀的平台,依然值得来源:中国互金协会、麻袋研究院 3、在余额与累计借金额不相关 从在余额与累计借金额所呈现的散点图可知,各平台这二者相关系仅0.3,并不呈现明显的相关性。 来源:中国互金协会、麻袋研究院整理 从历史看,陆金服可谓一枝独秀,几乎没有受到各种现金政策、政策的影响。 来源:中国互金协会、麻袋研究院 此外,从历史可知,与头部平台保持增长不同,在余额排名靠后18家的平台基本上保持递减趋势。 ?

    25520

    Python信处理与初步(ZIP解压)

    /usr/bin/python # coding=utf-8 ''' @author: lenovo @software: 3.6 PyCharm @file: 8W信处理.py @time : 20170531 @function:Credit data processing and preliminary analysis 信处理与初步 @edition : raw_data = pd.read_csv(csv_file_path,engine='python') #查看集 print('\n预览:',raw_data.head ()) print(' \n 描述: ') print(raw_data.describe()) print('\n集基本信息: ') print(raw_data.info print('\基本信息',used_data.info) #组求和 data_group_by_date=used_data.groupby(['issue_d2']).sum(

    57570

    Python信处理与初步(ZIP解压)

    /usr/bin/python # coding=utf-8 ''' @author: lenovo @software: 3.6 PyCharm @file: 8W信处理.py @time : 20170531 @function:Credit data processing and preliminary analysis 信处理与初步 @edition : raw_data = pd.read_csv(csv_file_path,engine='python') #查看集 print('\n预览:',raw_data.head ()) print(' \n 描述: ') print(raw_data.describe()) print('\n集基本信息: ') print(raw_data.info print('\基本信息',used_data.info) #组求和 data_group_by_date=used_data.groupby(['issue_d2']).sum(

    43930

    征信报告

    本文结合美国的金融环境,对ZestFinance进行简要介绍,征信产生的背景,剖征信技术,并全面客观地阐述了征信技术对于中国互联金融和征信业未来发展的借鉴意义。 ZestFinance目前也正在向信用风险管理的其他领域纵深扩展,2014年2月ZestFinance宣布推出基于的收债评(Collection Score),旨在为汽车金融、学生款、医疗款提供一种新的评系统 ZestFinance对技术的应用主要从采集和两个层面为缺乏信用记录的人挖掘出信用。 类似地,非常规是客观世界的传感器,反映了借款人真实的状态,是客户真实的社会络的映射。只有充考察借款人借款行为背后的线索及线索间的关联性,才能提供深度、有效的服务,降低款违约率。 其中,ZestFinance开发了10个基于机器学习的模型,对每位信申请人的超过1万条信息进行,并得出超过7万个可对其行为做出测量的指标,在5秒钟内就能全部完成。

    1.1K50

    ”并不能优化

    文摘翻译:岳辰 校对:Yawei Xia(转载请保留) “”是否能辅助我们做出更好的款选择? 这里面,Think Finance既是款人又是使用的公司; LendUp只是款人; ZestFinance为其他提供款的公司做。 LendUp和Zest Finance说,他们在过去几年所取得的款笔以万计。 Persis Yu是一位来自消费者中心的律师。她在报告中了这几家公司公开的利率,款条约以及一些公开的费用。 包括这几家在内的一些公司使用统计建模技术来,他们希望通过对于赋予千新变量权重的方式预测出更为精确的用户可信度。 其中有一些对的使用令人费解:比如Zest Finance说,一辆汽车的报废与否以及填表时使用写字母都会导致欠款风险的增高。LendUp则会查看用户浏览页的速度。

    48970

    【译-热点】美政府用学生

    与此同时,在处理新增款时,这个系统也缺乏的能力。官员们表示,他们不希望因为这个系统从而妨碍联邦政府对现有学生的经济援助. 研究人员将无法直接通过新研发的学生系统进行,与此同时,对于教育部是否公开匿名,仍然有待商榷。 旅居英法半载,现居翡冷翠,关注时事;关注在商业,体育,科技以及社会科学领域方面的发展.愿文摘,能予我以桥梁与诸专业人士享探讨。 格言: 漫漫,吾将上下而求索. 爱好:球,击剑,阿根廷探戈,阅读,登山,滑雪 ? 张翼,美国本科留学第五年,SyracuseUniversity公共关系,金融专业四在读。对于媒体,金融,资产证券化等领域有兴趣。 在校参与利用媒体影响力,衡量公关活动对于社交络上的流行语,潮流,和对品牌的态度变化。期待与更多对传媒和金融领域有见解的朋友一起交流

    29460

    实操案例

    在上篇文件,我们讲到对页的访问日志放到了HDFS中,那我们的个人标签(例如,喜欢汽车、喜欢衣服等)是如何被出来的?我们今天讲一个简单的案例,为家揭开神秘的面纱。 ? ? 对于的进一步,如果型的互联厂商,会用mapreduce进行的定期。今天我们讲到,用hive仓库进行进行的快速呈现,您也可以。 ? 将HDFS中的导入到HIVE中 ? 2、HIVE的能力体现在简单、易用 A、我们希望查到所有访客的访问址次。 一条简单的SQL命令下发后,HIVE生成了mapreduce进行,在三台Yarn的节点上约30秒钟后返回了结果。 传统,基本需要写复杂的mapreduce框架代码,如果没有很好的java基础,是一个很的挑战。而HIVE通过简单的SQL语句,经过解器,即可自动生成jar包,启动

    63130

    开发岗和岗对比

    对于企业而言,相关人才的引进,有开发,也有,今天我们就来讲讲开发岗和岗两者的区别。 7.jpg 处理的整个流程,可以划为几个阶段:储存、计算、挖掘、可视化等。 其中存储和计算的阶段,通常由开发岗位完成;挖掘、可视化阶段,则主要由来完成。 2.jpg ,主要工作重点在建模与,更多注重的是指标的建立,的统计,之间的联系,的深度挖掘和机器学习,并利用探索性的方式得到更多的价值线索。 1.jpg 关于开发岗和岗,以上为家做了一个简单的对比了。

    47841

    :最难的不是,而是

    科学家和企业领导人都关注着这些新技术的巨潜力,然而,当我们将焦点放在工具身上时,我们也可能忽略了本身的重要性。毕竟如果没有正确的,视觉化和预测也没有任何用处。 ? 每一个企业需要将他们的基础进行和甄别,在此基础上,对进行不同层次和结构的类。 现在或许看起来很微小,可是对深入的挖掘和将会给企业带来巨的财富。 2016年美国总统选的预测,很好地证明了质量的重要性。在当时的预测中,是基于州级和国家级的电话投票进行的。 而机器依出来的预判,是否真的能符合事实情况,很程度上决定于是否拥有坚实的基础:一个将驱动纳入到组织文化的企业,采集到的简介、完整和正确的。”

    55360

    方法 及 相关工具

    要知道,已不再是,最重要的现实就是对进行,只有通过才能获取很多智能的,深入的,有价值的信息。 基于此,方法理论有哪些呢? ? 的五个基本方面 PredictiveAnalyticCapabilities (预测性能力) 挖掘可以让员更好的理解,而预测性可以让员根可视化挖掘的结果做出一些预测性的判断 在的采集过程中,其主要特点和挑战是并发高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署库才能支撑。 统计 / 统计与主要利用布式库,或者布式计算集群来对存储于其内的海量进行普通的类汇总等,以满足常见的需求,在这方面,一些实时性需求会用到 EMC 的 GreenPlum

    1.1K80

    】CRM的六关键

    越来越多的企业通过挖掘客户提升客户关系,了解客户需求。 今天的CRM能力已经不止局限于客户邮件、电话等,而是能够识别客户购买行为,了解客户情绪。 在某些情况下,能够揭示顾客的需求,以及接下来的购买计划。这正是CRM的卓越之处,通过把为外部,如社交媒体,购买历史,产品趋势和最新发布等,与内部结合起来以提升洞察力。 与外部集成。互联包含量的。客户信息就在互联上。 随着技术和技术的成熟,现在的系统可以根现有预测顾客未来的需求。通过预测模型,销售人员可以更好地了解客户需求。CRM的预测模型还能够更深入地了解充满足客户需求的产品。 和云计算为销售和市场人员带来了福音。更多的挖掘和技术会融合进来,为企业提供洞察力。随着越来越多的系统走向云端,开放其他线上服务和,CRM会获得更多信息,提供更有意义的成果。

    49670

    之 “用户行为

    亚马逊在利润并不丰厚的图书行业竞争中取胜的根本原因在于对的战略性认识和使用,在家还都不太明白什么是电子商务时,亚马逊已经通过传统门店无法比拟的互联手段,空前地获取了极其丰富的用户行为信息,并且进行深度与挖掘 在电商领域中,用户行为信息量之令人难以想象,专注于电商行业用户行为的公司的不完全统计,一个用户在选择一个产品之前,平均要浏览 5 个站、36 个页面,在社会化媒体和搜索引擎上的交互行为也多达十次 纵观国内外成功的电商企业,对用户行为信息的和使用,无不在这个兵家必争之地做量投入。他们对战略性的高度认识和使用,非常值得国内的电商学习和借鉴。 专业人士,对一个 500 万会员的电商来说,每次 0.5%的退订或者放进垃圾邮箱,意味着近 100 万元的营销费用打了水漂。 那么,团购站应当如何做呢? 因此无论从什么角度来说,电子商务和团购都还有量的优化空间,我相信以为核心的个性化营销则是帮助电商在这场红海战中赢得战役的利剑。

    56350

    传统 vs

    的概念非常接近,挖掘已经应用于企业以保持关键监测和海量信息的。最的挑战就是如何通过量的挖掘出所有的隐藏信息。 企业朝着在一段时间内在那种内容中的信息的有意义的洞察,是区别于传统仓库的原因所在。下表总结了一些它们之间的差别。 ? 用例: 基于用例,企业可以理解的价值和在的帮助下如何解决传统的问题。以下是一些用法。 客户满意度和保证: 也许这是基于产品的企业所担心的最的一个领域。 竞争对手的市场渗透率: 在今天高度竞争的经济环境下,我们需要通过一种实时对竞争者强的区域和他们的痛点进行衡量。这种信息是可适用于各种各样的站、社交媒体站和其他公共领域。 未来方向的: 研究小组在各种业务中的趋势,而这种信息通过行业特定门户站甚至常见的博客可以获得。对这种未来的不断将有助于企业期待未来,并将这些期待带入他们的生产线。

    38430

    】互联+模式下的征信

    在今天的互联时代,承载量非常,任何都可以成为信用的一部,即我们可以利用与信用的关联度,深层次挖掘信用。 中国有6.48亿民,人群覆盖面非常广,通过对他们在络上留下的痕迹进行挖掘和,能够对目前的征信状况进行有效补充,让更多在互联上有的人,通过刻画得出的信用状况,也能得到金融服务,当然还包括生活服务 现有征信记录主要是个人信息加信记录,而互联上的行为记录非常多,我们可以用的方法计算互联上万个变量,将更多信用记录以外的信息纳入征信体系。 结合现有身份记录和信记录,以及生活类,再加上互联,可以得到更多广谱信息来刻画信用。   最后,征信实时鲜活。 的两个主要特点是存量、热,它不再是离线的事后,而是在线实时的互动。如果某个人有违约行为记录,会立刻被刻画进来,使当前业务的快速决策更加有效。

    93290

    在P2P借上的四要素

    现在P2P借领域的许多人,包括我自己,都喜欢使用借平台提供的趋势和帮助自己更好地了解借款人,以及他们的行为,从而来控制我们在 P2P借市场上的风险。 借平台的络属性使得许多早期的零售投资者是以技术为导向,因此一直存在着一种误解就是,要想成为一名成功的投资者,你需要学 会了解并利用。 有些人会说我们无法收集任何有意义的,但是许多人会同意,我 们能从历史记录中获取最有意义的,并出早期支付违约的可能性。 要素3:将那些相互影响的因素独立开来 的有效性十重要,你可以研究在周二发放,且限定于FICO为750的CA借款人的债务重组款。 当我们在进行 时,如果能够记得所有这些因素:只是对过去的记录而不具备预测性,而我们的款池小且新,将相互依存的变量孤立开来,相互关系不意味 着因果关系,我们就会在P2P借领域领先于其他投资者一步

    56690

    相关产品

    • 供应链金融

      供应链金融

      供应链金融(TSCF)帮助产业解决资金端和资产端的需求匹配问题,利用区块链、人工智能等多项技术,构建供应链协作和供应链融资在线全流程,从贷前、贷中、贷后实现底层资产透明化,降低操作风险、运营及人工成本,改善企业现金流管理,提升小微企业融资能力...

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券