如何建立智能投顾和大数据信用评价机器学习方法:请看《金融科技大数据风控方法介绍》

金融, 通俗地讲, 就是为有钱人理财, 为缺钱人融资, 也就是投资和融资. 在第四次工业革命的背景下, 智能投顾和大数据信用评价分别是金融科技对投资和融资的赋能, 通过技术、数据和场景实现投融资能力的提升和效率的提升.


【资料图】

与智能投顾相比, 传统的投资顾问 (investment advisor) 是介于普通投资者与专业投资者之间的角色, 负责为缺乏专业投资能力的普通投资者提供投资建议. 随着财富的不断增长, 大众对投资顾问的需求越来越迫切, 然而个人的精力是有限的, 一位投资顾问仅能为有限的少数投资者提供咨询服务. 不同投资顾问水平也存在较大的差异. 另外, 由于利益的驱动, 即使有从业道德与法规约束, 也难以保证投资顾问的个人利益与其客户的利益不发生冲突.

智能投顾 (robo advisor) 的出现就比较好地解决了上述问题. 一方面, 通过计算机模型构建的虚拟投资顾问, 能够以较低的成本为大众提供服务, 而且还可以根据每位投资者自身的特点为其提供个性化的投资建议; 另一方面, 计算机模型能够不带感情地为所有人工作, 避免了投资顾问与客户之间的利益冲突. 智能投顾率先在美国兴起, 近年来出现的领先平台包括 Wealthfront、Betterment、FutureAdvisor 等. 随着互联网金融在中国的迅猛发展, 国内的智能投顾也如雨后春笋般崛起, 典型的有嘉实基金的嘉贝智投、招商银行的摩羯智投、京东金融的京东智 投等.

金融的根本是信用, 信用 (风险) 建设是一切金融产品定价、风险管理和投资管理的基础. 传统的金融征信在辅助金融授信决策、防范信用风险和提升金融获得性等方面发挥着关键作用, 但是传统信用评价方式基于大量结构化的信贷历史数据, 对于大部分小微企业、个人消费以及农村金融等国民经济主战场相关的征信主体, 由于缺乏供信用评价的历史数据, 无法覆盖, 因此无法对其提供相应的金融服务.

数字技术的发展为解决这一难题提供了方案, 大数据信用评价是指通过对海量的、多样化的、实时的数据进行分析和挖掘, 并运用机器学习算法重新设计征信 评价模型, 多维度对信用主体的 (全部信息) “画像” (简记为 “Hologram”), 呈现信用主体的违约率和信用状况的征信方式. 大数据征信具备覆盖人群广泛、信息维度多元、应用场景丰富和信用评估全面四个创新特点. 金融机构可以利用机器学习的方法, 以行为大数据替代抵押资产, 进行信用风险评估和防控. 大数据风控已在全球范围内被金融机构广泛关注, 正在引发金融领域的一场革命 (参见姚前等, 2020; Yuan et al., 2019; 袁先智, 2022 等文献).

随着大数据和人工智能的发展, 金融风险建模方法, 正在从传统的统计方法到被数据驱动的机器学习方法代替. 与统计模型相比, 机器学习模型不过于关注模型的结构, 而更多地聚焦于如何通过多维度数据提高预测精度.

虽然机器学习算法如支持向量机、神经网络等在金融风险建模中已有不少研究, 但这些算法都属于弱学习算法. Kearns 和 Valian (1989) 提出了将多个简单的弱学习算法 “提升” 为 强学习算法的集成学习方法. 同时, 集成梯度提升树 (gradient boosting decision tree, GBDT) 算法的原始想法由 Friedman (2001) 提出, 是一种基于梯度提升的集成决策树算法, 因其泛化能力和在特征选择方面的优势得到广泛应用. Chen 和 Guestrin (2016) 对 GBDT 进行了进一步提升和优化, 提出了基于极度梯度提升的集成学习算法 (XGBoost). 目前, XGBoost 算法因其更高效的学习能力一出现就备受业界青睐, 成为机器学习研究的热点. 与深度学习相比, XGBoost 算法对样本量和特征数据类型要求没那么苛刻, 尤其适用于金融风险建模.

然而复杂机器学习模型带来了较高的预测精度, 但是越复杂的模型, 可解释性就越差, 这让模型的实际应用价值大打折扣. 为了解释复杂的机器学习模型, Štrumbelj 和 Kononenko(2014) 运用灵敏度分析方法解释模型中各变量之间的交互和冗余. Datta 等 (2016) 采用定量输入影响测量方法分析输入的各个变量对输出结果的影响程度. Ribeiro 等 (2016) 提出了一种在局部学习可解释模型的技术 LIME, 该技术可用于解释任何分类器的预测结果. Lundberg 和 Lee (2017) 阐述 了 SHAP 框架的解释性原理, 证明了 SHAP 评估框架具有稳定性、一致性和合理 性的优点; 同时他们进一步对比了深度学习场景中其他的诸如 DeepLIFT、LIME、 Layer-Wise Relevance Propagation 等算法和 SHAP 值的效果, 发现 SHAP 值更符合人们的理解和判断.

《金融科技大数据风控方法介绍——解释性、隐私保护与数据安全》聚焦于逻辑回归模型这个金融行业的风险建模标准方法和作为机器学习 在金融行业前沿应用的集成学习模型, 通过对比和讨论建立智能投顾和大数据信用评价的机器学习方法与金融科技学科相关的部分核心内容.

对智能投顾和大数据信用评价的机器学习方法感兴趣的读者,具体情况可以参见李华、袁先智、赵建彬编写的《金融科技大数据风控方法介绍——解释性、隐私保护与数据安全》一书.

本文选自《金融科技大数据风控方法介绍——解释性、隐私保护与数据安全》(科学出版社,2023.6)绪论.

好书

内容简介

本书是在大数据框架下, 全面介绍金融科技在处理真实场景金融问题时 需要掌握的最重要的几类机器学习方法, 并将重点放在实施过程中需要用到的特征提取、可解释性、隐私保护与数据安全共享等相关内容的讨论上.

本书内容分三部分: 第一部分由 1~ 6 章组成, 主要讲常规情况下, 机器学习在金融场景特别是大数据风控中的建模应用; 第二部分由第 7 章和第 8 章组成, 主要讲在数据隐私保护和安全要求下, 机器学习如何进行大数据风控建模; 第三部分由 9~16 章组成, 主要讲如何基于吉布斯抽样算法建立特征提取的理论 和标准框架及其在包含投资和融资等 7 个不同金融场景中的应用.

本书具有五个特点:一是面向应用需求, 介绍机器学习在金融场景特别是大数据风控中的建模应用; 二是紧扣应用, 聚焦智能投顾和大数据信用评价两大领域; 三是针对算法, 重点讲逻辑回归和集成学习建模; 四是针对数据安全和隐私保护问题, 建立密文机器学习模型, 实现数据共享; 五是针对特征工程, 基于吉布斯抽样算法, 建立支持非线性特征提取的理论和标准框架.

读者对象

本书既可作为高等院校金融科技相关课程的通用专业基础教材, 也可作 为金融科技培训用书, 还可作为广大金融科技爱好者和金融科技软件开发人员自学金融科技的用书以及金融科技监管部门的专业参考资料.

目 录

向下滑动查看所有内容

正文抢先看

向下滑动查看所有内容

科学出版社数学教育

一起阅读科学!

科学出版社│微信ID:sciencepress-cspm

专业品质 学术价值

原创好读 科学品味

科学出版社视频号

硬核有料 视听科学