尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

金融风控之特征选择学习

金融风控之特征选择学习
📅 发布时间:2026/7/3 18:17:01

写在前面:今天看到谷爱玲说,她没有一分钟是浪费的。反观自己,初入职场不顺,然后转行去了自己不熟悉也不喜欢的行业,一直过着“临时”生活。这种生活快两年了,两年间自己并没有得到太大提升,闲着的时间都被浪费了。现在自己希望能重回之前的行业,在这里记录下学习过程,也是监督自己不要半途而废,希望能在今年下半年顺利收获理想offer。

一、去掉取值变化小的特征

原理:假设某特征的特征值只有0和1,并且在所有输入样本中,95%的实例的该特征值取值都是1,那可以认为该特征作用不大。

二、单变量特征选择

原理:对每一个特征进行测试,衡量该特征和响应变量之间的关系,根据得分扔掉不好的特征。对于回归和分类问题,以卡方检验等方式对特征进行测试。

2.1 person相关系数

注意:该方法衡量的是变量之间的线性相关性,其有效前提是两个变量的变化关系是单调的。

2.2互信息和最大信息系数MIC

2.2.1 互信息

互信息时信息论中的基础概念,度量两个随机变量之间共享的信息量,即一个变量能在多大程度上降低对另一个变量的不确定性。核心公式如下:

I(X;Y)=∑x∈X∑y∈Yp(x,y)log⁡p(x,y)p(x)p(y) I(X;Y) = \sum_{x \in X} \sum_{y \in Y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}I(X;Y)=x∈X∑​y∈Y∑​p(x,y)logp(x)p(y)p(x,y)​

对于连续变量,则为积分形式。

2.2.2 最大信息系数

旨在解决传统互信息在有限样本下难以公平比较不同关系强度的问题。

2.3 距离相关系数

距离相关系数可以克服person相关系数的弱点,不仅关注线性相关性,还关注非线性相关性。如果person相关系数为0,只能说明无线性相关性,但如果距离相关系数为0,则可以说明这两个变量是独立的。

2.4 基于学习模型的特征排序

这里重点说明随机森林筛选特征的原理。
首先明确随机森林的基础知识。随机森林的核心思想是:1)对特征进行无放回随机抽样,得到特征子集,对样本进行有放回抽样;2)bagging思想:回归问题对各树取平均,分类问题对各树结果进行投票。
了解完随机森林的基础知识后,接下来介绍用随机森林做特征值筛选的核心思想,即计算每个特征在构建好的森林中对预测的“贡献”大小,并以此作为其重要性的度量。贡献值越大的特征,就被认为越重要。这一思想主要有两种经典方法,分别是基于不纯度减少和基于精度降低。

2.4.1 基于不纯度减少

这是随机森林最常用的特征重要性评估方法。核心原理是,在随机森林构建每颗决策树的过程中,算法会不断选择特征对节点进行分裂,以降低子节点的“不纯度”(如分类问题中的基尼不纯度或信息增益)。一个特征如果在越多的节点上用于被分裂,并且能显著降低不纯度,那么该特征对模型的贡献越大。

计算步骤:

·对于森林里每一颗树,计算每个特征在每次用于节点分裂时,所降低的不纯度数值;

·将该特征在所有树上的不纯度累加并做平均

·比较该平均值,数值越大,特征越重要

不纯度的计算分以下两种情况,对于分类任务来说,其不纯度用gini系数或信息熵来计算;

对于回归任务来说,其不纯度用MSE均方误差来计算

相关新闻

  • 微型NLP实践闭环:本地化年度复盘工具设计与实现
  • WinForm依赖注入实战:提升可测试性与维护性
  • 淘宝商品评论数据爬取:Python实战指南

最新新闻

  • 2026学术神器榜!好用的AI智能降重工具实测,效率直接拉满!
  • ICM-42605与TM4C123实现高精度运动追踪方案
  • 终极PubMed文献批量下载指南:5分钟搞定100篇文献的免费神器
  • 揭秘openEuler内核文档库:一站式掌握内核特性、会议记录与技术分享的终极指南
  • FPGA上CNN推理优化的数据速率感知技术
  • 临床试验中的AI伦理护栏:可追溯、可审计、可问责的LLM落地实践

日新闻

  • JMeter接口测试实战:从核心元件到复杂场景构建
  • Java Applet版刽子手游戏源码:含完整项目结构、吊杆绘图与胜负逻辑
  • 使用Apache JMeter对RoadRunner PHP应用进行性能测试与调优指南

周新闻

  • Windows字体自定义终极方案:No!! MeiryoUI完全指南
  • Deepin Boot Maker:告别命令行,3分钟制作Linux启动盘的智能解决方案
  • Plain Craft Launcher 2:重新定义你的Minecraft游戏体验

月新闻

  • 2026年6月公司网站搭建最新热门渠道测评:四大低成本/零代码平台对比+避坑
  • 【Linux】Linux arm 编译QT程序,出现expected “}“报错
  • 【MATLAB例程】四基站二维AOA定位与距离辅助增强对比仿真。基于角度观测和测距修正的固定目标平面定位精度分析

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号