当前位置: 首页 > news >正文

逻辑回归原理与案例分析

一、逻辑回归基本概念
逻辑回归:用于解决二分类问题的统计学习方法,虽然名字中有"回归",但实际上解决的是分类问题。
核心思想:根据给定的输入特征,通过逻辑函数(Sigmoid函数)计算出样本属于某个特定类别的概率。

二、逻辑回归数学原理

  1. 线性组合
    首先对输入特征进行线性组合:
    z = θ₀ + θ₁x₁ + θ₂x₂ + ... + θₙxₙ
  2. Sigmoid函数
    将线性组合的结果映射到[0,1]区间:
    σ(z) = 1 / (1 + e^(-z))
    函数特性:
    自变量:任意实数
    值域:[0, 1]
    图形:优美的S型曲线
  3. 概率解释
    P(y=1|X) = σ(z):给定特征X时,样本属于类别1的概率
    P(y=0|X) = 1 - σ(z):给定特征X时,样本属于类别0的概率
  4. 决策边界
    设置阈值(通常为0.5)进行最终分类:
    如果 P(y=1|X) ≥ 0.5,预测为类别1
    如果 P(y=1|X) < 0.5,预测为类别0

三、逻辑回归代码实现
多分类策略:一对多(One-vs-Rest)
def train(self, max_iterations=1000):
cost_histories = []
for label_index, unique_label in enumerate(self.unique_labels):
current_lables = (self.labels == unique_label).astype(float)
数值优化:使用梯度下降
result = minimize(
lambda current_theta: LogisticRegression.cost_function(data, labels, current_theta),
current_initial_theta,
method='CG',
jac=lambda current_theta: LogisticRegression.gradient_step(...)
)
成本函数:交叉熵损失
@staticmethod
def cost_function(data, labels, theta):
predictions = LogisticRegression.hypothesis(data, theta)
cost = -np.mean(
labels * np.log(predictions) +
(1 - labels) * np.log(1 - predictions)
)
return cost
预测逻辑:概率最大化
def predict(self, data):
prob = LogisticRegression.hypothesis(data_processed, self.theta.T)
max_prob_index = np.argmax(prob, axis=1)

四、实战案例 鸢尾花
数据可视化 绘制散点图展示数据分布
for iris_type in iris_types:
plt.scatter(data[x_axis][data['class']iris_type],
data[y_axis][data['class']
iris_type],
label=iris_type)
plt.show()
训练过程监控 绘制损失函数下降曲线
plt.plot(range(len(cost_histories[0])), cost_histories[0], label=labels[0])
plt.plot(range(len(cost_histories[1])), cost_histories[1], label=labels[1])
plt.plot(range(len(cost_histories[2])), cost_histories[2], label=labels[2])
plt.show()
决策边界可视化 生成网格坐标进行预测
for x_index, x in enumerate(X):
for y_index, y in enumerate(Y):
data = np.array([[x, y]])
prediction = logistic_regression.predict(data)[0][0]
绘制决策边界
plt.contour(X, Y, Z_SETOSA)
plt.contour(X, Y, Z_VERSICOLOR)
plt.contour(X, Y, Z_VIRGINICA)
plt.show()

五、进阶案例:微芯片测试数据
非线性分类问题 数据分布可视化
for validity in validities:
plt.scatter(
data[x_axis][data['validity'] == validity],
data[y_axis][data['validity'] == validity],
label=validity
)
特征工程
logistic_regression = LogisticRegression(x_train, y_train, polynomial_degree, sinusoid_degree)
生成非线性决策边界
for x_index, x in enumerate(X):
for y_index, y in enumerate(Y):
data = np.array([[x, y]])
Z[x_index][y_index] = logistic_regression.predict(data)[0][0]

六、学习总结

  1. 多分类处理:掌握了一对多策略实现多分类问题
  2. 优化算法:理解了梯度下降在逻辑回归中的应用
  3. 模型评估:通过损失函数曲线监控训练过程
  4. 可视化技巧:决策边界绘制帮助理解模型分类原理
http://www.rkmt.cn/news/47945.html

相关文章:

  • 杂题记录 4
  • 25年11月计数题做题记录
  • CCPC2025哈尔滨站-H. 匹配
  • 【做题记录】HZOJ 多校-数论
  • 2014 吉林省赛题解 | CCUT应用OJ题解——F[X] + X = N
  • 洛谷 P4859 已经没有什么好害怕的了 题解(DP,二项式反演)
  • 飞鱼uu单人防空4
  • HaluMem:揭示当前AI记忆系统的系统性缺陷,系统失效率超50%
  • 团队作业2-需求规格说明书
  • 25.11.12 差分约束算法
  • 11/12
  • 解决Cursor编辑器无法通过include path识别C++头文件的问题
  • 重组蛋白基础与技术概述
  • Dynamics 365 Field Service跨站脚本欺骗漏洞分析
  • 日报11.12
  • [译] 省略 Async 与 Await
  • iverilog、gtkwave工具链接
  • 简化Python数据结构初始化:从繁琐到优雅的进阶指南 - 详解
  • 软工团队作业2--需求规格说明书
  • #题解#洛谷P1314#二分#前缀和#
  • 《团队作业2》需求规格说明书
  • 深入理解C++智能指针:掌握RAII与内存安全的利器 - 详解
  • Linux下的花式「隔空」文件传输魔法
  • OpenEuler 22.03 安装zabbix-agent(源代码编译及自制rpm包)
  • pq使用体验和改进建议
  • 设备坏了才修,能不能提前预测?
  • UltraSearch(文件搜索神器) Pro v4.8.5.1185 多语便携版
  • B4093 [CSP-X2021 山东] 发送快递
  • 从零上手 Rokid JSAR:打造专属 AR 桌面交互式 3D魔方,开启空间创建之旅
  • CF468C Hack it!