补充02:Oracle业务库运维实操(EAP生产数据库)
一、本课学习目标
1、掌握Fab EAP量产Oracle核心架构、业务表结构、数据写入逻辑,理解EAP所有业务数据的落地底层。
2、精通生产库高频运维:表空间扩容、归档清理、慢SQL优化、权限管理、备份恢复、日志排查。
3、解决量产高频事故:数据库爆满卡死、业务卡顿、Lot卡死、报表查询超时、数据写入失败。
4、掌握EAP生产库容灾、备份、恢复、日常巡检SOP,符合Fab厂区稽核规范。
5、具备独立处理Oracle生产故障、性能调优、新项目数据库规划能力。
二、EAP Oracle数据库核心业务架构
EAP系统Oracle为核心业务库,不存储Trace高频时序数据,只存储结构化业务数据,是产线自动化、批次流转、设备台账、报警日志、用户权限的核心载体。
Oracle核心存储内容:
1、设备基础信息、模板配置、端口IP、GEM参数配置
2、批次Lot流转记录、启停记录、结批信息、工艺版本
3、设备报警日志、故障记录、清除记录、操作员操作日志
4、用户账号、权限分级、操作审计、变更记录
5、KPI统计数据、设备稼动率、停机时长、异常分类统计
核心特征:写入频繁、更新频繁、数据长期累积、归档量大、极易出现表空间不足。
三、Oracle生产库高频故障根因(量产必懂)
1、表空间爆满 → EAP所有设备离线、Lot无法启动、无法保存数据
2、归档日志堆积 → 数据库挂起、读写阻塞、业务全面停滞
3、慢SQL未优化 → 页面卡顿、报表超时、批次查询缓慢
4、索引失效/缺失 → 数据查询效率暴跌、CPU负载过高
5、权限混乱、账号过期 → 服务重启失败、同步失败
6、备份失效 → 误操作、数据丢失无法回滚
四、实操1:表空间监控与扩容(最高频)
1、查询表空间使用率(生产巡检固定语句)
可直接量产复制执行:
SELECT tablespace_name, round(used_percent,2) used_percent, total_space, free_space FROM dba_tablespace_usage_metrics ORDER BY used_percent DESC;2、表空间扩容标准SOP
阈值规范:使用率≥85%触发扩容
1、新增数据文件(量产最安全方式)
ALTER TABLESPACE EAP_DATA ADD DATAFILE '/u01/oracle/eap02.dbf' SIZE 10G AUTOEXTEND ON NEXT 1G MAXSIZE 30G;2、开启自动扩容,禁止生产库手动锁死容量
3、扩容后留存操作记录、变更台账、以备稽核
五、实操2:归档日志清理与关闭不合理归档
1、归档爆满事故现象
EAP业务全部卡住、无法写入、批次无法启停、数据库状态挂起。
2、RMAN清理归档实操(生产标准)
RMAN> crosscheck archivelog all; RMAN> delete noprompt expired archivelog all; RMAN> delete noprompt archivelog until time 'sysdate-2';量产规范:保留最近2天归档,历史自动清理,防止磁盘占满。
3、归档日志优化策略
1、定时任务每日凌晨自动清理归档
2、归档目录与数据文件目录磁盘分离,避免互相抢占
3、重大变更前手动备份归档,防止回滚需要
六、实操3:慢SQL排查与数据库性能调优
1、查询生产慢SQL(定位卡顿源头)
SELECT sql_id,elapsed_time,sql_text FROM v$sql ORDER BY elapsed_time DESC;2、EAP常见慢SQL场景
1、历史报警日志全表查询(无时间索引)
2、跨月/跨年KPI报表统计
3、批量导出设备历史批次记录
3、优化方案
1、对时间字段、Lot号、设备ID建立复合索引
2、超大历史表做分区表(按月份分区)
3、限制查询时间范围,禁止全表扫描
七、实操4:用户权限、账号管控(厂区安全合规)
Fab生产库严格分级:
1、Sys/System:最高权限,禁止日常使用
2、EAP_ADMIN:业务读写权限(程序连接账号)
3、EAP_READ:运维只读查询账号
4、第三方账号:最小权限原则,按需开放
常用权限语句
CREATE USER eap_read IDENTIFIED BY xxx; GRANT SELECT ANY TABLE TO eap_read;量产红线:禁止生产库开放ALL PRIVILEGES权限
八、实操5:Oracle备份与故障恢复SOP
1、备份策略(Fab标准)
1、每日凌晨全量备份
2、实时归档增量备份
3、备份文件异地留存、保留7天周期
2、数据误删恢复流程
1、停止EAP写入服务
2、基于归档恢复指定时间点数据
3、校验数据完整性后重启业务
九、本课核心总结
1、Oracle负责EAP所有结构化业务数据,是自动化流转的核心底座。
2、生产库90%故障来自:表空间爆满、归档堆积、慢SQL未优化。
3、量产运维核心:监控容量、定时清理、索引优化、权限合规、定期备份。
4、Oracle稳定 = 批次稳定 + 报表稳定 + 系统业务稳定。
十、课后作业
1、EAP突然所有设备无法结批、Lot卡死,优先排查Oracle哪两项指标?
2、简述Oracle表空间爆满的紧急处理SOP?
3、生产库为什么禁止随意开放高权限账号?