尧图网站建设 尧图网络
  • 首页
  • 关于我们
  • 服务项目
  • 案例展示
  • 建站流程
  • 资讯中心
  • 联系我们
首页/资讯中心/详情

Datawhale 春训营新能源预测(数据处理)

Datawhale 春训营新能源预测(数据处理)
📅 发布时间:2026/6/19 12:01:26

[!NOTE] 数据背景介绍
数据来自 比赛举办方: 主要数据是 三个天气数据源nwp1 nwp2 nwp3,以及历史发电功率数据

新能源预测(数据处理)

1. NWP 数据

1.1 nwp数据

nwp 数据 -- NWP代表数值天气预报(Numerical Weather Prediction),通过python 第三方库netCDF4 来对nwp 数据进行读取,并转换为方便处理的csv 格式。

结构示例:


🔢 维度 Dimensions
------------------------------
time: size = 1
channel: size = 8
lead_time: size = 24
lat: size = 11
lon: size = 11📊 变量 Variables
------------------------------
time: shape = (1,), dtype = int64
channel: shape = (8,), dtype = <class 'str'>
data: shape = (1, 24, 8, 11, 11), dtype = float64
lat: shape = (11,), dtype = int64
lon: shape = (11,), dtype = int64
lead_time: shape = (24,), dtype = int64dimensions: ('lead_time',)
📅 原始 time 值: [0]
⏱ 原始 lead_time 值: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
📆 解析后的起始时间: 2024-01-01 16:00:00

各个数据源 chanel 包含的天气信息

[!NOTE] 官方解释
比赛输入数据来自三个不同的气象预报数据,数据格式为nc,共8个变量,需要注意气象源NWP_2的变量与另外两个稍有不同。气象变量说明见下文。每个文件是第二天北京时间0点开始的未来24小时气象预报,时间间隔1小时,文件名的日期表示预报发布日期,如20240101.nc是2024年1月1日发布的,对1月2日的预报。每个输入文件有5个维度,time,channel,hour,lat,lon。
time表示数据第一个时刻,为世界时;channel为变量,共8维;hour为从起始时间到预报时间的时间间隔,数值为0~23;lat为纬度,数值从小到大为从北向南排列;lon为经度,数值从小到大为从西向东排列。这里经纬度数值仅代表相对关系,中心点为离场站最近的点。
参赛队伍可以不使用全部气象源的全部变量做为输入。

怎么理解这个解释嘞?

数据首先是时间序列(0-23),每个小时的每个特征 有11 * 11 的分布,例如下边这样

Feature Table

变量名称 NWP 模型 1 NWP 模型 2 NWP 模型 3 中文解释
ghi ✔️ ✔️ ✔️ 全球水平辐照度
poai ✔️ ✔️ ✔️ 平面总辐射
sp ✔️ ✔️ 地表温度
msl ✔️ 平均海平面气压
t2m ✔️ ✔️ ✔️ 2米高度温度
tcc ✔️ ✔️ ✔️ 总云量
tp ✔️ ✔️ ✔️ 降水量
u100 ✔️ ✔️ ✔️ 100米高度处的东风分量
v100 ✔️ ✔️ ✔️ 100米高度处的北风分量

✔️ 表示该模型包含此变量。

1.2 处理nwp数据

从每个气象预报文件(格式为 DATE.nc)中提取24小时的预报数据,并对每个小时内的8个气象变量进行空间平均计算(即在经纬度维度上取平均值)。最终生成一个形状为 (24, 8) 的二维数组 daily_data,表示每天24小时、每个小时中8个变量的空间平均值。

完成前置数据处理后,依次进行以下操作:

  1. 检查缺失值(NaN)
  2. 归一化处理(Normalization)
  3. 将结果保存为CSV文件
  4. 特征工程
    • 通过u/v100 计算wind_speed ,并作为新的feature 添加到数据中。
    • 由于每个站点的发电功率对每个feature的依赖不同,因此针对不同站点其用于训练的特征不同。
      • 通过baseline来获取不同站点的feature importance 信息,根据importance信息来筛选feature 见Table 1。同时计算三个数据源中ghi,poai,wind_speed的平均值保存为train_means.csv 和 test_means.csv。

Table 1 :Features used for each station.

Station Features
1 wind_speed, wind_direction
2 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
3 wind_direction, t2m, wind_speed, tcc, tp
4 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
5 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
6 ghi
7 ghi
8 ghi, time, wind_direction, t2m, tp
9 poai
10 wind_speed, wind_direction, poai, t2m, tp, tcc, sp

2. Target数据

总共10 个target 数据,是训练集对应的发电功率数据。

其中每个站点的target数据,是该站点2024 年的发电功率数据,其中数据的统计步长为15分钟,共35136 条数据。

2.1 数据处理:

  • 清除异常数据,对nan数据进行线性插值处理。
  • 将其数据步长更改为1h。(四个只保留整点数据)
  • 保存为csv文件。

相关新闻

  • AI股票预测分析报告 - 2025年10月23日
  • 2025年10月deepseek排名优化推荐:主流机构对比排行榜
  • 异常值检测算法学习

最新新闻

  • 武汉买猫买狗去哪看?梦宠山庄实地体验分享 - 园友3800037
  • 从零到一:Jetlinks物联网平台服务器部署实战与避坑指南
  • (转)一次ANSYS EM 2023R1 “Request name electronics_desktop does not exist in the licensing pool.“的离谱解决记录
  • 面试被问“你的缺点是什么”,90%的应届生都答错了!(附满分话术)
  • Spring Cloud Alibaba 最佳实践:基于 Spring Boot 4.0 的完整微服务示例项目
  • 三步掌握AI斗地主:如何用DouZero智能助手提升你的游戏胜率

日新闻

  • 5分钟掌握Python进化算法:Geatpy高性能优化工具完全指南
  • Microchip 24AA044 EEPROM选型与应用全指南:从参数解析到实战编程
  • 华为的鸿蒙到底有多牛?为什么称作遥遥领先?

周新闻

  • 3步解锁iOS设备:applera1n激活锁绕过完全指南
  • 39 2026 人工智能证书终极盘点,普通人选 AI 证书可以从这些方向入手
  • Redis 暴露公网有多危险?从端口检查到补救步骤

月新闻

  • 【总结】入门篇:50句话让你记住架构核心概念
  • WeChatMsg技术方案解析:实现Mac微信数据自主管理的完整解决方案
  • WeChatMsg:革新性微信数据备份方案,打造你的专属数字记忆库

关于尧图

  • 公司简介
  • 团队介绍
  • 企业文化
  • 荣誉资质

服务项目

  • 定制开发
  • 电商建站
  • UI 设计
  • 运维服务

快速链接

  • 案例展示
  • 建站流程
  • 常见问题
  • 资讯中心

联系方式

  • 📍北京市朝阳区互联网产业园 A 座 10 层
  • 📞400-888-8888
  • ✉️contact@rkmt.cn
  • 🕐周一至周日 9:00-21:00

© 2024 北京尧图网络科技有限公司 版权所有 | 京 ICP 备 XXXXXXXX 号