当前位置：首页 > news >正文

Nino1+2区百年海温异常数据处理与厄尔尼诺/拉尼娜事件标记实践包（1870–2018）

news 2026/6/2 13:38:02

本文还有配套的精品资源，点击获取

简介：一套面向教学实践的Python数据分析资源，覆盖Nino 1+2区域1870–2018年海表温度异常时间序列的完整处理流程。提供原始观测数据nino12.long.anom.data.csv和已清洗版本nino12_dropnan_.csv（空值剔除），配套LaNinaStartDate.txt与NinoStartDate.txt两个文本文件，明确标注历史拉尼娜与厄尔尼诺事件起始年份。内置pd_m.py脚本实现数据读取、年份提取、缺失值处理、事件年份匹配及基础统计分析，并输出nino12_pie.png饼图展示正负异常分布比例。包含课程设计题目PDF文档，说明任务目标、步骤要求与评分标准；中间结果文件nino12_dropnan（目录）、nino12_dropnan.txt和nino12_dropnan_.csv便于过程验证与调试。requirements.txt列出依赖环境，.gitignore与.inscode支持版本管理与IDE适配。整体结构清晰，适合Pandas入门者开展时间序列清洗、事件标记、简单可视化等典型数据分析训练。

1. 项目概述：为什么从Nino 1+2海温异常开始学Pandas？

你打开这个资源包，第一眼看到的不是代码，而是一串年份：1870–2018。整整149年，横跨清朝光绪六年到21世纪第二个十年——这不是历史课本里的抽象时间轴，而是真实记录在海洋表层的温度指纹。Nino 1+2区域，位于赤道东太平洋（秘鲁沿岸至厄瓜多尔以西），是全球气候系统最敏感的“体温计”之一。这里的海表温度异常哪怕只偏高0.5℃并持续5个月以上，就可能触发一场波及全球的厄尔尼诺事件：南美暴雨成灾、东南亚干旱肆虐、北美冬季暖湿、中国长江中下游春汛提前……反之，若持续偏低，则拉尼娜登场，带来截然相反的连锁反应。教学中常讲“数据驱动决策”，但学生真正上手时，往往卡在第一步：拿到的原始数据像一筐混着泥沙的贝壳——有空值、无列名、年月日格式混乱、单位不统一、时间戳缺失……而这套资源包，就是专为把这筐贝壳亲手洗干净、分好类、再串成项链的过程设计的。

它不追求模型预测精度，也不堆砌深度学习框架，而是用最朴素的Pandas操作，完成一个真实气候分析任务的最小闭环：读取→清洗→解析时间→标记事件→统计→可视化。关键词里“Nino1+2”是地理锚点，“海温异常”是物理量本质，“厄尔尼诺/拉尼娜”是气候事件标签，“Pandas”是工具载体——四者咬合，构成一条清晰的学习路径。我带过十几届数据分析实训课，发现新手最容易陷入两个误区：一是对着API文档抄代码，却不知为何要dropna()而不是fillna()；二是做完饼图就以为结束，却没意识到“正负异常比例”背后藏着气候态偏移的线索。这个包的设计逻辑恰恰反其道而行：所有中间文件（nino12_dropnan.txt、nino12_dropnan目录）都刻意保留，就像实验报告里必须写明每一步试剂用量和观察现象。当你在pd_m.py里看到df['year'] = pd.to_datetime(df['date']).dt.year这行代码时，它不只是语法，更是告诉你：时间序列分析的第一道门槛，从来不是算法，而是如何让计算机真正“理解”时间——不是字符串“198212”，而是可计算的datetime64[ns]类型。课程设计PDF里那句“需说明缺失值处理依据”，就是在逼你查证：1910年代观测站稀疏是否导致系统性偏差？剔除空值会不会低估极端事件频率？这些思考，比写出一行plt.pie()重要十倍。

2. 数据结构与物理意义解构：读懂海洋写给我们的密码

要真正驾驭这套数据，得先拆解它的“骨骼”。原始文件nino12.long.anom.data.csv看似简单，实则暗藏气候学约定俗成的编码逻辑。打开它，你会发现没有表头，首列是连续整数（1,2,3…），第二列是小数（如-0.32, 0.47）。这并非设计缺陷，而是延续自NOAA（美国国家海洋和大气管理局）早期的文本存档规范：第一列是序号，第二列才是核心——海表温度距平值（SST Anomaly），单位摄氏度，基准期为1951–1980年平均值。所谓“距平”，即某时刻实测温度减去该时段长期平均温度，正值代表比常年暖，负值代表比常年冷。这个基准期选择极为关键：若用1981–2010年，因全球变暖趋势，同一事件的距平值会系统性偏高，直接扭曲厄尔尼诺强度判断。资源包默认采用NOAA标准基准，确保结果可与权威气候报告对标。

更隐蔽的是时间维度。文件本身不含日期列，但根据NOAA官方文档，该序列是月度数据，起始时间为1870年1月，按月递增。这意味着序号1对应1870-01，序号2对应1870-02……序号1788（149年×12月）对应2018-12。这个映射关系是整个时间序列分析的地基。我在第一次带学生做这个练习时，有组同学直接把序号当时间戳画折线图，结果出现一条诡异的斜线——因为他们没意识到，序号只是索引，真正的“时间”需要通过数学转换生成。pd_m.py中pd.date_range('1870-01', '2018-12', freq='M')这行代码，本质是在重建被压缩的时间轴：把1788个离散点，精准锚定到149年间的每一个月末。这种重建不是技术炫技，而是气候分析的基本功。试想，若把1997年强厄尔尼诺峰值（约+2.8℃）错误地归到1998年1月，后续所有事件持续时间统计都会错位。所以nino12_dropnan_.csv之所以被单独提供，不仅为省去清洗步骤，更因其已内置正确的时间列date（格式为YYYY-MM-DD），这是所有后续操作的前提。

再看事件标注文件：LaNinaStartDate.txt和NinoStartDate.txt。它们不是简单的年份列表，而是经过WMO（世界气象组织）认证的事件起始年份。注意关键词是“起始”，而非“发生”。例如1982年厄尔尼诺事件，实际从1982年中期开始发展，但官方认定其起始年份为1982年。这种定义源于业务需求：气候监测机构需在事件萌芽期（通常为北半球夏季）发布预警，而精确到月份的判定需结合多源数据（风场、气压、次表层海温等），单靠Nino 1+2区SST无法独立确认。因此，教学中要求“将事件年份匹配到数据”，本质上是在训练一种关键思维：数据标注永远服务于问题定义，而非数据本身。你不能因为1982年12月SST最高，就断言事件始于该月；必须严格遵循外部权威标注，再回溯数据验证。这也是为什么资源包特意保留nino12_dropnan目录——里面存放着按年份切分的子文件（如1982.csv），方便你手动检查1982年全年的温度演变，理解“起始年份”背后的动态过程。

3. 核心处理流程详解：从原始数据到事件标记的完整链路

现在我们进入实操核心。pd_m.py脚本虽短，却浓缩了时间序列分析的典型范式。下面我逐段拆解其设计逻辑，并补充你在课堂实践中必然遇到的细节陷阱。

3.1 数据加载与基础清洗：为什么`dropna()`是安全的选择？

df = pd.read_csv('nino12.long.anom.data.csv', header=None, names=['index', 'anomaly']) df = df.dropna().reset_index(drop=True)

这段代码看似平淡，却直指教学痛点。原始数据中存在大量空值（NaN），主要集中在19世纪末至20世纪初——彼时远洋观测船稀少，秘鲁沿岸站点记录断续。若用fillna(method='ffill')前向填充，会把1890年的缺失值替换成1889年的值，人为制造虚假的温度连续性；若用interpolate()插值，则隐含“温度变化平滑”的假设，但厄尔尼诺爆发常伴随突变。dropna()在此场景下反而是最审慎的选择：它明确承认数据缺失的事实，不添加任何主观假设。我在指导学生时强调，清洗策略没有绝对优劣，只有是否匹配问题背景。此处选择删除，是因为课程目标是识别已确认发生的事件，而非重建历史全貌。reset_index(drop=True)则重置索引，避免后续iloc定位出错——这是新手常忽略的细节：清洗后若不重置索引，原索引可能跳变（如删掉第5行后，第6行索引仍为6），导致df.iloc[5]指向错误行。

3.2 时间轴重建：`date_range`的参数陷阱与物理校验

dates = pd.date_range('1870-01', '2018-12', freq='M') df['date'] = dates

freq='M'指定月度频率，但需警惕一个易错点：date_range默认生成月末日期（如1870-01-31），而气候学惯例中“1870年1月”指整个自然月。这对月均值计算无影响，但若后续需关联日尺度数据（如降水），则需改为freq='MS'（Month Start）。更关键的是物理校验：执行后务必检查len(df) == len(dates)。曾有学生因文件末尾多了一个空行，导致read_csv读入1789行，而date_range只生成1788个日期，df['date'] = dates会报错。此时应先执行df = df.iloc[:len(dates)]截断，而非强行广播——数据长度不匹配是时间序列分析中最常见的“静默错误”。

3.3 事件年份匹配：布尔索引与`isin()`的性能差异

lanina_years = pd.read_csv('LaNinaStartDate.txt', header=None, squeeze=True)[0].tolist() df['is_lanina_year'] = df['date'].dt.year.isin(lanina_years)

这里用isin()而非循环遍历，是Pandas向量化操作的典范。但需注意squeeze=True的作用：它将单列DataFrame转为Series，再取[0]获取值，避免read_csv返回带索引的二维结构。若忽略此步，lanina_years会是Index对象，isin()仍可工作，但可读性差。更深层的考量是内存效率：isin()底层调用哈希表查找，时间复杂度O(1)，而循环for year in lanina_years: df[df['year']==year]是O(n²)。当事件年份列表扩大到百年尺度（约30个年份），差异微乎其微；但若扩展至全球多区域事件库，此设计便显出前瞻性。

3.4 饼图生成：超越美观的统计警示

anomaly_sign = np.sign(df['anomaly']) pie_data = anomaly_sign.value_counts() plt.pie(pie_data, labels=['Negative', 'Positive'], autopct='%1.1f%%')

np.sign()将数值转为-1/0/1，value_counts()统计频次。但这里埋着一个教学深意：0值（距平=0）被计入“Negative”类别。因为sign(0)==0，而value_counts()默认包含0。若需严格区分“冷/暖/中性”，应改用：

df['category'] = pd.cut(df['anomaly'], bins=[-np.inf, -0.5, 0.5, np.inf], labels=['Cold', 'Neutral', 'Warm'])

课程设计PDF中“异常分布特征”的评分要点，正是考察你能否发现并解释这一细节。我见过最佳答案：学生指出，Nino 1+2区因受沿岸上升流影响，常年偏冷，故负异常占比天然高于正异常——这并非数据缺陷，而是地理事实。饼图的价值，从来不在展示比例，而在激发对比例背后物理机制的追问。

4. 工具链与环境配置：requirements.txt的隐藏逻辑

requirements.txt文件仅两行：

pandas==1.3.5 matplotlib==3.5.1

表面看是版本锁定，实则暗含教学稳定性设计。Pandas 1.3.5发布于2021年，是首个全面支持pyarrow引擎的稳定版，但资源包未启用该引擎，原因在于：pyarrow虽加速大数据处理，却会改变read_csv对空值的默认识别行为（如将空字符串''视为NaN而非字符串），而原始数据中可能存在非标准空值。锁定旧版，确保所有学生在不同系统（Windows/macOS/Linux）上获得一致行为。同理，matplotlib 3.5.1避开了3.6+版本中plt.pie()默认启用的normalize=True参数变更——旧版需手动计算百分比，新版自动归一化，但教学要求学生理解autopct背后的计算逻辑。

.gitignore文件内容值得细究：

__pycache__/ *.pyc .DS_Store nino12_dropnan_result.csv nino12_pie.png

它刻意排除了所有衍生文件（_result.csv,.png），强制学生每次运行脚本生成新结果。这模拟了真实科研场景：分析脚本是“程序”，输出是“结果”，二者必须分离。若将nino12_pie.png纳入版本控制，当数据更新时，图片不会自动刷新，导致报告与数据脱节。.inscode则是VS Code的配置文件，预设了Python解释器路径和格式化规则，降低IDE适配成本——毕竟，让学生花半小时配置环境，远不如多讲十分钟groupby().agg()的妙用。

5. 实操心得与避坑指南：那些文档里不会写的教训

带了这么多年实训课，学生踩过的坑我都记在笔记本里。这里分享三个高频问题及其本质解法，它们远超代码层面，直指数据分析思维的核心。

5.1 “为什么我的饼图只有70%？”——缺失值的二次污染

现象：学生运行pd_m.py后，饼图显示正异常占比仅28.3%，负异常71.7%，总和不足100%。检查代码无误，数据也加载成功。
根源：np.sign()对NaN返回NaN，而value_counts()默认dropna=True，即自动剔除NaN计数。但原始数据清洗后仍有少量NaN（如dropna()未覆盖的列），或date列因长度不匹配引入NaT（Not a Time）。value_counts()剔除它们后，总数变小，百分比基于剩余有效样本计算，造成“消失的30%”。
解法：强制包含空值pie_data = anomaly_sign.value_counts(dropna=False)，再检查pie_data.loc[np.nan]的值。若非零，说明时间列或异常值列存在未察觉的空值，需回溯清洗步骤。这教会学生：任何统计结果都必须与原始数据总量交叉验证。1788个样本，饼图各部分之和必须等于1788。

5.2 “事件年份匹配失败”——文本文件的隐形换行符

现象：LaNinaStartDate.txt明明写着1903\n1906\n1909，但df['is_lanina_year']全为False。
根源：Windows系统保存的文本文件用\r\n换行，Linux/macOS用\n。read_csv读取时，若未指定lineterminator，可能将1903\r当作字符串，而df['date'].dt.year返回整数1903，isin()匹配失败。
解法：统一用pd.read_csv('LaNinaStartDate.txt', header=None, dtype=str).squeeze().str.strip()。str.strip()清除首尾空白符（包括\r），dtype=str防止数字被转为浮点（如1903.0）。这揭示一个朴素真理：数据输入环节的字符处理，常比算法设计更耗精力。

5.3 “课程设计PDF打不开”——PDF元数据的编码陷阱

现象：学生下载课程设计题目 (11).pdf后，Adobe Reader提示“损坏”，但浏览器能打开。
根源：文件名中的空格和括号在某些FTP客户端传输时被转义，或Git仓库中文件权限异常。更隐蔽的是PDF内部元数据：该文件由LaTeX编译，若学生本地缺少cm-super字体包，PDF阅读器可能渲染失败。
解法：提供备用链接（如GitHub Release页面），并强调“请勿重命名PDF文件”。这看似琐碎，实则传递关键意识：数据科学是端到端工程，从文件传输、编码、渲染到分析，每个环节都可能成为瓶颈。我常对学生说：“当你花两小时调试一个‘不存在’的bug时，先检查文件名里有没有中文或空格。”

6. 扩展实践建议：从入门到建立气候分析直觉

这个资源包是起点，而非终点。若你想深化理解，我推荐三个低成本、高回报的延伸方向，它们不需要新工具，只需修改几行代码：

6.1 引入“强度阈值”：超越二元事件标记

当前脚本仅标记事件年份，但厄尔尼诺有强弱之分。NOAA定义：Nino 1+2区SST距平≥+0.5℃且持续5个月为事件，≥+1.5℃为强事件。可在pd_m.py中添加：

# 计算滚动5个月均值 df['rolling_5m'] = df['anomaly'].rolling(window=5).mean() # 标记强厄尔尼诺月份 df['strong_nino_month'] = (df['rolling_5m'] >= 1.5) & (df['date'].dt.year.isin(nino_years))

然后统计每年强事件月份数。你会发现：1997、2015年峰值月数远超其他年份——这比单纯“1997年是厄尔尼诺年”的结论更有信息量。

6.2 构建“气候态”基准：理解距平的相对性

原始数据用1951–1980年基准，但若想分析长期趋势，可动态计算基准。添加：

# 每10年滚动计算基准期均值 df['decade'] = (df['date'].dt.year // 10) * 10 baseline = df.groupby('decade')['anomaly'].mean() # 将原始距平转换为相对于1950s的距平 df['anomaly_1950s_ref'] = df['anomaly'] - baseline.loc[1950]

绘图对比两条曲线，你会直观看到：2010年代的“+0.8℃”在1950s基准下是+1.2℃，而在2010s自身基准下仅为+0.3℃——基准的选择，直接改写气候叙事。

6.3 关联外部事件：建立因果推断雏形

下载NOAA发布的《Historical ENSO Events》Excel表，提取1870–2018年事件起止月份。用pd.merge_asof()将SST数据与事件表按时间对齐：

events_df = pd.read_excel('enso_events.xlsx') events_df['start_date'] = pd.to_datetime(events_df['Start Year'].astype(str) + '-' + events_df['Start Month'].astype(str)) merged = pd.merge_asof(df.sort_values('date'), events_df.sort_values('start_date'), left_on='date', right_on='start_date', direction='backward')

这样，每一行SST数据都携带最近一次事件的类型（El Niño/La Niña/Neutral）。后续可用groupby('event_type')['anomaly'].describe()量化不同事件下的温度分布差异——这才是气候分析的真正入口：从描述走向解释。

最后分享个小技巧：每次运行脚本前，先执行df.info()和df.describe()。前者看数据类型是否正确（date必须是datetime64），后者看anomaly的min/max/std是否符合气候常识（Nino 1+2距平极少超过±3.5℃）。这些习惯，比记住一百个函数更重要。毕竟，海洋不会说谎，它只等待被正确解读。

本文还有配套的精品资源，点击获取

查看全文

http://www.rkmt.cn/news/1447394.html