当前位置：首页 > news >正文

北京链家+安居客二手房数据实战包：含爬虫源码、清洗代码、多模型预测与可视化报告

news 2026/6/9 6:54:55

本文还有配套的精品资源，点击获取

简介：直接跑通的北京二手房价格建模全流程资源，内置从链家和安居客实时采集的原始房源数据（lianjia.csv、anjuke.csv），附带完整可执行代码：Scrapy爬虫脚本（spiders目录下两个独立项目）、Jupyter Notebook分析文件（含数据清洗、缺失值/异常值处理逻辑）、特征工程模块（数值缩放、类别编码、相关性热力图）、线性回归/决策树/SVR等5种模型训练与交叉验证对比、RMSE/MAE/MAPE指标计算及结果可视化图表。配套HTML静态报告（北京二手房房价预测与分析.html）支持一键查看关键结论，visuals.py封装常用绘图函数，run_analysis.py提供命令行快速运行入口，requirements.txt明确依赖版本，README.md详述环境配置与各步骤执行顺序。所有代码已在Python 3.8+环境下实测通过，无需修改即可本地运行，适用于数据分析入门练习、课程设计或轻量级毕业课题。

1. 这不是“又一个房价预测Demo”，而是一套能真正跑通、能交作业、能讲清楚原理的北京二手房实战闭环

你是不是也经历过这样的场景：在课程设计选题时翻遍GitHub，看到一堆“House Price Prediction”项目，点进去发现只有几行sklearn代码+一个空荡荡的train.csv；或者好不容易找到带爬虫的，运行两分钟就报错——IP被封、XPath失效、反爬升级、requests headers过期……最后只能临时改用Kaggle上的波士顿房价数据集，答辩时被老师一句“北京市场和波士顿有可比性吗？”问得哑口无言。这个资源包，就是为解决这些真实痛点而生的。

它不叫“教学演示”，也不叫“概念验证”，而是一套从网页源码到HTML报告全程可追溯、每一步都经本地实测、每个异常都有明确处理逻辑的端到端实战包。关键词里写的“北京二手房、房价预测、Scrapy爬虫、机器学习建模、可视化分析”，不是标签堆砌，而是五个必须打通的环节：你打开浏览器能看到的真实链家/安居客页面 → 能稳定抓取的结构化数据（lianjia.csv含3276条有效房源，anjuke.csv含2841条）→ 清洗后保留92.3%原始信息量的数据集 → 特征工程中对“楼层”做语义解析（如“高楼层（共32层）”→提取数字32并标记“高层”）、对“装修”做业务分级（毛坯<简装<精装<豪装）→ 模型对比时不仅看RMSE，更用SHAP值解释“为什么朝阳区单价比海淀高1.2万，主因是地铁站距离权重达0.37”→ 最终HTML报告里每张图都带交互式悬停提示，点击即可查看原始数据片段。

我本人用这套流程带过三届本科生做课程设计，最常被问的问题是：“老师，链家现在加了滑块验证码，爬虫还能用吗？”答案很实在：本包中的lianjia_scrapy_crawl已内置动态User-Agent轮换+Referer模拟+请求间隔抖动（1.2~2.8秒随机）+关键字段容错提取，不依赖Selenium，纯Scrapy异步完成。它不承诺“永久可用”，但承诺“当前北京链家PC端列表页结构（2024年Q2）下，开箱即跑通”。如果你需要长期采集，README.md里专门写了《如何快速适配页面结构变更》的检查清单——比如当发现//div[@class='content__list']/div不再返回房源项时，只需修改spiders/lianjia_spider.py第87行的XPath，无需重写整个逻辑。这才是真实项目该有的样子：不是追求“一次写完永不维护”，而是把维护成本压到最低，把可复现性做到最高。

2. 内容整体设计与思路拆解：为什么选择双源采集+轻量模型组合+静态报告交付？

2.1 双平台数据采集：不是为了“多”，而是为了“稳”和“校验”

很多人会疑惑：为什么非要同时爬链家和安居客？只用一个平台不是更简单？这里藏着两个关键设计意图：

第一是数据鲁棒性兜底。链家在北京市场覆盖率高（尤其次新房），但部分远郊区域（如平谷、密云）挂牌量少；安居客则在郊区和小中介房源上更全。我们实测发现，单独用链家数据训练模型，在平谷区的预测MAE高达18.6万元；加入安居客数据后，该区域MAE降至9.2万元。这不是简单的数据量叠加，而是通过交叉覆盖降低区域偏差。更关键的是，当某平台临时调整反爬策略（比如链家某天突然增加字体混淆），你可以立即切换到安居客数据继续分析，避免整个项目卡死。

第二是业务真实性校验。我们对比了两个平台同一小区（如“望京西园三区”）的挂牌价：链家均价8.2万/㎡，安居客显示7.9万/㎡，差额3.7%。这个差额并非错误，而是反映了平台用户画像差异——链家用户更倾向改善型买家，报价偏高；安居客中小中介占比高，议价空间更大。我们在清洗阶段特意保留了“平台来源”字段，并在特征工程中将其编码为二分类变量（0=链家，1=安居客），让模型自动学习这种系统性偏差。这比强行抹平价格差异更符合真实交易逻辑。

提示：双源采集带来的额外收益是特征维度扩展。例如“链家独有字段‘经纪人星级’”和“安居客独有字段‘房源刷新时间’”，我们没有丢弃，而是转化为“服务可靠性得分”和“市场热度指数”两个新特征，后续验证显示它们对预测精度提升贡献率达5.3%。

2.2 模型选型逻辑：拒绝“唯准确率论”，聚焦可解释性与部署友好性

资源包里包含线性回归、决策树、随机森林、SVR、XGBoost五种模型，但绝非简单罗列。选型依据非常明确：本科毕设/课程设计场景下，模型必须满足三个硬约束——能讲清楚原理、能快速调参、能脱离GPU环境运行。

线性回归（LinearRegression）是基线锚点。它的系数直接对应特征重要性（如“每增加1公里地铁距离，预测单价下降0.42万元”），答辩时老师问“这个结论怎么来的”，你可以指着coef_数组逐条解释，而不是说“模型自己学的”。
决策树（DecisionTreeRegressor）承担“业务规则可视化”任务。我们用graphviz导出的树结构图（见HTML报告第3节），清晰展示了定价决策路径：“如果楼层≤6且装修=毛坯，则单价<6.5万；否则若楼龄>15年且无电梯，则单价再降1.2万”。这种输出，比一堆数字指标更能体现你的业务理解深度。
SVR（支持向量回归）解决小样本非线性问题。北京二手房数据存在明显长尾分布（单价2万/㎡以下和15万/㎡以上样本极少），线性模型容易在两端失真。SVR通过核函数映射，在有限样本下仍能拟合出合理曲线，实测其在单价>12万区间的MAPE比线性回归低22%。
随机森林和XGBoost作为精度标杆，但刻意限制了树的数量（n_estimators=50）和深度（max_depth=8）。原因很实际：在学生笔记本电脑（i5-8250U + 8GB内存）上，完整训练500棵树需17分钟，而50棵仅需2分18秒——这意味着你可以快速尝试不同特征组合，而不是卡在等待模型收敛上。

注意：所有模型均采用TimeSeriesSplit交叉验证（而非默认KFold），因为房价数据具有时间序列属性。我们按挂牌时间排序后切分，确保训练集时间早于测试集，避免未来信息泄露。这点在README.md的“模型评估说明”章节有详细计算过程。

2.3 报告交付形式：为什么坚持HTML静态文件而非Dash或Streamlit？

很多同学喜欢用Dash做交互式仪表盘，但课程设计答辩有个残酷现实：现场演示时网络不稳定、依赖库版本冲突、甚至老师电脑没装Node.js。本包选择生成静态HTML报告（由Jupyter Notebook导出），核心考量是零依赖、强兼容、易归档。

“零依赖”：HTML文件双击即可打开，无需启动任何服务。你在答辩现场用Chrome、Edge甚至IE11（兼容性已测试）都能正常查看所有图表。
“强兼容”：所有可视化均基于Plotly的静态导出模式（plotly.offline.plot），不调用在线CDN。即使断网，热力图、SHAP瀑布图、残差分布图全部正常渲染。
“易归档”：HTML文件可直接打包进毕业论文附件，PDF转换时图表不失真（我们测试过wkhtmltopdf 0.12.6版本），评审老师下载后开箱即用。

更重要的是，这个HTML不是简单截图拼接。它嵌入了动态交互能力：点击“特征重要性”柱状图任意一栏，下方“SHAP分析”模块会自动高亮该特征对样本的影响趋势；鼠标悬停在“预测vs真实”散点图上，实时显示具体房源地址和误差值。这些交互均由JavaScript在前端完成，不涉及后端请求——这才是真正适合教学场景的“轻量化智能”。

3. 核心细节解析与实操要点：从爬虫健壮性到特征工程的业务逻辑

3.1 Scrapy爬虫的反反爬设计：不靠暴力，靠理解

很多人以为爬链家必须用Selenium模拟浏览器，其实大可不必。我们深入分析了链家PC端2024年Q2的反爬机制，发现其核心防御有三层：IP频率限制、User-Agent指纹识别、关键字段动态混淆。对应解决方案如下：

IP频率控制：未采用固定延时（如sleep(2)），而是实现“抖动延时+请求队列”。spiders/lianjia_spider.py中定义了delay_range = (1.2, 2.8)，每次请求前调用random.uniform(*delay_range)。更关键的是，我们设置了CONCURRENT_REQUESTS = 1（单并发），避免同一IP短时间内发出多个请求。实测表明，该策略下单IP日采集量稳定在1200~1500条，远超课程设计所需（通常300条足矣）。
User-Agent指纹规避：没有简单轮换UA字符串，而是构建了“UA池+Referer链”。在settings.py中预置了12个主流浏览器UA，并关联对应的Referer（如Chrome UA对应https://bj.lianjia.com/，Firefox UA对应https://bj.lianjia.com/ershoufang/）。每次请求时，UA和Referer同步切换，模拟真实用户浏览路径。这比单纯换UA有效得多——我们测试过，仅换UA的失败率是18%，而UA+Referer组合失败率降至3.2%。
字段动态混淆应对：链家对价格、面积等关键字段使用自定义字体（woff文件），导致直接XPath提取返回乱码。我们的解法是：在parse_item方法中，先用re.search(r’price: (\d+),’, response.text)从页面JS代码中提取原始数字，再结合CSS选择器定位展示框位置进行二次校验。这种方法绕开了字体渲染，直取数据源头。anjuke爬虫同理，针对其“价格文字图片化”问题，我们解析了其data-src属性中的base64编码，用PIL库OCR识别（已封装在utils/ocr_helper.py中，调用一行代码即可）。

实操心得：爬虫调试时，务必开启Scrapy的HTTPCACHE_ENABLED = True（已在settings.py默认开启）。这样每次运行不会重复请求，你能反复调试XPath而不触发反爬。缓存文件自动存于.httpcache目录，清理只需rm -rf .httpcache。

3.2 数据清洗：缺失值不是“删掉就好”，而是业务信号

清洗不是技术动作，而是业务理解过程。以“楼龄”字段为例：链家数据中约23%的房源缺失楼龄，安居客中达37%。粗暴删除会导致样本量锐减，但我们发现，缺失楼龄的房源有显著共性——82%位于2015年后建成的新盘，且“装修”字段多为“精装”或“豪装”。于是我们设计了三级填充策略：

规则填充：若“装修=豪装”且“挂牌时间-2015>0”，则楼龄 = 挂牌时间 - 2015 ± 1年（引入±1年波动模拟施工周期）；
邻近填充：在同一小区内，取已知楼龄房源的中位数；
模型填充：对仍缺失的5%，用随机森林基于“小区均价、楼栋数、容积率”预测楼龄（该模型单独保存在models/impute_model.pkl中，run_analysis.py会自动调用）。

类似逻辑贯穿所有关键字段：
- “楼层”字段清洗时，我们解析了“中楼层（共28层）”这类文本，提取总层数28和相对位置（中），并衍生出“是否顶层”“是否底层”“总层数分段（≤6/7-12/≥13）”三个布尔特征；
- “交通”字段原为“步行500m到14号线将台路站”，我们用高德地图API批量解析（已提供离线版坐标映射表data/station_coords.csv），转化为“最近地铁站距离（km）”和“所属地铁线（14号线=1, 其他=0）”；
- “学区”字段存在“划片中”“待确认”等模糊表述，我们统一映射为概率值（如“划片中”=0.8，“待确认”=0.3），后续模型能学习这种不确定性。

注意：所有清洗逻辑均封装在cleaning.py中，函数命名遵循“clean_[字段名]”规范（如clean_floor(), clean_school()）。你在Jupyter Notebook中调用时，只需传入DataFrame，无需关心内部实现——这是为降低使用门槛做的刻意封装。

3.3 特征工程：把“装修”变成可计算的数值，把“地段”变成可量化的向量

特征工程是房价预测的灵魂，也是学生最容易敷衍的部分。本包的特征处理严格遵循“业务可解释、数学可计算、模型可接受”三原则。

类别变量编码：不用简单的LabelEncoder，而是采用目标编码（Target Encoding）+ 平滑（Smoothing）。以“装修”为例，原始值为[毛坯, 简装, 精装, 豪装]，我们计算每个类别对应房源的平均单价，再用全局均值平滑：
smoothed_mean = (category_sum + global_mean * alpha) / (category_count + alpha)
其中alpha=5（经验值，平衡局部与全局）。结果得到[4.2, 5.8, 7.3, 9.1]，完美体现装修等级与价格的单调关系。相比One-Hot编码，它将4维降为1维，且避免了维度爆炸。
地理特征构造：没有直接用经纬度（模型难解释），而是构建“城市功能区热力图”。我们基于北京市规自委公开的《北京市功能区划图》，将每个房源坐标映射到“中关村科技区”“国贸商务区”“望京居住区”等12类功能区，并统计各区域内挂牌均价、在售量、平均楼龄。最终生成12维向量，每维代表该房源所在功能区的综合热度指数（公式：热度 = 0.4*均价权重 + 0.3*在售量权重 + 0.3*楼龄逆权重）。
交互特征挖掘：“楼层”和“楼龄”的组合极具业务意义——老楼的高楼层（>20层）往往因无电梯而贬值，新楼的高楼层（>20层）则因视野好而溢价。我们构造了floor_age_interaction = floor_level * (1 / (age + 1))，该特征在XGBoost模型中重要性排名第4，证实了业务直觉。

提示：visuals.py中的plot_correlation_heatmap()函数，不仅画热力图，还会自动标注相关系数>0.3的特征对，并给出业务解读建议（如“地铁距离与单价呈强负相关，建议在模型中重点考察”）。这是帮你快速抓住关键变量的利器。

4. 实操过程与核心环节实现：从环境搭建到一键生成报告的完整流水线

4.1 环境配置：为什么要求Python 3.8+而非最新版？

requirements.txt中明确锁定了python=3.8.10，而非3.11或3.12，这是经过三次踩坑后的慎重选择：

Scrapy 2.8.0（当前稳定版）在Python 3.11+上存在asyncio事件循环兼容性问题，导致爬虫偶发卡死；
XGBoost 1.7.5在Python 3.12编译时需额外安装Visual Studio Build Tools，学生电脑普遍不具备；
更关键的是，课程设计常用虚拟机（如VMware Ubuntu 20.04）默认Python版本即为3.8，无需额外升级。

环境搭建只需三步（已写入README.md）：

创建虚拟环境：python3.8 -m venv bj_housing_env
激活环境：source bj_housing_env/bin/activate（Mac/Linux）或bj_housing_env\Scripts\activate（Windows）
安装依赖：pip install -r requirements.txt

实操心得：如果遇到pip install scrapy报错“Microsoft Visual C++ 14.0 is required”，不要慌——这是Windows环境下常见问题。解决方案是：先运行pip install --upgrade pip，再执行pip install scrapy。我们已在requirements.txt中将pip版本锁定为22.3.1，避免此问题。

4.2 数据采集：如何在10分钟内拿到自己的lianjia.csv？

爬虫不是黑盒，你必须理解它的运行边界。以链家爬虫为例，执行流程如下：

cd spiders/lianjia_scrapy_crawl scrapy crawl lianjia -a city=bj -a districts="chaoyang,haidian" -o ../lianjia.csv

参数说明：
--a city=bj：指定城市代码（bj=北京，sh=上海，gz=广州）
--a districts="chaoyang,haidian"：限定行政区，用英文逗号分隔。支持全北京16区，但首次运行建议只选2个区（如朝阳+海淀），避免耗时过长。
--o ../lianjia.csv：输出路径，自动保存到项目根目录。

实测耗时：朝阳区（约420个小区）+ 海淀区（约380个小区）共采集1247条房源，耗时9分32秒（i7-10750H + 16GB内存）。采集完成后，lianjia.csv已包含完整字段：title, price, unit_price, area, floor, age, decoration, elevator, subway_dist, school, district, street, url。

注意：爬虫日志会实时显示进度，如Scraped from <200 https://bj.lianjia.com/ershoufang/chaoyang/> | Parsed 87 items。若某区采集失败，日志末尾会提示ERROR: Failed to parse district 'xxx'，此时只需检查该区拼音是否正确（如“丰台”是fengtai，不是fengtaiqu）。

4.3 模型训练与评估：交叉验证不是摆设，而是精度保障

Jupyter Notebook中的模型训练模块（Section 4）不是简单调用fit()，而是实现了完整的评估闭环：

数据分割：采用TimeSeriesSplit(n_splits=5)，按挂牌时间排序后切分。确保训练集时间戳全部早于测试集，杜绝未来信息泄露。
特征缩放：对数值特征（area, subway_dist, age）使用StandardScaler，对类别特征（district, decoration）使用OneHotEncoder，全部封装在Pipeline中，避免训练/测试集缩放不一致。
模型训练：五种模型并行训练，每种模型均进行超参搜索（GridSearchCV），搜索空间已根据北京数据特性优化：
- 决策树：max_depth=[5,8,12], min_samples_split=[10,20]
- SVR：C=[0.1,1,10], gamma=['scale','auto']
- XGBoost：learning_rate=[0.05,0.1], n_estimators=[50,100]
指标计算：除常规RMSE、MAE外，特别计算MAPE（平均绝对百分比误差），因为它对高价房和低价房一视同仁。公式：MAPE = mean(|(y_true - y_pred) / y_true|) * 100%。实测显示，北京数据MAPE中位数为6.8%，意味着预测误差平均在7%以内。

评估结果以表格形式输出（见Notebook Section 4.3），关键列包括：
-Model：模型名称
-RMSE：均方根误差（万元）
-MAE：平均绝对误差（万元）
-MAPE：平均绝对百分比误差（%）
-Train_Time：训练耗时（秒）
-Feature_Importance：关键特征（前3名）

提示：run_analysis.py提供了命令行快捷入口。执行python run_analysis.py --mode=train --model=xgb即可跳过Notebook，直接训练XGBoost模型并保存结果。这对需要批量测试不同参数的同学极其实用。

4.4 可视化报告生成：从Notebook到HTML的自动化链条

HTML报告不是手动导出的，而是通过自动化脚本生成：

# 1. 运行分析流程（清洗+建模+绘图） python run_analysis.py --mode=full # 2. 导出HTML报告 jupyter nbconvert --to html "北京二手房房价预测与分析.ipynb" # 3. 合并资源（图片、JS库） python utils/merge_html_resources.py

其中merge_html_resources.py是关键：它会自动将Notebook中生成的Plotly图表（保存在figures/目录）嵌入HTML，并替换CDN链接为本地js文件（已打包在static/目录）。最终生成的北京二手房房价预测与分析.html大小约4.2MB，全部资源内联，离线可用。

报告结构严格遵循分析逻辑：
-Section 1：数据概览—— 双源数据量对比、字段完整性热力图、价格分布直方图
-Section 2：特征分析—— 相关性热力图、关键特征分布（如“单价vs地铁距离”散点图）
-Section 3：模型对比—— 五模型RMSE/MAE/MAPE横向对比表、预测vs真实散点图
-Section 4：深度解读—— SHAP值瀑布图（单样本解释）、特征重要性柱状图、残差分析

实操心得：如果想快速查看某张图，不必运行全流程。直接在Notebook中运行visuals.plot_price_distribution(df_lianjia)即可生成价格分布图，函数会自动保存到figures/price_dist.png并显示。所有绘图函数均支持save_path参数，方便你定制输出路径。

5. 常见问题与排查技巧实录：那些文档里不会写的“血泪经验”

5.1 爬虫常见故障速查表

故障现象	可能原因	排查步骤	解决方案
`ConnectionRefusedError: [Errno 111] Connection refused`	链家服务器拒绝连接（IP被封）	1. 检查能否在浏览器访问`https://bj.lianjia.com` 2. 查看scrapy日志中最近5条请求的status_code	切换代理IP（已在spiders/settings.py预留PROXY_LIST配置项），或暂停1小时后重试
`KeyError: 'price'`	页面结构变更，price字段XPath失效	1. 手动访问日志中报错的URL 2. 检查页面源码中price是否仍在`<span class="total-price">`内	修改spiders/lianjia_spider.py第112行XPath：`response.xpath('//span[@class="total-price"]/text()').get()`
`UnicodeDecodeError: 'utf-8' codec can't decode byte`	安居客页面编码异常	1. 在parse方法开头添加`print(response.text[:200])` 2. 观察乱码特征	在spiders/anjuke_spider.py中，将`response.text`替换为`response.body.decode('gbk', errors='ignore')`
`Twisted error: DNS lookup failed`	DNS解析失败	1. 执行`ping bj.lianjia.com` 2. 检查网络是否正常	在settings.py中添加`DNS_TIMEOUT = 30`，并设置`RETRY_TIMES = 3`

独家技巧：当遇到XPath失效时，不要盲目重写。先用浏览器开发者工具（F12）复制“价格”元素的CSS选择器（如.total-price），然后在Scrapy shell中验证：scrapy shell 'https://bj.lianjia.com/ershoufang/chaoyang/'→response.css('.total-price::text').get()。90%的问题能在此一步定位。

5.2 模型训练失败排查指南

问题：XGBoost训练时内存溢出（MemoryError）
原因：北京数据虽仅3000+条，但One-Hot编码后特征维度达127维，XGBoost默认使用dense matrix存储。
解决方案：在train_model.py中，将xgb.XGBRegressor()初始化参数改为：

XGBRegressor( tree_method='hist', # 改用直方图算法，内存占用降60% enable_categorical=True, # 直接处理类别特征，避免One-Hot n_jobs=1 # 限制单线程，避免内存峰值 )

问题：SHAP值计算超时（>30分钟）
原因：SHAP KernelExplainer对全量数据计算复杂度O(N²)。
解决方案：在Notebook Section 5中，我们已改用shap.TreeExplainer(model).shap_values(X_sample)，其中X_sample为随机采样的200条测试样本（X_sample = X_test.sample(200, random_state=42)）。实测耗时从42分钟降至1.8分钟，且解释效果无显著损失。

问题：HTML报告中图表不显示
原因：Plotly导出时未启用offline模式，依赖在线CDN。
解决方案：在Notebook开头添加：

import plotly.offline as pyo pyo.init_notebook_mode(connected=False) # 关键！禁用在线模式

并在所有fig.show()前添加pyo.plot(fig, filename='figures/xxx.html', auto_open=False)。

5.3 课程设计答辩高频问题应答锦囊

Q：为什么不用LSTM处理房价时间序列？
A：LSTM适用于高频时间序列（如分钟级股票价格），而二手房挂牌是低频事件（单房源平均挂牌周期62天），且我们采集的是横截面数据（同一时刻不同房源），非严格时间序列。用LSTM反而引入过拟合风险，实测其RMSE比XGBoost高18%。

Q：特征工程中“功能区热度指数”如何保证客观性？
A：该指数基于北京市规自委2023年发布的《城市功能区划白皮书》官方分类，权重系数（0.4/0.3/0.3）通过网格搜索确定，且在交叉验证中保持稳定。我们在HTML报告附录提供了各区热度指数原始数据表（data/function_zone_scores.csv），可供核查。

Q：模型在通州副中心的预测效果如何？
A：我们在测试集中单独提取通州样本（n=187），五模型中XGBoost表现最优：RMSE=5.2万元，MAPE=7.1%。低于全市平均MAPE（6.8%），说明模型对新兴区域适应良好。原因在于“地铁距离”和“规划利好”特征在通州权重更高，模型已自动学习。