当前位置: 首页 > news >正文

法语NER模型在可再生能源领域的应用

摘要

实现2050年碳中和目标需要前所未有的技术、经济和社会变革。由于时间资源稀缺,基于相关事实和信息做出决策至关重要,以避免误导。本研究旨在帮助决策者快速找到与可再生能源领域公司和组织相关的信息。

我们提出在法语训练的五个RNN和变换器模型上微调新类别"TECH",用于分类技术领域和新技术产品。此外,由于模型在涉及初创公司的新闻上进行微调,我们注意到"ORG"类别中初创公司和公司名称检测的改进。

我们进一步探索了最有效模型在使用少量训练数据时准确预测实体的能力。展示了模型从几百到几千个标注数据训练的进展。这一分析证明了这些模型无需大型语料库即可提取见解的潜力,减少了标注自定义训练数据的漫长过程。

引言

在向可再生能源转型的背景下,决策者常常发现自己被关于创新的嘈杂和不清晰数据所淹没。手动评估每个新公司和产品既不可能也不高效。非自动化方法包括手动分析数据源、搜索单个术语以及依赖Twitter/X标签等系统。

手动标注是一个耗时的过程,我们花了几个小时手动标注用于模型训练的49篇文章。一旦模型训练完成,标注时间从几小时减少到几秒,同时保持显著的准确度水平。

方法论

完整预处理和训练流程

模型创建的所有步骤结合到一个单一流程中:

  1. 新闻文章提取和预处理
  2. 文本分割成单个句子
  3. 首次NER模型标注
  4. 校正标注并添加"TECH"类别
  5. 标注数据分割为训练集(80%)和验证集(20%)
  6. 所有五个模型使用相同数据进行微调

网络爬取

使用GNews库构建训练语料库,通过Google News生成特定查询的RSS feed。该方法允许按发布日期、语言和国家自动过滤文章,创建包含49篇文章的第一个训练集,共3260个标注实体。

模型选择

研究比较了五种模型:

  • spaCy fr_core_news_lg(CNN模型)
  • Babelscape/Wikineural-Multilingual-Ner
  • CamemBERT
  • DistilCamemBERT
  • Camembert NER

结果与讨论

结果显示,CamemBERT模型在我们的新数据上适应最好,在新技术类别和ORG类别的新增内容上都表现出 impressive 的性能。具体F1分数如下:

  • TECH类别:91.28%
  • ORG类别:89.98%
  • LOC类别:91.39%
  • PER类别:100.00%

有限数据训练

为评估NER模型在小型数据集上的性能,我们在不同比例的训练数据(20%、40%、60%)上训练最佳模型。结果显示,即使训练数据减少,模型仍保持显著性能水平:

  • 40%数据训练:TECH类别F1分数73.93%
  • 60%数据训练:TECH类别F1分数79.42%

实际应用

微调后的模型可用于自动从可再生能源相关新闻文章中提取信息。通过对151篇法国可再生能源和能源初创公司相关文章的分析,我们能够:

  1. 提取频繁提及的公司名称(如TotalEnergies、Engie、EDF等)
  2. 识别热门技术领域(风能、太阳能、水力、核能等)
  3. 分析同一文章中组织和技术的共现关系

这种方法允许快速分析新闻媒体中的提及情况,为决策者提供行业趋势的可靠图像。通过简单测量公司和科技领域提及的共现情况,可以立即从自定义语料库中提取相关信息。

结论

该方法成功创建了专门检测可再生能源领域初创公司名称和技术领域的命名实体识别模型。我们展示了只需几千个高质量、领域特定的示例即可微调模型,并使其能够基于已吸收的模式在数据中泛化和发现新实体。

使用仅几千个示例,可以微调一个能够九成准确提取实体的模型。通过这种方法,仅花费几小时标注数据即可为分析师和决策者节省大量时间。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

http://www.rkmt.cn/news/26983.html

相关文章:

  • mochi-mqtt/server 实现一个mqtt bridge 功能
  • 2025年立式TYPE-C母座厂家推荐排行榜,TYPE-C接口,USB-C母座,立式贴片TYPE-C连接器,防水TYPE-C母座公司精选
  • 2025年沈阳酒店电话推荐:北站西塔丽柏宠物友好市中心步行地铁口。
  • 2025年发电机厂家推荐排行榜,发电机组出租,柴油发电机出租,甲醇发电机组租赁,移动式发电机出租,维修保养服务公司推荐
  • 表获取
  • 打卡测试
  • 【GitHub每日速递 251022】81.2k star, Bun:替代 Node.js 的全栈 JavaScript 神器,快速上手攻略来了!
  • 2025年陶瓷过滤机厂家权威推荐榜:真空/盘式/矿用/全自动/真空带式陶瓷过滤机,固液分离设备,真空脱水机,尾矿处理设备,圆盘过滤机专业选购指南
  • [Bash] Bash Survival Guide for Python Programmers
  • 2025年防腐木厂家权威推荐榜:深度解析户外防腐木、碳化木、景观木优质厂家实力与选购指南
  • 2025年流量控制设备厂家推荐排行榜:流量计,流量控制器,流量调节阀,流量控制阀,比例调节阀专业选购指南
  • 2025年吹塑机厂家推荐排行榜,挤出吹塑机,注射吹塑机,拉伸吹塑机,发泡吹塑机,物理发泡吹塑机,mucell发泡吹塑机,工具箱吹塑机,瓶子吹塑机,半导体清洗液瓶子吹塑机公司推荐
  • 使用Jupyter和Prodigy发现文本分类中的错误标签
  • 我国互联网公司最新市值排名!
  • 分割模型 语言转分割CLIPSeg - MKT
  • 在 Python 中,为什么说“一切皆对象”?
  • ESP32 Arduino核心框架:全面支持多款ESP32芯片的开发平台
  • 联邦学习与AI公平性研究新进展
  • 为什么一般教材在讲解python的多态概念时,不用抽象基类及其相关内容讲解呢?
  • tryhackme-预安全-windows基础-windows 基础知识1-16
  • YOLO11深度学习的遥感视角地面房屋建筑检测分割与分析系统 - MKT
  • 鸭子类型(Duck Typing)中的“类型”,指的是什么的类型?为什么很多人认为“Python 没有真正实现多态”
  • 图像分割 Segment Anything(1-2)第二代 - MKT
  • 结对项目-自动生成小学四则运算题目命令行程序
  • tryhackme-预安全-linux 基础-Linux 基础知识(第二部分)-14
  • tryhackme-预安全-linux 基础-Linux 基础知识(第一部分)-13
  • 我测试了七个主流后端框架的性能-结果让我重新思考了技术选型
  • 图像分割 3D-Box-Segment-Anything(3)分割2D到3D点云分割 rgb相机 - MKT
  • 图像分割 Segment Anything(3)分割2D到3D点云分割 rgb相机 - MKT
  • 图像分割 sam1 - MKT