当前位置: 首页 > news >正文

DataX从入门到精通 第1课 ETL之DataX 安装DataX

1、下载DataX源码

地址为https://github.com/alibaba/DataX.git

2、通过maven打包:

在DataX根目录执行打包命令

mvn -U clean package assembly:assembly -Dmaven.test.skip=true

打包成功,日志显示如下:

[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 01:39 h
[INFO] Finished at: 2026-06-03T12:34:15+08:00
[INFO] ------------------------------------------------------------------------

企业微信截图_17804640917695

3、DataX目录

打包成功后的DataX包位于 {DataX_source_code_home}/target/datax/datax/ ,结构如下:

企业微信截图_17804642559503

 4、配置示例:从stream读取数据并打印到控制台

1)第一步、创建作业的配置文件(json格式)

可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER},这里执行命令 

python datax.py -r streamreader -w streamwriter

企业微信截图_17804646042515

 2)根据模板配置json如下:

 将stream2stream.json文件放到job目录下,内容如下:
{"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}}
}

3)运行job

执行命令

chcp 65001
python bin/datax.py ./job/stream2stream.json

企业微信截图_17804661625069

 出现乱码。

4)解决乱码

执行命令 chcp 65001后显示正常,如果不想每次都输 chcp 65001,可以写个批处理。

chcp 65001
python bin/datax.py ./job/stream2stream.json

企业微信截图_17804668445571

 

done!!!

 下一篇文章将讲解DataX-Web安装部署。

image

 

http://www.rkmt.cn/news/1469593.html

相关文章:

  • 2026连云港防水补漏哪家好?住建实地测评权威榜单TOP5|卫生间免砸砖/阳台屋顶/厨卫漏水维修(6月连云港专项调研) - 苏易修缮
  • LeetCode 377:组合总和 Ⅳ(Combination Sum IV)—— 题解 ✅
  • 2026徐州家装公司五家优质测评,选装修不再踩坑 - 招财兔数字员工
  • 新手福音:用快马ai生成你的第一个公式编辑器,告别mathtype破解版
  • EMW3080调试记录
  • 有没有免费或低成本的工单系统推荐?
  • 如何在3分钟内实现WPS与Zotero的无缝对接:跨平台文献管理终极指南
  • 用Matlab GUI做个指纹锁原型:从图像处理到特征匹配的完整实战(附源码)
  • MatrikonOPC免费工具套件:工业自动化数据集成与通信调试实战指南
  • JEPA范式在VLM中的应用
  • 别再手动刷比分了!5分钟自建一个足球赛事实时数据提醒工具(基于Python脚本)
  • 抖音无水印下载终极指南:从零开始批量下载你的抖音收藏
  • PanelAI开发复盘:从传统行业转型AI创业的真实思考,延期上线背后的复盘与规划
  • 5-2 - HTTPS 协议原理
  • 汽车方向盘控制器技术演进:从电阻匹配到MCU智能协议转换
  • AI会议纪要工具选型指南
  • FPGA高级设计实战:从RTL到高速接口的系统级开发指南
  • Veo 2光影效果失控?4步精准校准曝光响应曲线,附官方未披露Gamma映射对照表(2024 Q3固件实测)
  • CVPR 2021新宠:CoordAttention注意力机制,在MobileNetV2上提升3个点,保姆级代码解读与实战
  • 富士康供应商生存指南:从PCB到MCU,拆解电子制造供应链核心规则
  • [t.9.13] Scrum Meeting 13
  • Veo风格迁移不是魔法,是工程——揭秘Meta内部验证的4类不可迁移场景及2种fallback应急方案
  • 突破JSXBIN加密壁垒:Jsxer如何成为Adobe脚本开发者的得力伙伴
  • 在 Oracle EBS 中,要在同一个 OU(运营单元)下实现不同交易走不同的公司段(Company Segment / Balancing Segment),核心思路是利用 SLA(子分类账会计)
  • 广州恒尔全自动包装生产线:获评工业4.0示范案例,构筑高效生产新生态 - 品牌速递
  • 2026最新!沉香线上购买渠道全链路体验测评:予香高端沉香抖音淘宝双平台实测 - GrowthUME
  • 别再死记ReLU和Sigmoid了!图解吴恩达课程:为什么算法创新让深度学习训练‘快’了10倍
  • 天津收藏圈实测:六大老酒上门回收机构口碑排行榜 - 品牌排行榜单
  • 贝塞尔椭球下大地主题解算MATLAB工具:正算反算一键运行,含图形界面与高斯平均引数法实现
  • 教育部抽检论文的重复率是什么标准?