当前位置: 首页 > news >正文

14k Star 的抖音TikTok 数据采集工具,完全开源

文章目录

  • 14k Star 的抖音/TikTok 数据采集工具,完全开源

14k Star 的抖音/TikTok 数据采集工具,完全开源

JoeanAmier 开发的 DouK-Downloader(原名 TikTokDownloader),是一款面向抖音和 TikTok 的数据采集下载工具,目前在 GitHub 累计获得 14,480 个 Star。

DouK-Downloader 基于 HTTPX 模块实现,完全开源,同时覆盖抖音和 TikTok 两大平台。功能涵盖单个视频和图集的下载,批量采集账号发布、喜欢、收藏、收藏夹中的作品,获取直播拉流地址,以及采集评论数据、搜索数据和热榜数据。

核心功能

抖音平台:支持下载视频、图集、实况动图,自动获取最高画质的视频文件。账号维度上,批量下载发布、喜欢、收藏、收藏夹中的作品,支持按发布时间筛选和增量下载。直播方面,获取拉流地址并调用 ffmpeg 下载直播视频。同时支持采集评论数据、合集作品、搜索数据、热榜数据和账号数据。

TikTok 平台:支持下载视频原画、图集,批量下载账号发布和喜欢作品,获取直播拉流地址并下载直播视频,以及下载合辑作品。

两个平台的数据可以保存为 CSV、XLSX 或 SQLite 格式。程序自动跳过已下载的文件,支持断点续传,内置智能延时请求机制,避免对平台服务器造成压力。作品 ID 会被记录,增量模式下不会重复下载。

三种运行模式

终端交互模式是推荐使用方式,通过菜单选项操作各项功能,建议配合配置文件管理账号信息。

Web API 模式启动后,可以访问本地 Swagger 文档页面,通过 HTTP 接口调用各项功能,适合需要编程集成的场景。以采集抖音评论为例,向本地端点发送 POST 请求,传入作品 ID 和分页参数即可获取结构化数据。

Web UI 交互模式因项目代码重构暂未开放。

安装与配置

安装分两种方式。Mac OS 和 Windows 10 及以上用户,可从 Releases 页面或 Actions 下载已编译的可执行文件,解压后双击运行。项目支持通过 GitHub Actions 自行构建可执行程序。

从源码运行需要 Python 3.12 及以上版本,使用 pip 或 uv 安装依赖后启动。同时提供 Docker 镜像,可从 Docker Hub 或 GitHub Container Registry 拉取。

首次使用需要配置 Cookie。程序支持从剪贴板读取:参考官方教程提取 Cookie 后复制到剪贴板,程序自动读取并写入配置文件。Cookie 仅在失效后需要更新。Cookie 会影响下载视频的分辨率,无法获取最高画质时更新 Cookie 通常能解决。

数据管理细节

下载的文件先存入临时文件夹,完成后再移至存储目录,避免产生不完整文件。程序运行结束时自动清空临时目录。账号昵称或标识发生变化时,程序自动更新已下载文件名称中的对应信息。

代理设置、文件大小上限、多线程下载、自定义筛选规则、按文件夹归档等功能,通过配置文件 settings.json 控制。Windows 用户以管理员身份运行才能读取 Chromium、Chrome、Edge 浏览器的 Cookie。

Star 趋势

从 Star History 图表来看,DouK-Downloader 的增长曲线持续走高,2024 年至今保持上升态势。14,480 个 Star 说明这款工具在数据采集领域获得了较多关注。

作者还开发了小红书下载器(XHS-Downloader)和快手下载器(KS-Downloader),覆盖了国内主要短视频平台的采集需求。

注意事项

项目声明不会支持付费作品下载,也不会提供付费版本或商业服务。使用者需自行确保使用行为符合相关法律法规和平台服务条款。程序未针对多开场景优化,如需多开建议复制整个项目文件夹。Cookie 获取教程和项目文档均可在项目主页找到。

针对多开场景优化,如需多开建议复制整个项目文件夹。Cookie 获取教程和项目文档均可在项目主页找到。

http://www.rkmt.cn/news/1450623.html

相关文章:

  • HL-IK框架:让机器人动作更自然的逆运动学解决方案
  • 从天气预报到股票预测:时间序列分析ARIMA模型实战,用Python预测股价走势(附完整代码)
  • 广州网站开发公司推荐——广州企业网站建设指南:如何找到靠谱的开发公司? - mougen1
  • 3步解锁macOS视觉体验:为什么你的Windows和Linux需要这款开源光标?
  • 广州独立站开发公司推荐——广州企业出海必读:独立站开发公司怎么选? - mougen1
  • 基于BH1750与Arduino的智能光照响应系统:从传感器原理到物联网闭环实践
  • Cursor试用重置工具:3分钟解决“试用限制“问题
  • 企业网站开发公司推荐——企业网站开发全攻略:如何选对服务商,打造高价值官网? - mougen1
  • 免费音频编辑神器Audacity:从零开始掌握专业级音频处理
  • DeepEval 框架实战(一):快速搭建环境并编写第一个 LLM 测试用例
  • 共沸脱水技术及其在光刻胶用PGMEA纯化中的应用(下)
  • 【财务系统AI化生死线】:监管新规倒计时90天!3类未备案AI接口将被强制下线
  • 告警准确率从61%跃升至98.7%:基于LSTM-Attention双模态异常检测的工业级落地实践
  • 私有化音视频系统/视频直播点播EasyDSS一体化音视频平台助力校园全场景数字化转型
  • 6款精品降AI率软件 改写实力出众
  • 2026营销人员如何提升职场素养与专业度
  • 鸣潮模组:15项高效游戏增强功能完整配置指南
  • ArcGIS Pro 3.0 下 Linkage Mapper 报错全攻略:从‘No module named lm_config’到‘Circuitscape failed’的20+个坑我都帮你踩了
  • Nvidia cuDNN 面试准备
  • 徐珊新歌《六月的简历和情书》上线:用2086年的嗓音,唱哭2026年的每一个你
  • 广州商城小程序开发公司推荐-广州企业如何选择靠谱的商城小程序开发公司? - mougen1
  • 终极指南:如何用Obsidian模板构建你的Zettelkasten知识管理系统
  • 113.手写Linux刷机自动化工具|适配小米一加,自动检设备、防翻车、批量刷分区
  • 别再手动调参了!盘点10个开箱即用的相机标定工具(含OpenCV/Kalibr/Matlab保姆级对比)
  • 深度实战:Python爬取今日头条关键词搜索结果的完整指南(Ajax接口与signature签名破解)爬取今日头条关键词搜索结果o 技术点:Ajax接口、signature签名破解(进阶)
  • 别花冤枉钱买模板了!这几款工具做 PPT 还送全套答辩资料包,清单 + 稿子 + 问答 + 通关策略一站式配齐
  • 为什么很多硬件工程师工作10年,能力却只增长了2年?
  • PyTorch轴承故障识别实战包:含CWRU一维振动数据、LSTM/1D-CNN模型权重与训练可视化图表
  • 3分钟掌握Topit:macOS窗口置顶的终极解决方案
  • 基于I2C与Arduino的模块化街机按钮控制器设计与实现