返回搜索GitHub

开发者工具

trafilatura

Python 网页内容抓取和提取工具

质量分71
0 Stars
unknown
easy

中文速读

高效 Python 库和命令行工具,用于网页抓取、内容提取和元数据采集。支持爬虫、全文提取、去重等功能,适合构建数据集和知识采集。

快速试用

暂未发现稳定的 Demo 或视频入口。

适合

  • 构建数据集的研究者
  • 内容采集团队
  • NLP 数据准备

不适合

  • 需要 JavaScript 渲染的页面
  • 需要复杂交互的爬虫场景

标签

爬虫内容提取Python数据采集