
mishushakov/llm-scraper
🔧 工具mishushakov
用LLM从任意网页提取结构化数据,无需正则表达式。
LLM Scraper 允许开发者定义要提取的数据模式,然后使用 LLM 将原始 HTML 解析为结构化 JSON。它简化了动态内容的抓取,这些内容通常需要复杂的 CSS 选择器或 XPath。主要特性:支持任何 LLM 提供商(OpenAI、Claude、Llama)、通过 JSON Schema 定义模式、支持多页面和分页、与浏览器自动化工具无缝集成。
💡核心亮点
- ├─任意网页转结构化数据
- ├─支持 OpenAI、LangChain、Llama
- └─集成 Playwright 和 Puppeteer
🎯适用人群
- ├─网络爬虫开发者
- ├─数据工程师
- └─AI 开发者