
GramosoftAI/GcrawlAI
📦 オープンソースプロジェクトGramosoftAI
WebサイトをLLM向けに最適化されたMarkdownへ変換する、分散型オープンソース・クローラー。
GcrawlAIは、Web上の生データとAIモデルの橋渡しをする、Pythonベースの堅牢なデータ抽出パイプラインです。ブラウザ自動化ツールPlaywrightを採用しており、従来のスクレイパーでは困難だったJavaScriptを多用する動的なWebサイトにも対応可能です。Celeryによる分散タスク管理とRedisによるメッセージブローカーを活用したスケーラブルな設計により、高スループットなクローリングを実現します。
主な技術的特徴として、IPブロックやボット検知のリスクを最小限に抑える「ステルスモード」や、クローリング状況をライブで確認できるWebSocketインターフェースを搭載しています。抽出されたコンテンツは自動的にクリーニングされ、LLMが扱いやすいMarkdown形式に整形されるため、不要なノイズを排除できます。これにより、RAGパイプラインにおいてベクトルデータベースへ注入するデータの整合性と可読性が向上し、トークン効率も最適化されます。モジュール設計のため、FastAPIやStreamlitなどの既存ワークフローにも容易に統合可能です。
💡ハイライト
- ├─Celeryによる分散型クローリング
- ├─ボット検知を回避するステルスモード
- └─LLMに最適なクリーンなMarkdown出力
🎯対象
- ├─AIエンジニア
- ├─データサイエンティスト
- └─RAGパイプライン開発者