انتقل إلى المحتوى

الهيكلية — Scraper

طبقات

flowchart TD
  S[Scheduler]-->O[Orchestrator]-->R[Runner]-->F[Fetcher]-->E[Extractor]-->N[Normalizer]-->D[Deduper]-->X[Dispatcher]-->API

مصفوفة المزوّدين

نقل استخدام إيجابيات سلبيات
RSS تحديثات مستقرة رخيص حقول محدودة
HTML بدون RSS/API مرن حسّاس لتغيّر المحددات
JSON API واجهات رسمية بيانات غنيّة حدود/مصادقة
Browser مواقع ثقيلة JS دقة عالية مكلف

مفاتيح المعرفية

sha1(canonical_url|published_at|content_sha1)