📢 早安!Gate 廣場|4/5 熱議:#假期持币指南
🌿 踏青還是盯盤?#假期持币指南 帶你過個“放鬆感”長假!
春光正好,你是選擇在山間深呼吸,還是在 K 線裡找時機?在這個清明假期,曬出你的持幣態度,做個精神飽滿的交易員!
🎁 分享生活/交易感悟,抽 5 位幸運兒瓜分 $1,000 仓位體驗券!
💬 茶餘飯後聊聊:
1️⃣ 假期心態: 你是“關掉通知、徹底失聯”派,還是“每 30 分鐘必刷行情”派?
2️⃣ 懶人秘籍: 假期不想盯盤?分享你的“掛機”策略(定投/網格/理財)。
3️⃣ 四月展望: 假期過後,你最看好哪個幣種“春暖花開”?
分享你的假期姿態 👉 https://www.gate.com/post
📅 4/4 15:00 - 4/6 18:00 (UTC+8)
Cloudflare 剛剛推出了一個 /crawl 端點,大家都炸開了鍋。
冷靜下來。讓我告訴你它到底是什麼、不是什麼,以及你可能根本不需要它。
/crawl 端點是一個包裝器。你提供一個 URL,它會在 Cloudflare 的基礎設施上啟動無頭瀏覽器,跟蹤鏈接,渲染 JavaScript,然後以 markdown 或 JSON 的格式返回結果。只需一次 API 呼叫。
這很酷,但並不具有革命性。
Firecrawl 做過這個。Crawl4AI 做過這個。Spider 也做過這個。他們已經做了幾個月了。Cloudflare 只是將它加入到他們現有的瀏覽器渲染產品中,而每個人都像是他們發明了爬蟲一樣。
真正有趣的是:它是 Cloudflare。這意味著它很便宜,($0.09/小時)。
但問題是你可能甚至不需要爬蟲。
AI 代理讀取網頁有 8 種方式。大多數人直接跳到最複雜的方式,當一個 50 毫秒的 HTTP 請求就能完成工作時。所以我們從最簡單到最過度的方式逐一分析。
1. 原始 HTTP 獲取
你的代理發送請求,得到 HTML。就這樣。
就像讀一本書的源碼而不是印刷的頁面。適用於簡單的網站、博客、維基、文件。對於使用 JavaScript 加載內容的網站則會失效。
速度:約50毫秒。成本:免費。
2. 可讀性解析器
同樣的,但加入清理步驟。移除導航欄、廣告、頁腳、Cookie 橫幅。只提供乾淨的 markdown 文章文本。
不處理 JavaScript 渲染的內容。但對於文章和文件來說,它非常完美,也是我每天使用的方法。
速度:約100毫秒。成本:免費。
3. 無頭瀏覽器 (本地)
啟動一個不可見的 Chrome,像人類一樣加載頁面。JavaScript 會運行,內容會渲染,所有元素都會加載。你可以點擊、滾動、填寫表單、登錄。
問題:速度較慢,約 1-10 秒,且每個實例消耗約 200MB RAM,你需要維護基礎設施。
工具:Playwright、Puppeteer、Selenium。
4. 雲瀏覽器 API
與 #3 相同,但由他人運行瀏覽器。你只需提供 URL,即可獲得渲染後的頁面。這是 Cloudflare 的 /crawl 服務所在位置,也包括 Browserbase 和 Steel。
沒有基礎設施的麻煩,擴展性好,價格便宜。權衡:對交互控制較少。
5. 管理型爬蟲 API
這是反機器人措施的最高層級。ScrapingBee、Bright Data、輪換代理、CAPTCHA 破解、住宅 IP。用於網站積極反對你的情況。
有效,但成本較高,約 $49-499+ 每月。
6. AI 原生爬蟲
Firecrawl、Crawl4AI、Spider。爬取 + 渲染 + 自動轉換成乾淨的 markdown/JSON。專為 RAG(檢索-增強生成)流程設計。可以用自然語言定義提取規則。
這是 Cloudflare 現在正在競爭的“新潮流”。
7. LLM 提取
完全跳過代碼。將頁面內容輸入到大型語言模型(LLM),用純英文問“價格是多少?”。不需要 CSS 選擇器,也不需要正則表達式,網站重新設計時也不需維護。
缺點:在大規模運行時成本較高,(令牌很快就會用完。最適合作為清理完方法 1-6 後的最後一步。
8. 官方 API
每個人都會忘記的選項。X、Reddit、大多數 SaaS 服務都提供 API。結構化數據,無需解析,也無需反機器人措施。當 API 存在時,這是最正確的選擇。
優秀的方案通常結合 2-3 種:
→ 獲取 → 可讀性 → LLM,用於廉價的文章提取
→ 雲瀏覽器 → LLM,用於 JavaScript 密集型網站
→ 在 DevTools 中嗅探實際 API → 直接調用,這是聖杯,免費、快速且最可靠
→ AI 爬蟲 → 向量數據庫,用於完整知識庫
每月 10,000 頁的實際成本:
• HTTP 獲取:)
• Jina Reader:(
• Cloudflare 瀏覽器:約 )
• Spider:約 4.80 美元
• Firecrawl:每月 47 美元
• ScrapingBee:每月 49-147 美元
• Bright Data:每月 499 美元以上
我遵循的兩條規則:
從簡單開始。API > 獲取 > 可讀性 > 瀏覽器。只有當更簡單的方法失敗時,才加入更複雜的方案。我看到有人為了 curl 就能正常工作的網站啟動 Playwright。
大多數網站不需要 JavaScript 渲染。超過 60% 的網頁是靜態或服務器渲染的。先用簡單的獲取測試。