還有另一種相當常見的方法 - 限制在一定時間間隔內來自一個 Internet 位址 (IP) 的請求數量。這有助於防止錘擊攻擊,從而降低您網站的速度。
不幸的是,這種保護也不再有效,而且現在 佛得角電子郵件清單 很容易被繞過,因為大多數網路機器人使用大量的過渡電腦作為它們、線上商店和用戶之間的中介。此類導體稱為代理伺服器。
也讀一下!
“網站優化:新員工指南”
更多詳情
它們通常會被提供匿名服務的服務檢測到。他們掃描互聯網,尋找開放端口,並下伺服器以進行付費訂閱。因此,現代網路機器人既使用自己的代理伺服器資料庫,又不斷接收新的資料庫。所有這些都使他們能夠更改 IP 位址,從而在執行資料收集工作時保持不被發現。
讓我們談談使人們創建網路蜘蛛的工作變得更加困難的其他方法。這種方法通常被許多用戶造訪的線上商店(即所謂的巨型商店)所使用。
他們首先使用的是透過將元素與其他用 javascript 程式語言編寫的無用文檔混合來屏蔽元素,從而創建 HTML 頁面的動態結構。這種結構可以防止解析器將自身附加到多層元件結構,因為它幾乎總是需要依賴不存在的邏輯元素結構。
混合不同腳本的方法的問題在於,使用解析器幾乎不可能在 JavaScript 中建立非自願腳本,然後您仍然需要將其傳遞給 POST 請求,以顯示必要的資訊。
監控的主要問題是大多數機器人不知道如何在 Java 中運作。有些人可以做到這一點,但他們的速度太低,這對解析器來說非常不利。但幸運的是,對於一般使用者來說,瀏覽器可以毫無問題地處理這項工作。v