Webbplatser

Ny programvara upptäcker botsskrapningswebbplatsdata

Hur man rensar internet historik på en Mac

Hur man rensar internet historik på en Mac
Anonim

Webbplatser som jobbbrädor står inför ett kvarhållande problem: deras data styrs ständigt av automatiserade bots.

Uppgifterna hamnar på andra konkurrerande jobbbrädor som har stulit innehållet. Det är ett problem som plågar alla webbplatser vars immateriella rättigheter måste publiceras gratis, eller till och med de som har abonnemangsmodeller.

Men ett Atlanta-baserat säkerhetsföretag som specialiserar sig på att upptäcka robotar har utvecklat programvara som kan upptäcka de skärmskrapningar

[Vidare läsning: Så här tar du bort skadlig kod från din Windows-dator]

Pramanas huvudprodukt, HumanPresent, upptäcker automatiserade robotar som till exempel anger spam i webbaserade formulär eller registrerar gratis e-postkonton som ska användas för skräppost.

Pramana har nu utvecklat en modul som heter "data mining and screen scraping prevention" för HumanPresent. Det fungerar på många av samma principer som sin huvudprodukt men har modifierats för data-mining scenarier, säger David Crowder, Pramanas CEO.

HumanPresent kan upptäcka bots genom att märka skillnader i hur en människa normalt skulle interagera med en webb sida och kontrasterar det med hur bots beter sig. Det ser på mer än 30 mätvärden, till exempel tangentbordsstreck, musklick och tidpunkten för dessa åtgärder.

HumanPresent tittar på enstaka transaktioner, men datautvinningsmodulen har modifierats för att se en tidsbestämd period när antingen en bot eller människan är på platsen sa Crowder.

Data-mining bots tenderar att helt kringgå en webbläsares användargränssnitt. En bot kan till exempel begära en webbsida med mycket och mycket data, men rullar aldrig eller klickar på en sida. Om en serie sidor öppnas och ses på det sättet kan det innebära att en databruks bot har kommit.

Pramana tilldelar besökaren ett unikt ID och efter att ha analyserat besökarens beteende kan man fatta beslut om att etiketten besökaren en bot eller inte. Det finns flera olika sätt att en webbplatsoperatör sedan kan välja att hantera situationen.

IP-adressen (Internet Protocol) på botens dator kan vara block permanent. En auktionswebbplats som testar Pramanas data mining-modul bestämde sig för att flytta misstänkta bots till en "sandbox" där det serveras helt falska data.

"De är faktiskt databrytning - det är bara dödat," Crowder sa.

Andra alternativ inkluderar att uppmana besökaren på webbplatsen med en utmaning eller uppgift, som vissa robotar inte klarar av att slutföra.

Data mining kostar företagen dyrt. Företag som säljer premiumdata kommer att upptäcka att deras konkurrenter kommer att köpa en prenumeration och sedan använda automatiserade bots för att stjäla data för sina egna webbplatser. I ett exempel kan en webbplats som har gigabyte data på begagnade bilpriser konstaterat att deras data hade skrapats och sålts på eBay.

"De konkurrerar faktiskt med sitt eget innehåll," sa Crowder. Webbplatser har dåliga mönster som gör dataskrapning det mycket enklare. Den brukade webbplatsen hade URL-adresser (Uniform Resource Locators) kan successivt ändras för att avslöja mer data, menade Crowder.

Data-mining modulen kommer att vikas in i HumanPresent-produkten för nu, men tidigt nästa år planerar Pramana att sälja det separat, sade Crowder. Pramana erbjuder HumanPresent antingen som en inbyggd apparat eller som en konfiguration av programvara-som-tjänst.

För SaaS-tjänsten (mjukvara som service) är Pramanas teknik integrerad i en webbapplikation och sessionsinformation skickas tillbaka till Pramana för analys. Crowder sa att Pramana har kunnat sänka sin latentid i sin senaste version. För kunder som behöver mer fart, är apparaten tillgänglig.