Just nu i M3-nätverket
Gå till innehåll

Scripta "crawler"


Stud

Rekommendera Poster

Hej!

jag behöver tips,vägledning och evt direkt kod-support på en webcrawler jag vill skapa
(förslagsvis i C++ eller python )


Önskade Funktioner:

Den skall besöka en specifik url
Den skall automatiskt navigera på site:
/klicka
/välja antal rullgardiner efter begynnelsebokstav
/enter eller sök knapp



= resultatlistan på site:
 måste den gå igenom separat  och öppna varje enskild post i ny flik.
Läsa igenom och söka/sortera efter nyckelord i plain text som finns där.

> output bör vara ett slags enkelt kartotek där den har
hämtat de nyckelvärden,termer jag vill ha i alla dessa resultat. Den bör också så klart
separera dem tydligt.  


Sammanfattning:
Den går till sajt.
Söker utifrån kriterier
Går igenom resultatlistan
Sparar/exporterar eller presenterar sammanfattad råtext av det jag söker. 
Det är för att automatisera och snabba upp en slags bevakning helt enkelt. 

Länk till kommentar
Dela på andra webbplatser

Kolla på Selenium och se om inte den gör det du vill redan. Onödigt att koda ett eget program när du antagligen kan koda direkt mot selenium för att göra istort sett exakt samma sak.

Länk till kommentar
Dela på andra webbplatser

Hej.
Efter forskning på "Selenium" har jag plockat ut det specifika jag söker
:

http://docs.seleniumhq.org/docs/02_selenium_ide.jsp

The Selenium-IDE (Integrated Development Environment) is the tool you use to develop your Selenium test cases. It’s an easy-to-use Firefox plug-in and is generally the most efficient way to develop test cases.



Som jag förstått siten, efter plöjt igenom dokumentationen ska det räcka med den sk browser-automationen.
(Utöver alla andra delar, API , RC server, Selenium 2.0  applikation , Core,Grid mfl  som jag givetvis inte har tid att orientera mig i ) 

Se stycke:
http://docs.seleniumhq.org/docs/02_selenium_ide.jsp#building-test-cases


Browser-roboten är dvs  Selenium-IDE som körs som plugin i förslagsvis Firefox. 
Man kan sedan "spela in"  per default och interagera med den websiten man tänkt prova mot genom att navigera som en normal
enduser.  Då spelas alla aktiviteter in i kommandotolken och man får alltså en slags pedagogisk översikt av 
vilka aktiviteter som översätts till vilken kod i pluginen i realtid:
 

  • clicking a link - click or clickAndWait commands
  • entering values - type command
  • selecting options from a drop-down listbox - select command
  • clicking checkboxes or radio buttons - click comman

Jag utgår från att man lättare kan bygga sina cases efter det, när man vet ungefär hur "script" ska se ut
beroende på aktiviteter. 


Har du egen erfarenhet av nämnda plugin ? 

Länk till kommentar
Dela på andra webbplatser

På jobbet använder vi selenium för att till exempel skapa test besökare. Så man sätter upp ett typiskt scenario för en besökare som kommer in på siten och följer länkar och sånt och om något går fel, en sida inte laddas eller man hamnade på fel sida så larmar den.

 

Men jag har inte varit personlig involverad i att skapa scripten. Jag har sett någon dragning om när man satt upp script och det verkar ju onekligen kraftfullt.

Länk till kommentar
Dela på andra webbplatser

Jag hittade en annan enklare plugin till chrome där man skapar träd av sina scraperfunktioner.

Ganska fiffigt.
 Finslipar nu på att få den att klicka sig fram till nästa sidor
och sen fortsätta hämta länkar och text. 


 

Länk till kommentar
Dela på andra webbplatser

Arkiverat

Det här ämnet är nu arkiverat och är stängt för ytterligare svar.

×
×
  • Skapa nytt...