Semalt izstrādā URLitor - ļoti atdzist tīmekļa nokasīšanas un datu ieguves rīks

URLitor ir jauns, bet efektīvs tīmekļa nokasīšanas un datu ieguves rīks. Lai izmantotu URLitor, sniegtajā veidnē jums vienkārši jāpievieno visu vietrāžu URL saraksts, kuru saturu tiešsaistē vēlaties nokasīt. Tad jums jāprecizē HTML elements, kuru vēlaties iegūt no tīmekļa lapām, un noklikšķiniet uz pogas Iesniegt. Tas ir tik vienkārši. Izmantojot šo rīku, jums vairs nevajadzēs kopēt vai ielīmēt no pārlūka.

xPath ir valoda, kuru izmanto informācijas meklēšanai XML failos. Tas izmanto noteiktus izteicienus, lai atlasītu mezglu kopas vai mezglus XML failos. XPath saprotamie izteicieni ir diezgan līdzīgi tiem, kas tiek izmantoti ar parastajiem datora failiem vai dokumentiem.

Lai gan XPath tiek izmantots ar vairākām programmēšanas valodām, šis rīks ir izveidots lietotājiem, kuriem nav nekādu programmēšanas zināšanu. Tātad, lai to izmantotu, jums nav jābūt programmētājam. Izmantojot šo rīku, jūs varat iegūt datus no vairākām HTML un XML lapām.

Lietošanas vienkāršības labad vairākas bieži lietotās XPath izteiksmes ir iepriekš definētas nolaižamajā izvēlnē, lai lietotājiem atkarībā no mērķa viņiem būtu jāizvēlas tikai kāds no tiem. Tomēr ļoti pieredzējušiem XPath lietotājiem ir tiesības brīvi izmantot savus pielāgotos izteicienus, kad vien viņi to vēlas.

Šis rīks ir izveidots ar 100 vietrāžu URL ietilpību vienā nokasīšanas sesijā, un tas prasa ne vairāk kā 10 izpausmes vienlaikus. Citiem vārdiem sakot, tas var nokasīt datus no ne vairāk kā 100 URL vienlaikus.

Turpmāk ir aprakstīti daži svarīgi XPath pielāgoti izteicieni, kurus var modificēt vai pievienot:

1. // div [2] - šī izteiksme hierarhiski izvēlas otro div;

2. // link [@ rel = 'canonical'] / @ href - ar šo izteiksmi tiek atlasīta birkas atrašanās vieta (ref), kuru izmanto, lai rel atribūtu iestatītu vienādu ar kanonisko;

3. / html / head / meta [@ name = 'description'] / @ content - šo izteiksmi izmanto satura izvēlei;

4. // * [@ class = 'klases nosaukums'] - šo izteiksmi var izmantot, lai atlasītu visus elementus ar 'klases nosaukums' kā CSS klasi;

5. // h2 | // nosaukums - šo izteiksmi var izmantot, lai atlasītu gan pirmo H2, gan lapas virsrakstu;

6. // * [name () = 'h1' vai name () = 'title'] - šī izteiksme darbojas tieši tāpat kā iepriekš. Tomēr iepriekš sniegtais izteiciens ir labāks, jo tas ir īsāks;

7. // * [satur (@ klase, “īkšķis”)] - šī izteiksme atlasa katru elementu, kam ir CSS klase, un satur arī “īkšķi” ieguvei;

8. // vecākiem :: * [text () = 'Welcome'] - ar šo izteicienu tiek izvēlēts jebkura elementa vecāks, kura teksts ir 'Welcome';

Šis rīks ir beta versija un joprojām var darboties ar dažām kļūdām. Tomēr tas joprojām ir lielisks rīks lietotājiem ar mazām programmēšanas zināšanām vai bez tām, jo visi bieži izmantotie izteicieni ir iepriekš definēti izvēlnē, kā minēts iepriekš.