Web Analyzer
Autor
Jan Raszyk
Specifikace
Popis
Webcrawler získávající informace o množství a způsobu použití webových technologiích.
Vstup
Vstupem programu je množina URL k procházení a podmínky limitující procházení:
- maximální hloubka procházení odkazů,
- maximální šířka procházaní, tj. maximum odkazů navštívených z jedné stránky,
- wildcard match na URL.
Funkce
Program obstarává:
- paralelní běh stahování více stránek najednou a
- ukládání průběžných dat pro
- navázání práce při příštím spuštění
- nebo pro zotavení z případného výpadku spojení nebo hardware.
Program používá vlastní parser pro zpracování co nejširšího množství verzí (X)HTML, včetně nevalidního a non-well-formed HTML kódu.
Program z hlediska webových standardů sleduje:
- sémantickou hodnotu stránky, tj z hlediska použití typů značek
- formátovacích - b, i, center, font nebo vnořených tabulek a dalších
- strukturálních - dl, ol, thead, strong a dalších
Program zařadí stránku do jedné z kategorií:
- sémanticky špatná stránka - převažují formátovací značky
- sémanticky čistá stránka - neobsahující formátovací značky
- sémanticky bohatá stránka - obsahující větší množství strukturálních značek
- přístupnost
- je k navigaci použit JavaScript?
- je k navigaci použit Flash?
- použitelnost
- dobrá prolinkovanost, např. existence odkazu na hlavní stránku webu
- konzistentní navigace, např. jednoznačný URL pro každou stránku
Program z hlediska webových technologií sleduje:
- verzi použitého (X)HTML,
- použití CSS, JavaScriptu
- vkládané obrázky a jejich typu
- linkování syndikačního RSS kanálu
- typ jiného linkovaného mediálního obsahu
Program ze stránek exportuje znovupoužitelné CSS selektory.
Výstup
Programem vygenerovaná výstupní data obsahují
- přehledně graficky vyznačené výsledky výše zmíněných analýz
- sémantickou hodnotu stránek
- dodržení pravidel přístupnosti a použitelnosti
- poměr typů linkovaných dat
- přítomnost a verzi použitých technologií
- vyexportované znovupoužitelné CSS selektory
Platforma
Windows 2000/XP