Práce na Distribuované systémy, resp. na téma:

El. obchod/podnikání - prostředky (tj. kategorie prostředků a příklady produktů a jejich využívání u konkrétních Web-sitů) serveru pro sběr a analýzu dat o aktivitách zákazníka na serveru a pro personalizaci na serveru (personalizace prezentace, produktů, služeb). Důvody využívání těchto prostředků. Otázky soukromí. Co se dozví server z prohlížeče a odjinud.

Nedělám si žádné ambice na její přesnost a úplnost, za reakce (xhlaj10@vse.cz) předem děkuji.
Můžete si ji také stáhnout zazipovanou (asi 210KB) ve Wordu.


Zde je HTML verze (generováno z MS Wordu):

Vypracoval: Jindřich Hlaváč

Rodné číslo:

E-mail: xhlaj10@vse.cz

Hlavní specializace: Informační technologie

Datum: 12. dubna 2000

 

Obsah
Úvod do problematiky.. 2
1.1 O čem je řeč2

1.2 Trocha teorie2

2. Sběr dat o zákaznících.. 4

2.1 Důvody sběru dat4

2.1.1 Marketing4

2.1.2 Provoz internetových obchodů5

2.2 Podporovaný sběr dat zákazníkem.. 5

2.3 Sběr dat nepodporovaný zákazníkem.. 5

2.4 Logovací soubor webserverů6

3. Analýza dat.. 6

3.1 Metody měření návštěvnosti webserverů6

3.2 Analýza log souboru8

Webalizer8

AccessWatch9

NetTracker9

WebTrends Pro Suite9

Funnel Web9

3.3 Externí statistické servery11

Příklady statistických serverů v ČR:11

4. Ochrana osobních údajů.. 12

Postup zpracování práce.. 13

Seznam informačních zdrojů:13

Přílohy.. 14

A – log soubor14

1) Příklad ze serveru typu Apache:14

2) Příklad ze serveru MS Internet Information Server 4.0:14

B – Článek v AJ15


Úvod do problematiky

1.1 O čem je řeč

Co je to Internet? Takovou otázku nedokázalo na podzim roku 1999 zodpovědět deset procent Čechů (podle jiných výzkumů ze stejné doby to bylo více než 25%). Pro třetinu dotázaných neměl žádný význam a jeho praktické využití si dokázala představit ani ne polovina.
Otázka již dávno nestojí „co to je“, a snad ani ne „k čemu je dobrý“, ale jak jej co nejlépe využít pro podnikání. Pro řadu lidí internet stále totiž znamená jen e-mail a WWW stránky. Opomineme-li, že existuje i řada dalších zajímavých služeb, které víceméně s internetem souvisí (FTP, telnet, news, BBS atd.), každý si řekne, že jde především o informační médium. Ano, internet je velice efektivní
·komunikační prostředek,

·při získávání informací,

·při publikování informací.

Je efektivní, protože je ve všech těchto bodech rychlý a levný. Nastala ale doba, abychom přidali, že jde také o

·prodejní a marketingový kanál.

Moderním technologiím spjatým s internetem se otevřel svět a vznikl dokonce nový termín – New Economy, který má vyjádřit, že internet načal celou novou oblast pro podnikání.

Internetové obchody byly u nás v provozu již v roce 1998 (Zoner InShop). Proč tedy nastává takový boom okolo internetu právě nyní? Jak souvisí tento fakt s rozvojem sítí, mobilních technologií, ale i přístupem lidí k internetu a jeho marketingovým využitím? Jak je možné, že se vyplatí internetová reklama? Jak její zadavatel pozná, že nevyhodí peníze do vzduchu? Existuje nějaká objektivní možnost posuzovat návštěvnost webových serverů?

To vše spolu souvisí a já se pokusím zodpovědět zejména na otázku poslední.

1.2 Trocha teorie

Média se plní slovy jako e-business, e-commerce, m-business. Je mezi nimi rozdíl a co vlastně znamenají?
E-commerce je synonymem pro elektronické (internetové) nakupování a obchodování. Nejvýznamnějším zástupcem v této kategorii jsou internetové (nebo se jim také říká virtuální) obchody. Proč výnosy z prodeje přes internet v ČR za poslední dva roky vzrostly o 644%? Myslím si, že je to způsobeno řadou faktorů.
Zaprvé – popularizace internetu. Z klasických médií na nás stále „civí“ internetová URL a na každé druhé vizitce vidíte adresu na stránku firemní webové prezentace. Osvěta se podstatně zlepšila (např. akce Březen – měsíc internetu či Škola internetu a Zavináč v České televizi), i když stále je co dohánět.

Zadruhé – klesající nároky na připojení. Přestože jsou vzhledem k zahraničí stále vysoké, stav se lepší. Počítač vlastní téměř každá firma a pro domácnosti se stává spotřebičem jako třeba televize. Modem bývá často v ceně sestavy a ani koupě nového není závratnou investicí. Za největší úspěch ale považuji zlevnění telekomunikačních poplatků (tarify Internet 99 a 2000) a vstup na trh podnikatelských subjektů, které nabízejí připojení zdarma (v současnosti Czech On Line (Volný), World Online (World Business Starter) a Contactel (Internet RazDva).

Zatřetí – uvědomění si internetu jako podstatného obchodního a marketingového kanálu (viz dále).

Internetové obchody tedy vydělávají. Zajímavé je, co Češi kupují. Nejvíce domácí spotřebiče (24,4% obratu), knihy (21,9%), hudbu (14,3%), elektroniku (12,8%), video (9,3%) a SW & HW. Překvapující je podíl „bílé techniky“, která se v amerických obchodech zdaleka tak neprodává. Kdo si chce nákup přes internet vyzkoušet, může navštívit některý z uvedených na serveru Set (www.set.cz).

Zřízení takového obchodu není již doménou jen velkých firem, ale může to udělat každý a zdarma. A to ve dvou největších obchodech – Zoner InShop (http://www.inshop.cz/) nebo Vltava 2000 (www.vltava2000.cz).

E-business je jakoby o krůček dále. Jde o elektronické (internetové) podnikání. V tomto smyslu lze rozlišit dvě podskupiny. B2C (business to customer), tedy obchod s koncovými zákazníky a B2B (business to business), tedy obchod mezi firmami. Kromě virtuálních obchodů se již zde nabízí zákazníkům elektronické bankovnictví, pojišťovnictví atd. Stále významnější je právě B2B, přičemž už dnes na světě převyšuje tato oblast desetinásobně oblast obchodování s koncovými zákazníky a v příštích 5 letech se očekává meziroční nárůst 41%(dle Yankee Group)! Do této oblasti se zahrnuje agregace kupní síly firem, aukce, poskytovatelé řešení a zejména elektronické trhy (electronic marketplaces). Jde o webové portály, které k sobě přivádí kupce a prodejce v určitém průmyslovém odvětví (tzv. vertikální specializace) nebo v určité geografické lokalitě (tzv. horizontální specializace). Tyto elektronické trhy se napojují na informační systémy zainteresovaných společností, proto je to atraktivní oblast pro výrobce ERP softwaru a EDI řešení.

M-business je elektronický obchod realizovaný pomocí mobilního telefonu. Mobilní telefony jsou stále „chytřejší“ a dostupnější. Kromě nové technologie WAP, která přinesla na displeje telefonů (stručné) webové stránky, lze např. ovládat své bankovní konto (Peagas). Někteří vizionáři tvrdí, že celý e-business přesune v budoucnosti své těžiště právě na mobilní telefony.

Trendy ohledně e-businessu: postupné rozšiřování různých obchodních aktivit na internet, přičemž má budoucnost zejména vícekanálový prodej a marketing (neuvažuje se tedy o totálním konci „kamenných obchodů“), stále větší význam obchodu mezi firmami, tj. odběrateli a dodavateli, nabízení celých řešení přes a pomocí internetu a výrazný růst významu mobilních technologií.

Použité zdroje k této kapitole : Computer 11/99, 22/99 a 6/2000, Chip 4/2000, PC World 2/2000, PC Magazine 2/1999, HN 7.4.2000



2. Sběr dat o zákaznících

2.1 Důvody sběru dat

Proč jsou vlastně osobní údaje a informace o zákaznících tak žádanou komoditou?

2.1.1 Marketing

Pro navržení úspěšné marketingové kampaně jsou informace o potenciálních zákaznících nezbytné. Je třeba kampaň správně zacílit, použít správné marketingové prostředky a kanály. Marketing na internetu má několik podob.
a)e-mail

Přímý a agresivní kanál, který může hraničit se spammingem (zasílání nevyžádaných e-mailů). Lze ale dobře zacílit skupinu potenciálních zákazníků, např. adresy z různých konferencí. Reklamní e-maily musí často překousnout i ti, kteří využívají některé ze služeb internetu, které jsou zadarmo (e-mail, webhosting…).

Kdo tyto reklamní e-maily dobrovolně přijímá, může na tom něco vydělat. Např. v ČR nyní existuje služba CashMail (www.cashmail.cz), která vám dá určitý malý peníz za každý přijatý, přečtený a „odkliknutý“ e-mail.

b)reklamní bannery

Reklamní bannery jsou často hlavním zdrojem příjmů provozovatelů webových serverů. Tyto reklamní plochy se prodávají a za kolik, to závisí na jejich umístění. Zadavatele reklamy zase zajímá, kolik lidí banner uvidí (a případně na něj klikne). Proto se monitoruje návštěvnost webových serverů. A právě o tom, jak se tento monitoring provádí, je tato práce.

c)začínají se objevovat tzv. rich media banners,

tedy reklamní proužky obsahující formuláře, programy v Javě či Shockwave. Ty umožňují například vyplnit rovnou v banneru objednávku.

d)Samotné webové prezentace jsou velkou reklamní plochou příslušných firem.

2.1.2 Provoz internetových obchodů

Internetový obchod musí informace o zákazníkovi uchovávat ze samotného principu fungování, aby mohl zakázku odbavit. Internetové obchody tak požadují zaregistrování zákazníka jen jednou a pak se lze přihlásit do systému již jen pomocí loginu (někde ani ten není nutný) a hesla. Pro obchody je důležité vědět, které stránky (zboží) zákazník prohlížel a které nakonec koupil. Je zajímavé, že české internetové obchody tyto informace zatím cíleně neshromažďují a nevyužívají, přestože „historie zákazníka“ jistě své obchodní využití má. Používají se samozřejmě obecné informace o pohybu zákazníků po serveru ze standardních logů.
Internet obsahuje zejména firemní stránky a každá firma by měla vědět, kdo, kdy a kde se po jejich stránkách pohybuje, neboť to může využít pro zlepšení své webové prezentace. Zjistí, odkud nejčastěji na jejich stránky lidé přicházejí a kde je tedy dobré koupit reklamní prostor. Lze zjistit, které stránky jsou nejnavštěvovanější a kde naopak lidé prezentaci opouštějí. Co vše lze konkrétně zjistit a hlavně jak, o tom je 3. kapitola.

2.2 Podporovaný sběr dat zákazníkem

Přání zákazníků mají být motorem podnikání. Proto se chtějí firmy dovědět o svém zákazníkovi co nejvíce. Na internetu běží řada soutěží a reklamních akcí, jejichž smyslem je získat co nejvíce obchodně využitelných údajů. Lidé tedy vyplňují formuláře a odpovídají pomocí e-mailu. Tento způsob je dobrý, pokud víme, na co se zeptat a hlavně je levný. Návratnost se různí dle množství a náročnosti otázek, jejich umístění a ohodnocení (ceny za zaslání).
Zákazník může podpořit sběr dat i „nepřímo“. Například tím, že umožní na svůj počítač ukládat cookies, má povolený JavaScript, Javu nebo do prohlížeče nahrané různé plug-iny.
Velice oblíbený způsob je „nechat si data sbírat“. Myslím tím použití externích monitorovacích serverů (např. Navrcholu), kterým se říká statistické servery. Těmi sebudu zabývat ve 3. kapitole o analýze dat.

2.3 Sběr dat nepodporovaný zákazníkem

Tím myslím sběr dat, o kterém uživatel internetu ani neví. A může to být i takový sběr, který si nepřeje. Když se uživatel připojí k internetu, je najednou jakoby nahý. Jeho prohlížeč je nejen branou do internetu, ale i branou do jeho počítače. Nebudeme ale tady uvažovat případy, kdy pomocí nedostatků v prohlížečích (zejména MS Internet Explorer 3.x a 4.x) bylo možné číst z disku nebo na něj zapisovat. Předpokládejme tedy, že tyto rutiny se již nepoužívají a že technické zabezpečení prohlížečů, úroveň netikety a dalších prostředků (třeba Javy) je dostatečné.
Webserver může získat z prohlížeče řadu zajímavých informací. Je to typ a verze použitého prohlížeče (např. Netscape Navigator 4.06), použitý operační systém, kódování češtiny (např. Win-1250), rozlišení obrazovky (např. 800x600), IP adresu providera. Dále je možné zjistit, zda má uživatel zapnutá cookies, JavaScript, Javu a nějaké plug-iny.
To vše je sice zajímavé, ale má to vliv nejvýše na maximální přizpůsobení webové prezentace uživateli (vzhledem k prohlížeči, rozlišení, češtině apod.) Zajímavější je, když uživatel povolí cookies a JavaScript. Můžeme pak kontrolovat formuláře a ukládat informace z nich k sobě do databáze, ale i k němu na disk jako cookies. Ty se užívají k personalizaci uživatele, tedy k tomu, aby webserver věděl, navštíví-li ho uživatel vícekrát, že už tam byl, kdy to bylo a co tam dělal (např. hlasovat se může jen jednou denně apod.). Přizpůsobujeme tak svoji prezentaci konkrétnímu uživateli.

2.4 Logovací soubor webserverů

Prohlížeč všechny výše uvedené údaje předá webserveru, který je uloží (v nějakém daném formátu) na disk do logovacího souboru, tzv. log souboru.
Webserverů je celá řada: Apache, Microsoft Internet Information Server, Netscape, NCSA, WebSite a další. Nejvyšší podíl instalací mají Apache a MS IIS. Každý server loguje do některého z těchto formátů: Microsoft IIS Log Format, a fixed ASCII format, NCSA Common Log File Format (CLOG), W3C Extended Log File Format, A customizable ASCII format, selected by default, ODBC Logging, a fixed format logged to a database. Tento log soubor je pak základním kamenem pro analýzu návštěvnosti a pohyby uživatele po jednotlivých serverech.

Použité zdroje k této kapitole : PC World 2/2000, PC Magazine 10/98, Computer 6/2000, MF DNES 28.1.2000

 

3. Analýza dat

Abychom získali nějaké upotřebitelné informace, musíme sbíraná data analyzovat. Zaměřím se na prostředky pro analýzu log souborů a vrátím se ke statistickým serverům.

3.1 Metody měření návštěvnosti webserverů

Při zkoumání této oblasti narazíme na řadu specializovaných termínů, které s tématem souvisí. Příchod uživatele na WWW server a jeho pohyb po něm se obecně označuje jako visit (návštěva). Návštěvnost serveru nemůžeme ale měřit jen počtem návštěv za den, protože jeden uživatel se může během dne na server vrátit a to by zkreslilo výsledky. Užívá se proto ještě další veličina – unique hosts (unikátní návštěvník neboli počet unikátních IP adres za určitý časový úsek, obvykle za den). Ani tato veličina nestačí a proto se v praxi kombinuje několik metod. Obvykle se užívá page views (počet plně zobrazených stránek), visits (počet návštěv) a unique hosts (počet unikátních IP adres).



K měření těchto veličin existují tři metody:

a)speciální statistický software přímo na WWW serveru,

b)zpětná analýza log souboru,

c)měření pomocí externích statistických serverů.

Zde je přehledný obrázek rozdělení těchto metod. V následující části práce bude tento nákres (slovně) upřesněn a vysvětlen.

Metody měření

Zdroj: Chip 10/99 (str. 126)

3.2 Analýza log souboru

Co je log soubor a jak vzniká jsme si již řekli. Každý den zapisuje průměrně navštěvovaný webserver data z prohlížečů v desítkách megabajtů. Na první pohled do tohoto souboru (viz příloha A) vypadá struktura jednoduše, ale jde o složitý textový soubor k jehož analýze je třeba speciální software. Některé oslovené české firmy jej analyzují vlastně vyvinutým softwarem, ostatní používají nějaký komerční produkt.
Ad a)

Speciální statistický software přímo na WWW serveru vychází z log souboru. Je výhodný pro provozovatele WWW serveru, protože může průběžně sledovat návštěvnost serveru a vyhodnocovat počet zhlédnutých stránek. Nevýhodou jsou počáteční náklady spojené s nákupem SW a také to, že naměřené hodnoty nelze zcela srovnávat s ostatními WWW servery a to především díky nejednotné metodice – všichni provozovatelé zřejmě nepoužívají stejný SW.

Ad b)

Zpětnou analýza log souboru na rozdíl od případu a), kde si analýzu dělá každý sám, provádí v tomto případě externí auditor. Probíhá to asi tak, že jednou za měsíc se log soubor stáhne ze serveru a dopraví externí firmě (ať už po internetu nebo vypálený na CD-ROM). Ta provádí analýzu log souboru pro více firem, ale vždy podle stejné metodiky, takže výsledky jsou vzájemně porovnatelné, což je velice důležité pro zadavatele reklamy, kteří obvykle požadují audit provedený nezávislou třetí stranou. Jednotná metodika zaručuje poměrně přesné údaje, které mohou, ale nemusí být veřejně přístupné. Nevýhodou je poměrná nákladnost této služby (cca 5000 Kč za měsíc) a pouze zpětné vyhodnocování návštěvnosti.

A proč vždy říkám „poměrně přesné“ výsledky? Jde o to, jak je log soubor tvořen. Přístupy na stránky můžou vést přes různé brány, firewally a proxy servery. Všechny tyto objekty (zejména tzv. transparentní proxy-servery) zkreslují výsledky už při samotném zápisu do log souboru.

V České republice tyto analýzy provádí firma DCCI Audit (www.dcci.cz) pro více než 90 serverů českého internetu.

Ze zahraničních jmenujme aspoň: BPA International (www.bpai.com/interactive/index.html), Media Metrix (http://www.mediametrix.com/), Nielsen/NetRatings(http://www.nielsen-netratings.com/), PCData (http://www.pcdataonline.com/).

Jaké programy pro analýzu log souboru můžeme použít, rozhodneme-li se udělat si ji sami?

Webalizer

je soukromá aktivita, distribuováno pod GNU, tedy otevřená licence. Autor tvrdí, že na 200Mhz Pentiu zvládl přes 10 000 záznamů za sekundu a 40 MB soubor s více než 150 000 záznamy zvládl za 15 sekund. Vychází mi 2,67MB/s. Více informací v tabulce.

AccessWatch

Toto je komerční aplikace. O něm na stránkách jeden zákazník tvrdí, želog file s více než 2 miliony řádek zvládl za 30 minut (včetně hledání DNS jmen, protože v souboru byly jen IP adresy!). Celková velikost souboru byla 600 MB a běželo to na 300MHz Sparc Enterprise 3000. Prý zkoušel program WebTrends a ten mu spadnul. Více informací v tabulce.

NetTracker

je komerční produkt. Umí automaticky agregovat data z clusterovaných serverů, analyzuje výsledek marketingové kampaně (úspěšnost bannerů), automaticky stahuje vzdálené log soubory přes FTP, podporuje MS SQL Server atd. Produkt je diferencovaný – existuje NetTracker Professional, Enterprise a eBusiness Edition. Opravdu zajímavá je jejich on-line demoverze. Další informace v tabulce.

WebTrends Pro Suite

Analýzu log souboru, o kterou nám jde, provádí WebTrends Log Analyzer, který je součástí Pro Suite, ale prodává se i samostatně. Program si umí také stáhnout log soubor přes FTP, automaticky odhadne formát logu, lze si samozřejmě vybrat, co bude obsahem výstupu. Suite obsahuje také FastTrends Database, která umí výsledky uložit ve vhodné podobě pro sledování uživatelů v reálném čase. Proxy Analysis analyzuje soubory logu proxy serverů. Podporuje MS Proxy, Novell Border Manager, Netscape Proxy a Squid. Dále umí monitorovat síťové služby, dostupnost WWW stránek a velikost volného místa na disku. Analyzuje i linky na webserveru, takže by se nemělo stát, že tam máte „slepý“ odkaz. Další informace v tabulce.
Novou službou je WebTrendsLive (www.webtrendslive.com). Na svých WWW tvrdí, že není třeba žádného SW ani HW, výsledky jsou dosažitelné kdykoliv přes prohlížeč a že data chrání pomocí SSL a přístupových hesel. Jde o komplexní analýzu návštěvnosti v reálném čase a analýzu příjmů z e-commerce. Nabízí tři verze.
eCommerce Edition – analýzu příjmů z e-commerce dělá tak, že rozlišuje lidi, kteří si stránky jen prohlížejí a ty, kteří nakupují a sleduje opakované nákupy.

Enterprise Edition – analýza návštěvnosti webserveru, od jednoho po multiserverové clustery.

Personal Edition – základní analýza provozu pro malé webservery, zdarma výměnou za reklamu na WebTrends na stránkách.

Funnel Web

Tento komerční produkt je provozován na lokální stanici, ale ve své unixovské verzi může sídlit přímo na počítači s webovským serverem a je tu možnost dálkového ovládání. Strukturu logu si autodetekuje a log si je také schopen stáhnout třeba přes FTP. Zpracování 50 MB logu trvalo na Pentiu 166 s 32MB RAM méně než 20 minut. Zdá se to hodně, ale program stahoval log po síti, což v našich podmínkách není vůbec jednoduché. Analýza logu je velmi variabilní, takže je možné si vybrat, co vás zajímá. Dostupné informace jsou rozděleny na dvě skupiny – analýzu serveru a klientů. Z analýzy serveru lze zjistit údaje o vytíženosti serveru v průběhu času, o nejčastěji navštěvovaných složkách, o chybných přístupech. Zajímavým údajem je rozložení přístupu k různým typům souborů (např. zjistíte, že polovina přístupů připadá na GIF obrázky – takže je třeba omezíte, aby nezdržovaly). Z analýzy klienta lze zjistit odkud se připojují návštěvníci, historii jednotlivých klientů (kdy četli stránky)i historii jednotlivých stránek (kdy byly čteny). Zajímavý údaj je závislost délky připojení a počtu navštívených stránek (čtenář se zdržel), případně analýza průchodu stránkami. Analýza rozložení OS a prohlížečů je samozřejmostí.
Profesionální verze dokáže analýzu v reálném čase (viz 3.1a), dálkovou administraci a analýzu virtuálních domén.
Nyní jsou k dispozici tři výkonově odlišné verze: Funnel Web, Funnel Web Pro a Funnel Web Unix.

Zde je tabulka z doplňkovými informacemi. Nevyplněná pole jsou údaje, které se nepodařilo zjistit. Rychlost analýzy logu záleží velmi na okolnostech, viz popisy jednotlivých produktů.

Název programu
Současná verze
WWW
Výstupní formát
Udávaná rychlost
Podporované formáty logů
Podpora češtiny?
Vytvořeno v 
Cena
Používá jej
Webalizer
2.00
HTML
2,67MB/s
CLOG
ANO
C
zdarma
censored
Combined Logfile
wu-ftpd xferlog
AccessWatch
2.02
0,33MB/s
perl
shareware
censored
provider $400
sigle $40
academic $30
NetTracker
4.5
http://www.sane.com/products/NetTracker
profi $495
pollution.org
WebTrends Pro Suite
3.0
HTML
Apache
20 650 Kč
Excel
MS IIS
Word
Netscape
text
Lotus Domino
CLOG
Funnel Web Proffesional
4.0
HTML
0,04MB/s
standard $249
RTF
$499
text
Na závěr této části bych dal odkaz na zajímavou službu. Jedná se o on-line zprávu o celosvětovém zatížení internetu. Najdete ji na www.internettraficreport.com.



3.3 Externí statistické servery

Tyto servery pracují na principu, že provozovatel webserveru umístí do HTML kódu sledované stránky volání objektu ze statistického souboru. Obvykle to bývá obrázek – buď jako ikona (reklamní) statistického serveru, nebo jako malinký průhledný obrázek 1x1 bod, který není vidět. Při každém zobrazení WWW stránky je zároveň volán objekt ze statistického serveru. Požadavek na zaslání tohoto objektu se zapíše do databáze statistického serveru společně s údajem o tom, ze které stránky byl objekt vyžádán a uloží se i další informace (datum, čas, doména, prohlížeč…). Tyto informace lze ze serveru požadovat prakticky ihned, protože jde o průběžné měření a vyhodnocování výsledků. Metodika měření je pro všechny zúčastněné shodná, takže mají tyto servery slušnou vypovídací schopnost i při porovnávání. Navíc bývá často tato služba zdarma. Nevýhodou je, že výsledky nemusí (ale můžou!) být tak přesné jako u externího auditu, který je často pro zadavatele reklamy a pronájemce reklamních ploch věrohodnější.

 

Příklady statistických serverů v ČR:

Navrcholu (web.navrcholu.cz)
vzniklo pod hlavičkou společnosti 4Web (http://www.4web.cz/). Je to první služba tohoto druhu u nása stále se drží na špici. Údaje sbírá klasickým způsobem pomocí obrázku. Výstupy jsou přehledné. Pro danou firmu lze zjistit počet session za období (den, měsíc, rok) – něco jako unique hosts, počet přístupů (visits) za období, zjistí nejúspěšnější den, měsíc a rok. Nabídne rozdělení přístupů dle dní a denní doby. Seznam návštěvníků lze řadit podle hostname (IP adresa ve jmenné podobě), podle času přístupů, abecedně podle země původu a podle počtu přístupů.

Zobrazení dalších informací záleží na tom, zda to zadavatel dovolil. Pak je možno zobrazit graf návštěvnosti podle hodin za den, graf návštěvnosti za posledních 100 dní, použité prohlížeče, operační systémy atd.

TopList (www.toplist.cz)

je službou mladší. Je také zdarma a má podobné portfolio služeb, ale jeho statistiky jsou poněkud nepřehledné.

Counter (www.counter.cz)

je nejmladší z předchozích. Je také zdarma, nabídku služeb má stejnou, grafické provedení strohé, ale přehledné.

Monitor (www.monitor.cz)

je službou placenou. Graficky jsou stránky pěkné, ale poněkud zastaralé, např. ceník je z října roku 1998. Není tedy poznat, zda server ještě funguje a jaké jiné služby vlastně nabízí. Nebo funguje tak dobře, že není cokoliv třeba měnit. Ani ceny.

Ze zahraničních jmenujme aspoň: Media Metrix (http://www.mediametrix.com/), PCData (http://www.pcdataonline.com/) a HitBox (http://www.hitbox.com/).

Použité zdroje k této kapitole : Chip 4/99, 5/99 a 10/99.

4. Ochrana osobních údajů

Krátce se zmíním k otázce soukromí a ochraně osobních údajů. Co vše lze o návštěvníkovi zjistit již bylo řečeno. Otázkou je, jak s těmito údaji firmy nakládají. Nyní již obvykle na svých stránkách prohlašují, že svěřené údaje považují za důvěrné.
Od roku 1992 u nás platí zákon o ochraně osobních údajů v informačních systémech, který měl mimojiné zabezpečit, aby různí zpracovatelé našich osobních údajů neměli možnost s podobnými informacemi obchodovat. Příliš nepomohl, zejména proto, že nejsou stanoveny žádné sankce za porušení tohoto zákona.

Připravuje se zákon nový o ochraně osobních údajů. Ten by měl uzákonit tyto zásady:

·shromažďovat osobní údaje lze jen se souhlasem těch, koho se týkají

·zpracovávané údaje by měly být pravdivé, přesné a úplné

·povinnost informovat občana, že o něm správce sítí shromažďuje a zpracovává údaje

·shromažďovat lze jen takové údaje, které jsou nezbytné k naplnění předem stanoveného účelu

·neuchovávat osobní údaje déle, než je nezbytně nutné pro stanovený účel

·chránit osobní údaje před neoprávněným přístupem, poškozením, zneužitím apod.

·výjimky z těchto zásad stanoví jen zákon

Pokud občan zjistí, že ten, kdo osobní údaje zpracovává, porušil povinnosti stanovené zákonem, bude mít právo požadovat, aby nepravosti odstranil. Smí také požadovat opravu osobních údajů, pokud zjistí, že nejsou správné nebo aktuální. Může se také domáhat zaplacení peněžité náhrady, pokud neoprávněným zpracováním jeho osobních dat bylo porušeno jeho právo na lidskou důstojnost, osobní čest či dobrou pověst.

Otázkou je, zda budou tato práva skutečně prosazována. Shromažďování osobních údajů za účelem jejich obchodního využití zřejmě jen tak nezmizí. Ani nemusí, pokud jejich shromažďováním neutrpí práva někoho jiného. Nesmí se ale stávat, že budou k dispozici takové údaje jako jsou čísla kreditních karet, výpisy z bankovních kont či zdravotní údaje.

Vrátím-li se ke sběru dat o uživateli webovými servery, jenutno zopakovat, že v současné době není technicky možné (u komutovaného připojení) zjistit konkrétního uživatele. Pokud tedy on sám nechce. Například kombinace registrace u obchodního domu a uložení cookie u zákazníka na harddisku člověka přesně identifikuje, i když se do systému nepřihlásí pomocí hesla. Pokud ale zmíněný dům údaje neposkytne dále, zákazník přesně ví, komu své údaje dal a co od toho může čekat. V tomto smyslu bude hrát velkou úlohu elektronický podpis, certifikační autority a jistě se potom významně rozšíří systémy zabezpečené komunikace po internetu.

Použité zdroje k této kapitole : HN 17.3.2000.

Postup zpracování práce

Nejdříve bylo třeba si udělat obrázek, o čem dané téma pojednává. K tomu dopomohly odborné časopisy a konzultace se zástupci některých českých firem, které jsem kontaktoval e-mailem i telefonicky. Z oslovených desíti firem odpověděly tři. Byly to společnosti 4Web, Seznam a Vltava. Po vytvoření osnovy práce jsem ji začal plnit informacemi. Za podstatné informační zdroje (viz Seznam informačních zdrojů) považuji časopisy Chip, internet a konzultace s lidmi.
Tímto chci všem jmenovaným firmám poděkovat za radu, zvláště p. Krausovi, p. Petrlovi a Petru Matulíkovi.

Seznam informačních zdrojů:

Jsou uvedeny zejména přímo v práci, zde je jen stručný souhrn.
1)Časopisy Chip, Computer, PC Magazine a PC World.
2)Internet: adresy přímo v práci.

3)Denní tisk, přednášky IT_563 a konzultace.

4)Klander Lars: Hacker Proof, Unis Brno, 1998.



Přílohy

A – log soubor

1) Příklad ze serveru typu Apache:

http://www.gras.cz/majak/aprohlizec.asp" "Mozilla/4.0 (compatible; MSIE
4.01; Windows 95)" as1-51.uhrad.iol.cz - - [06/Apr/2000:06:48:33 +0200]
"GET /img/ikonka.gif HTTP/1.1" 304 -

"http://www.volny.cz/zemanj2/mujweb/logo.htm" "Mozilla/4.0 (compatible;

MSIE 5.0; Windows 98; DigExt)" mail.nemtru.cz - - [06/Apr/2000:06:48:41

+0200] "GET /img/ikonka.gif HTTP/1.1" 304 -

"http://www.tady.cz/doginzert/" "Mozilla/4.0 (compatible; MSIE 5.0;

Windows 98; DigExt)" ppp28.na.worldonline.cz - - [06/Apr/2000:06:49:33

+0200] "GET /img/ikonka.gif HTTP/1.0" 304 -

"http://www.pingpong.cz/tribune/tribune.htm" "Mozilla/2.0 (compatible;

MSIE 3.01; Windows 95)" ostravaa-143.vol.cz - - [06/Apr/2000:06:50:03

+0200] "GET /img/ikonka.gif HTTP/1.1" 200 3136

"http://privat.none.cz/katka/katka.htm" "Mozilla/4.0 (compatible; MSIE

5.0; Windows 95; DigExt; Seznam)" as1-51.uhrad.iol.cz - -

[06/Apr/2000:06:50:47 +0200] "GET /img/ikonka.gif HTTP/1.1" 304 –

2) Příklad ze serveru MS Internet Information Server 4.0:

http://www.vltava.cz/objednat/default.asp 09:36:00 127.0.0.1 GET
/knihy/images/objednavky.gif 200
Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+98;+DigExt)

http://www.vltava.cz/knihy/default.asp 09:36:01 127.0.0.1 GET

/knihy/kniha/detail.asp 200

Mozilla/4.0+(compatible;+MSIE+5.01;+Windows+98)

http://www.vltava.cz/knihy/kategorie/vypis.asp?id=82 09:36:01 127.0.0.1

GET /citibank/Default.asp 200 Mozilla/4.7+[en]+(WinNT;+I) - 09:36:03

127.0.0.1 GET /images/jcb.gif 200

Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+NT;+DigExt)

http://www.vltava.cz/objednat/default.asp 09:36:03 127.0.0.1 GET

/knihy/kategorie/left.gif 404

Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+NT;+DigExt)

http://www.vltava.cz/knihy/kategorie/vypis.asp?ID=61&odd=135 09:36:03

127.0.0.1 GET /knihy/kategorie/right.gif 404

Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+NT;+DigExt)

http://www.vltava.cz/knihy/kategorie/vypis.asp?ID=61&odd=135 09:36:04

127.0.0.1 GET /images/ccs.gif 200

Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+NT;+DigExt)

http://www.vltava.cz/objednat/default.asp 09:36:04 127.0.0.1 GET

/images/set.gif 200 Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+NT;+DigExt)

http://www.vltava.cz/objednat/default.asp 09:36:05 127.0.0.1 GET

/Objednavky/detail.asp 200 Mozilla/4.05+[en]+(Win95;+I+;Nav)

http://www.vltava.cz/Objednavky/default.asp 09:36:05 127.0.0.1 GET

/knihy/images/registrace.gif 200

Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+98;+DigExt)

http://www.vltava.cz/knihy/default.asp 09:36:05 127.0.0.1 GET /Default.asp

302 Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+95) - 09:36:05 127.0.0.1

GET /knihy/default.asp 200 Mozilla/4.0+(compatible;+MSIE+5.0;+Windows+95)

- 09:36:07 127.0.0.1 GET /system/testzivosti.asp 200

Servers+Alive+build+475 -

B – Článek v AJ

Článek je vlastně help soubor pro nastavení tvorby log souboru pro webserver Apache. Říká nejen to, co vše lze sledovat, ale i to, jaké formáty podporuje.
Logging Properties - General Properties Property Sheet

This dialog box allows you to specify how log files will be created and saved.

New Log Time Period

Choose the criterion that the software uses when starting a new file.

Note

For the Daily, Weekly, or Monthly criteria for new log files, "midnight" is defined in the time zone used by the chosen log format. This means that for NCSA Common Log File Format (or for IIS only, ODBC Logging), "midnight" is on local time; for Microsoft IIS Log Format and W3C Extended Log File Format, "midnight" is on Greenwich Mean Time.

DailyLog files created daily, starting with the first entry that occurs after midnight.

WeeklyLog files created weekly, starting with the first entry that occurs as Sunday begins (after midnight).

MonthlyLog files created monthly, starting with the first entry that occurs as the month begins (after midnight).

Unlimited file sizeData is always appended to the same log file. You can only access this log file after stopping the server (that is, selecting the server and clicking the Stop button).

When file size reaches A new log file is created when the current log file reaches a given size; specify the size you want.

Log file directory

Type the directory in which log files should be saved, or click Browse and locate the directory.

A filename is displayed beneath the Log file directory box; this name is determined by the log file format and the criterion used for starting new log files.

Extended Logging Properties - Extended Properties Property Sheet

This dialog box allows you to customize W3C Extended logging, by choosing the fields (items) to be recorded in the log. You can gather detail using fields important to you, while limiting log size by omitting unneeded fields. The fields are as follows:

DateThe date on which the activity occurred.

TimeThe time the activity occurred.

Client IP AddressThe IP address of the client that accessed your server.

User NameThe name of the user who accessed your server.

Service NameThe Internet service that was running on the client computer.

Server NameThe name of the server on which the log entry was generated.

Server IPThe IP address of the server on which the log entry was generated.

Server PortThe port number the client is connected to.

MethodThe action the client was trying to perform (for example, a GET command).

URI StemThe resource accessed: for example, an HTML page, a CGI program, or a script.

URI QueryThe query, if any, the client was trying to perform; that is, one or more search strings for which the client was seeking a match.

Http StatusThe status of the action, in HTTP terms.

Win32 StatusThe status of the action, in terms used by Windows NT.

Bytes SentThe number of bytes sent by the server.

Bytes ReceivedThe number of bytes received by the server.

Time TakenThe length of time the action took.

Protocol VersionThe protocol (HTTP, FTP) version used by the client. For HTTP this will be either HTTP 1.0 or HTTP 1.1.

User AgentThe browser used on the client.

CookieThe content of the cookie sent or received, if any.

ReferrerThe site on which the user clicked on a link that brought the user to this site.

Web Site Properties - Web Site Property Sheet

On this property sheet, you set the identification parameters for your Web site. For a site IP address to be available on this tab, the TCP/IP setting for the site must first be configured by using the Protocols property sheet in the Windows NT Control Panel Network application. The host header name, and the IP address are optional.

Web Site Identification

Description

You can type any name you want for the server name. This name appears in the tree view of Internet Service Manager. Click the Advanced button to configure host header names.

IP Address

For an address to appear in this box, it must have already been defined for use on this computer in Control Panel. See your Windows NT documentation for more information. If you do not assign a specific IP address, this site responds to all IP addresses assigned to this computer and not assigned to other sites, which makes this the default Web site.

TCP Port

Determines the port on which the service is running. The default is port 80. You can change the port to any unique TCP port number; however, clients must know in advance to request that port number, or their requests fail to connect to your server. A port number is required and cannot be left blank.

Connections

Unlimited

Select this option to allow an unlimited number of connections to occur simultaneously.

Limited to

Select this option to limit the maximum number of simultaneous connections to the site. In the dialog box, type the maximum number of connections permitted.

Connection Timeout

Sets the length of time in seconds before the server disconnects an inactive user. This ensures that all connections are closed if the HTTP protocol fails to close a connection.

Enable Logging

Select this option to enable your Web site’s logging features, which can record details about user activity and create logs in your choice of format. The logs can tell you which users accessed your Web sites and what information they accessed. After enabling logging, select a format in the Active log format list. The formats are as follows:

Microsoft IIS Log Format

A fixed ASCII format.

NCSA Common Log File Format

The National Center for Supercomputing Applications (NCSA) common format; a fixed ASCII format.

W3C Extended Log File Format

A customizable ASCII format, selected by default.

ODBC Logging (Only Available with IIS)

A fixed format logged to a database.

The default format is W3C Extended Log File Format, with Time, Client IP Address, Method, URI Stem, and HTTP Status selected. For more information about W3C Extended Log File Format, in the property sheet, click Properties and then click Help.

To configure the criterion by which log files are created (for example, weekly, or by file size), or to configure properties for W3C Extended logging or ODBC logging, click Properties.