HTTP

Wikipedia

TCP/IP-protokollia
(keskimmäiset kolme kerrosta)
sovellukset esim. selain (sisältö HTML, XML, MIME)
sovelluskerros HTTP, SMTP, POP, IMAP, FTP, IRC,
Telnet, SIP, RTSP, RTP, SNMP ...
kuljetuskerros TCP, UDP, SCTP, DCCP
(tukena: DNS, OSPF, BGP)
verkkokerros IP, ARP, DHCP, ICMP, IGMP
IPv6, IPsec, Mobile IPv6, SSM...
peruskerros esim. IEEE 802 -lähiverkot, PPP,
Frame Relay, MPLS, GPRS

HTTP (lyhenne sanoista Hypertext Transfer Protocol eli hypertekstin siirtoprotokolla) on protokolla jota selaimet ja WWW-palvelimet käyttävät tiedonsiirtoon. Protokolla perustuu siihen, että asiakasohjelma (selain, hakurobotti tms.) avaa TCP-yhteyden palvelimelle ja lähettää pyynnön. Palvelin vastaa lähettämällä sopivan vastauksen, tavallisimmin HTML-sivun tai binääridataa kuten kuvia, ohjelmia tai ääntä.

Sisällysluettelo

[muokkaa] Sivun hakeminen

Selain lähettää GET-pyynnön palvelimelle, johon palvelin vastaa.

Esimerkki pyynnöstä (tältä sivulta):

GET http://fi.wikipedia.org/wiki/HTTP HTTP/1.1
Host: fi.wikipedia.org
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; fi-FI; rv:1.6) Gecko/20040206 Firefox/0.8
Accept: application/x-shockwave-flash,text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,video/x-mng,image/png,image/jpeg,image/gif;q=0.2,*/*;q=0.1
Accept-Language: fi,en;q=0.7,en-us;q=0.3
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Proxy-Connection: keep-alive
Referer: http://fi.wikipedia.org/w/wiki.phtml?title=HTTP&action=edit
Cache-Control: max-age=0

Kentällä Referer selain kertoo sivulle, minkä sivun kautta kyseiselle sivulle on päädytty. Esimerkiksi palvelimelle kerrotaan, millä hakukoneen haulla sivulle on päädytty ellei sitä erikseen ole selaimen asetuksissa kielletty. Selain kertoo myös palvelimelle nimensä ja versionsa. Muut tiedot ovat lähinnä teknisiä ja kertovat minkä muotoisia tiedostoja selain osaa käsitellä ja millä kielellä käyttävä mieluiten haluaisi sivua lukea.

Vanha HTTP 1.0 -protokolla vaati vain itse pyynnön, mutta HTTP 1.1-protokollassa on määritettävä myös Host-otsake, joka kertoo palvelimen, johon selain uskoo ottavansa yhteyttä. Täten oikeasti saman IP-osoitteen takaa voikin löytyä useita www-sivuja, jotka palvelin lähettää aina kulloisenkin annetun host-otsakkeen perusteella. Tällaisia palvelimia kutsutaan WWW-näennäispalvelimiksi.

[muokkaa] Vastaus

HTTP/1.x 200 OK
Date: Tue, 06 Jul 2004 17:59:22 GMT
Expires: Thu, 01 Jan 1970 00:00:00 GMT
Cache-Control: private, must-revalidate
Via: 1.0 cthulhu
Server: Apache/1.3.29 (Unix) PHP/4.3.4
X-Powered-By: PHP/4.3.4
Set-Cookie: fiwikiSession=a8015bd32eee4e5bd46fd83aea40f159; path=/
Vary: Accept-Encoding,Cookie
Content-Language: fi
Content-Type: text/html; charset=utf-8
X-Cache: MISS from wikipedia.org
Transfer-Encoding: chunked
Connection: keep-alive

Tämän jälkeen palvelin lähettää tiedoston sisällön (text/html on MIME-tyyppi, joka kertoo sisällön olevan tässä tapauksessa HTML:ää). Selain poimii HTML-sisällöstä myös kuvien tiedostonimet ja hakee ne samanlaisilla pyynnöillä. Selain näyttää HTML-sivun ruudulla heti saatuaan sen, ja alkaa täyttää kuville asetettuja raameja ladattuaan nekin.

Vastauksessa pyyntöön välitetään ensimmäisen status-koodi (tässä 200), joka kertoo pyynnön onnistumisesta tai virheestä. Muita tietoja ovat sivun ikä ja voimassaoloaika, palvelinohjelmiston nimi ja versionumero, sekä välitetyn dokumentin tyyppi (tässä HTML, UTF-8-merkistökoodauksella) ja kieli (suomi). Sivun Expires-kenttänä (voimassaoloaika) on Unix-järjestelmän ajan alkuhetki vuonna 1970, mikä tarkoittaa, että sivu vanhenee välittömästi, eikä sitä pidä tallentaa välipalvelimeen uudelleen käytettäväksi. Näin siksi, että pyyntö oli sivun muokkausta varten, eikä vanhentuneen sisällön käsittely enää tulevaisuudessa ole järkevää. Kenttä Cache-Control kertoo saman.

Kenttä Set-Cookie asettaa selaimelle evästeen (cookie), jonka se palauttaa palvelimelle seuraavan pyynnön yhteydessä.

[muokkaa] Metodit

GET on metodi, jolla luetaan sivu. HTTP määrittelee kuitenkin muitakin metodeja (vaikka valtaosa liikenteestä käyttää vain GET-metodia). Toinen käytetty metodi on POST, jolla välitetään palvelimelle mm. selaimessa muokattavien tekstikenttien (lomakkeiden) sisällöt. Muita metodeita on harvoin edes toteutettu WWW-palvelimeen ellei samalla tueta myös WebDAV-laajennuksia.

  • POST - täytetyn lomakkeen tietojen lähettäminen palveluun
  • OPTIONS - kysely palvelimen tai resurssin ominaisuuksista
  • HEAD - pyydä vain sivun otsikkotiedot (esim. hakukone selvittää onko sivu muuttunut)
  • PUT - sivun tallettaminen (käytetään harvoin ilman WebDAV-laajennuksia)
  • DELETE - sivun poistaminen (käytetään harvoin ilman WebDAV-laajennuksia)
  • TRACE - palauttaa pyynnön sellaisenaan (vikojen jäljitykseen)
  • CONNECT - pyydetään yhteyttä, joka jää päälle

[muokkaa] Vastauskoodit

Palvelin palauttaa onnistuneeseen sivunhakuun (edellä) vastauksena ensimmäisenä "HTTP/1.x 200 OK". Tämä kertoo protokollan versionumeron ja koodi "200" kertoo pyynnön onnistuneen (selväkielisenä "OK"). Statuskoodeista 2xx-alkuiset kertovat onnistuneesta pyynnöstä. Näistä tärkeimpiä ovat 200 eli OK ja 206 "Partial Content", joka kertoo vastauksen olevan osa pyydetty osa tiedostoa (pyydettäessä osaa suuremmasta tiedostosta).

3xx-alkuiset koodit kertovat sisällön löytyvän jostain muualta kuin selain pyysi. Koodi 301 "Moved Permanently" kertoo sivun siirtyneen pysyvästi ja 302 "Moved Temporarily" väliaikaisesti toiseen paikkaan.

4xx-alkuiset vastauskoodit kertovat asiakasohjelman (selaimen) tekemästä virheestä. Esimerkiksi 404 "Not Found" on tuloksena, jos haetaan sivua, jota palvelimella ei ole ja 403 "Forbidden", ettei hakijalla ole oikeutta dokumenttiin pääsyyn.

5xx-alkuiset koodit ovat palvelimen tekemien virheiden seurausta. Näistä yleisin on 500 "Internal Server Error", joka kertoo pyynnön epäonnistuneen sitä käsittelevän ohjelman kaaduttua tai palvelimen muun virheellisen toiminnan seurauksena.

[muokkaa] Istunnot

HTTP on normaalisti tilaton. Tämä tarkoittaa ettei seuraavan pyynnön tulos riipu mitenkään edellisen tuloksesta ja kaikki asiakkaat saavat saman tuloksen samalla pyynnöllä. Tämä on kuitenkin melko rajoitettua, koska esimerkiksi verkkokaupan ostoskori tai kirjautuminen käyttäjätunnuksella foorumille olisivat mahdottomia tilattomalla protokollalla.

Käyttäjien istuntojen (session) toteuttamiseen HTTP:ssä on useita keinoja. Luotettavimmat näistä liittyvät evästeiden (cookie) käyttöön. Tällöin palvelin asettaa asiakasohjelmalle evästeen Set-Cookie-kentällä pyynnön yhteydessä. Vastaavasti palvelimelle luodaan ja pidetään muistissa istuntoon liittyvä tieto. Istunnon voisi muodostaa luottamalla pelkästään evästeiden välittämään tietoon, mutta tämä on usein hankalaa ja mahdollisesti tietoturvariski. Tietoturvan ylläpitämiseksi istunto sidotaan myös käyttäjän IP-osoitteeseen, johon luottaminen ainoana istunnon tunnisteena on epävarmaa. (mm. siksi, että monta käyttäjää voi hakea sivuja saman IP:n takaa.) Myös evästeisiin luottaminen on suhteellisen epävarmaan, koska niille varattu tila ja on rajattu ja monet käyttäjät estävät ainakin epämääräisten evästeiden käytön. Istuntoon liittyvä tilatieto voidaan välittää myös URL:in yhteydessä parametrina, mutta tämäkin on ongelmallista väärin toteutettuna. Vastaavasti palvelimen kapasiteetti on rajallinen, joten vanhoja ja käyttämättömiä istuntoja on siivottava pois tietyin väliajoin, mikä saa liian kauan käyttämättömä olevan istunnon katkeamaan.

[muokkaa] Standardointi

HTTP-protokollalle on varattu TCP-portti 80. Toinen varattu mutta ei kovin usein käytetty on portti 8080.

[muokkaa] Katso myös