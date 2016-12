Google Killer eller Killer Google - det semantiske web

Der bliver i disse dage talt meget om semantisk web, linked data, og structured data og alle tre begreber indgår da også i diverse forudsigelser af hvor vi vil se de største fremskridt og den største relative udbredelse af teknologier på internettet i 2010. Det gør real time search også men det er en anden historie (måske).

Wolfram|Alpha

Optagelse af nye data i systemet

Fremdragelse og behandling hovedsageligt via algoritmer

Et linguistisk filter, som sammenligner ord og forsøger at korrigere stavefejl

Et automatiseret præsentationssystem.

Det linguistiske filter (Linguistic Processing System) er det eneste som i koncept nærmer sig semantisk web, men da data er organiseret (markeret) i emner og ikke på tværs af emner og da der ikke foretages en betydningsmæssig strukturering af data er der ikke tale om semantisk web. Faktisk er Woldfram|Alfa en videreudvikling af Wolfram Matematica , udviklet af Stephen Wolfram. Dette gør ikke projektet mindre imponerende, men Wolfram|Alpha er ikke semantisk søgning.

Open Calais

Open Calais er baseret på semantisk web, her genereres meta data, som organiseres med tags, og her arbejdes der på tværs af dicipliner, her er tale om linked data, som struktureres med henblik på at kunne foretage semantiske søgninger. Systemet er, ligesom Wolfram|Alpha, i stand til at lære undervejs, men hvor Wolfram|Alpha lærer ved at udvikle algoritmer og få tilført mere data, lærer Open Calais ved at få sammenkoblet flere og flere meta data på tværs af vidensfelter.

Open Calais har yderligere den fordel at det bygger på vedtagne W3C standarder for mark up language ligesom f.eks. Google Rich Snippets , nemlig microformats og RDFa som begge ligger indenfor rammerne af XHTML. Open Calais har en god del af de kvaliteter der skal til for at være en Google Killer, men p.t. er udbredelsen så lille at det vil kræve en killer funktion at komme ind på Centre Court.

Google Rich Snippets

Google introducerede i maj 2009 Rich Snippets , som foreløbig har begrænset effekt, men som, efter min bedste overbevisning vil få meget større betydning i fremtiden, ikke mindst i forbindelse med den øgede personlaliserede søgeresultatsiderne. Med Rich Snippets får du som skribent mulighed for at fortælle Google hvad din side handler om, der kan tilføjes brugervurderinger og andre data til visningen af dit website i Googles søgeresultater.

Google Rich Snippets er baseret på gængse standarder og er derfor lette at identificere og proceduren for implementering er også let at forstå for Googles indholdsleverandører, nemlig alle med et website.

Det semantiske web

Det semantiske web kan bedst oversættes som det meningsfulde web, eller måske bedre som meningssammenhænge på webbet. Semantisk betyder "det noget betyder" og dermed er et princip som kontekstafhængighed indført i definitionen. En semantisk analyse, og dermed grundlaget for en semantisk søgning, ligger i at undersøge betydninger skabt af sammenhænge.

Der hvor Wolfram|Alpha fejler er i analyse fasen, her er en algoritmisk beregning af sandsynlige resultater, samt et bredt svar (med flere forskellige betydninger) resultatet af en søgning, mens svaret i Open Calais vil være baseret på en tekst analyse som ud over parsing af ord også indeholder en sammenligning af ord i forskellig kontekst.

Det semantiske web består i dag af data, samlet i dokumenter og indekseret i f.eks. Google. Open Calais opsnapper dele af disse data og kategoriserer dem i forhold til grupper af informationer og tildeler hvert enkelt data meta tags, som siden hen kan bruges til at fremdrage kategoriserede søgninger, ofte med udgangspunkt i en kontekst.

Et helt simpelt eksempel, som også kan klares i Google, kan være at skelne mellem bilen VW Golf og spillet golf. I Google vil man typisk tilføje negative keywords til søgningen, mens man i en semantisk søgning vil tilføje en kontekst. Reservedele til Golf skaber en bil-kontekst, køller til Golf skaber en spil-kontekst. Golf Klub skaber en spil-kontekst mens Golf GTI skaber en bil-kontekst o.s.v. Meta data for hver enkelt optræden af ordet Golf, vil blive indsat i en sammenhæng som vil være bestemmende for det svar man får af en semantisk søgning.

Google Real time search og det semantiske web

Google har integreret real time resultater fra Twitter og har også udviklet søgeresultaterne med Rich Snippets, dette tænkt sammen vil give søgeresultater hvor hverken Wolfram|Alpha, Twitter, Bing, Facebook eller andre bejlere til tronen vil kunne følge med.

Kombinationen af at kunne forstå microformateret data og real time search vil kunne oversætte "Kæmpebølge" til "Tsunami" mens bølgen endnu ruller.

Hvis vi samtidig tænker på den mængde af data Google har i sit arsenal, websider, blogs, m.m. nyheder, bogscanning samt Twitter microblogindlæg ser det ud som om Google har fat i den lange ende og det er svært at se hvem der skulle kunne vippe Google af pinden som den førende indenfor informationsformidling.

Et forslag kunne være indkorporering af Open Calais i Bing, som dermed vil kunne inddrage semantiske data i søgeresultaterne og Open Calais er så vidt jeg er orienteret det bedst udviklede system til dato indenfor organisering og tilvejebringelse af semantisk baseret data.

Semantisk data og dig

Som jeg ser det, er semantikken, de underliggende betydninger af ordkonstellationer, et væsentligt skridt fremad for organiseringen af data på internettet. Min opfordring (som jeg endnu ikke selv overholder helt) er at forsyne dine websider, din blog eller shop med semantiske data.

RDFa og Microformats Semantiske elementer findes som standardiserede meta data typer i XHTML 2.0 definitioner , som har så meget til fælles at de kan defineres som de facto standarder. Brug disse hvor det er muligt, forbered dit nye project så indsættelse af semantiske tags bliver standard, og arbejd på at få standarderne implementeret helt igemmen på nuværende webprojekter.

Da meta keywords i sin tid blev standard, var de faktisk vigtige, i dag tæller de ikke fordi de var og er oplagte kilder til at sende spam via metadata, sådan tror jeg ikke at det vil gå med metadata i XHTML 2.0 eller Microformats. Semantiske elementer og attrubutter vil være en kæmpe hjælp til søgemaskinerne, ikke minds Google, og jeg tror de vil tage godt i mod den ekstra indsats det vil være at implementere de "nye" standarder.

Det semantiske web er ikke nogen Google Killer (endnu)

Jeg er overbevist om at semantisk tagging vil være et gode for resultaterne af en søgning, uanset om man søger på Google, Open Calais, Bing eller Wolfram|Alpha. Et godt eksempel på semantisk datastrukturering fås på Open Calais Document Viewer , skriv en tekst på engelsk i feltet og se hvordan din tekst bliver klassificeret, det er faktisk ret spændende.

Hvem siger at Bing kommer først med et godt tilbud til Open Calais? Hvem siger at Open Calais er til salg? Hvem siger at Open Calais vil være kommerciel interessant? Mit bud er at semantisk optimering vil kunne betale sig.

Google er foreløbig med på beatet med Rich Snippets og Google har formodentlig også andre esser i ærmet, så jeg giver Google endnu et år på tronen. 2010.