Kom ihåg mig?
Home Menu

Menu


Google-seminarium i Linköping

Ämnesverktyg Visningsalternativ
Oläst 2005-02-04, 16:25 #1
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
Är det någon här som tänkt gå på detta
www.lysator.liu.se/upplysning/20050208.html
och kan anteckna/dokumentera? Vore lite spännande att höra vad det handlade om.
nicclas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-04, 16:43 #2
Tobias Tobias är inte uppkopplad
Medlem
 
Reg.datum: Jul 2004
Inlägg: 57
Tobias Tobias är inte uppkopplad
Medlem
 
Reg.datum: Jul 2004
Inlägg: 57
Såg detta på universitet idag, dock så tror jag ej att jag har tid att närvara vid den tidpunkten. Skulle annars säkert vara mycket intressant.
Tobias är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-04, 19:19 #3
jimmies avatar
jimmie jimmie är inte uppkopplad
Mycket flitig postare
 
Reg.datum: Oct 2004
Inlägg: 751
jimmie jimmie är inte uppkopplad
Mycket flitig postare
jimmies avatar
 
Reg.datum: Oct 2004
Inlägg: 751
Jag kanske hamnar där men det beror på arbetsbördan för dagen... Är nog ganska intressant att höra vad han har att säga...
jimmie är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-08, 21:22 #4
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
Det här är mina anteckningar från föreläsningen, de är inte särskilt kompletta, men troligen bättre än inget om man inte hade förmånen att få vara där i egen person. Om något är oklart så fråga. Rubrikerna har jag satt "själv". Det är mao ingen manuskript utan bara mina anteckningar. Sa jag att det bara var mina anteckningar?

Om ni har frågor så kan ni maila då jag inte läser WN så ofta längre.

Föreläsning Google, Magnus Sandberg, Linköpings Universitet/Lysator
Subject: Building scalabe systems for web search and beyond.

Mission: To organize the worlds information
Today: 65.9 unique visitors in USA (by cookie).
50% of searches outside of USA. 50% of all searches (75% in sweden).
3000 employees. 20 offices.

Most common question: what does employees at Google do?
There are several problems at Google.
- Growing amounts of data (already huge).
- Search traffic is growing.
- Maintaining search quality.

Scale of problem
There are more than 8 billion webpages.
10 kb / page average. + Images + Non-web-data.

Dealing with scale
- Hardware/networking. Buy basic/cheap pcs instead of servers.
- Distributed system - many pcs.
- Algorithms/data structures - solving problems in new ways.
- Machine learning, data analysis.
- User interface/intuitivity.
... more.

PCs are generally cheaper than servers.
88 rackspace pcs (2cpu xeon) compared to IBM eServe.
1/3 price. 22x CPU, 3x RAM, 1x HDD.

Dealing with failures
A computer lasts 3 years, with 1000 computers you will require to replace one every day.
- Replication & Redundancy: Fault tolerant software makes cheap hardware possible.

Googles index
Structure of index
Looks like a hash-table.
Word1 -> page1, page2, page3 ...
Word2 -> page4,...
Word3 -> ...
1: Use pagerank as a total order.
2: Separate data in "Shards". (Liknande LVM på linux).
3: Replicate the shards.
4: ..
5: ..

A search is done by several clusters of machines. The webserver sends the query to the "shard"-cluster where data is located in the index. The query is then sent to the "doc"-cluster where snippets of data (below each result) is gathered. At the same time information from spell-servers and ad-servers is gathered.

The build of the index takes several days on hundreds of machines.

Some google technologies
- GFS - Google file system.
A master manages metadata. Chunks are replicated on atleast 3 machines on diffrent locales.
Distributed filesyste. 30 clusters. 2000+ chunk/shard-servers. Petabyte filesystem. 2000+ mb/s sustained read/write.

- GWQ - Google work queue.
Master manages slaves. Allocates cpu/disk/memory to tasks. Servers doubles as chunk/cpu-servers (GFS).

- MapReduce.
Automatic & efficient parallel/distributed/faulttolerant framefork for tasks.
Map - Add a pair of data, (some en hash).
Reduce - Reduce all pair to unique keys.

This allows for efficient programming of large tasks in co-operation with GFS/chunks.
Fault-tolerant system, 1800/2000 machines crashed, job finished fine.

Uses: quality experiment. Logfile analysis. Machine translation. Data processing.
Paper about MapReduce: "OSDI '04".

About Google in general
Who does it?
-Talented people
-Small teams of 3-5 people.
-[Solving] Problems that matter
-Freeto explore ideas.
[Google has] Experts in many areas (almost all CS-related areas).

20%-rule - 20% of your time can be spent on alternative research/projects.
25 people in zurich office.

Questions after session
Number of machines in clusters: "A lot".
How many datacenters? About 12, on west/east coast. Close to users to reduce latency.
Google has saved all snapshots of websites (as archive.org).
No connection to developing browsers (firefox/gbrowser.com-rumours). Google has previously hired IE-developers which caused similar rumours.

Bandwidth: No numbers currently. But earlier transfers between datacenters had to be done at night due to high costs.

Incentives at google, invidual bonuses with stock. Group bonuses for outstanding performance by groups or company.
grazzy är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-08, 21:46 #5
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
Jag var också där. Presentationen var en "standardpresentation", och Magnus gjorde den inte speciellt intressant. Det var, i mitt tycke en blek tillställning, inte minst på grund av att de få tekniska detaljerna han pratade om (runt MapReduce) blev rätt kasst beskrivna och förklarade. *mummel mummel*

Den enda som var lite kul var att han visade upp Google i sin browser (Mozilla? under Linux), och det blev tydligt att han hade "snabblänkar" till GOOG på NasDaq och till NasDaq:s site. Han såg inte ut som en som intresserar sig för aktieaffärer annars ;-) /*mina fördomar */

Eftersom det var en "standardpresentation" så finns den (nästan i exakt samma format) på nätet sedan tidigare, t.ex. här:
http://norfolk.cs.washington.edu/htbin-pos...ails.cgi?id=274
men där presenterad av en annan snubbe....
nicclas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-08, 21:52 #6
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
Hehe, tja, vad hade du förväntat dig? Att dom skulle dumpa alla gory details i knät på dig?
grazzy är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-08, 22:06 #7
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
nicclas nicclas är inte uppkopplad
Flitig postare
 
Reg.datum: May 2003
Inlägg: 340
Jag förväntade mig att han skulle berätta lite om hur det var att jobba på Google, och vad han eller hans kollegor gjorde. Att han t.ex. skulle beskriva lite om vilken typ av "programmerare" Google anställer.

Att köra en standardpresentaition är tråkigt, den kunde jag ju lika gärna tittat på hemma. (Presentationen på nätet som jag länkar ovan är en hel del bättre än den Magnus gav - även om det är exakt samma bilder, plus några till.) Tanken på att han inte verkade kunna förklara de få tekniska detaljerna som han försökte beskriva, gjorde mig skeptisk. Det hade varit mycket roligare om han beskrivit någon detalj som han, eller någon kollega, eventuellt jobbade med och kunde förklara.

Jag förväntade mig naturligvis inte att han ska avslöja något som har någon som helst inverkan på sökresultat osv., eftersom det inte var det som det skulle handla om.

(Det är min personliga uppfattning. Det var säkert flera där som tyckte detta var jättebra!)
nicclas är inte uppkopplad   Svara med citatSvara med citat
Oläst 2005-02-08, 22:12 #8
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
grazzy grazzy är inte uppkopplad
Klarade millennium-buggen
 
Reg.datum: Mar 2004
Inlägg: 3 471
Jo självklart var det lite andefattigt i tekniska detaljer. Personligen tyckte jag att det var kul att få höra en del saker "direkt" från google. Saker på "Nätet" och rykten som florerar överallt är sällan korrekta. Nu fick man åtminstonde höra det direkt från en google-anställd. Det ger det lite mera legitimitet.

Jag saknar "självklart" biten om hur deras algoritmer funkar i sök, hur pagerank påverkar resultat mera detaljerat och så vidare. Men det är knappast en överraskning att det inte kom några sådana detaljer, av flera anledningar.

Sen kan man ju tycka vad man vill om Magnus, men "nerdeliten" på liu.se gjorde ju inte direkt livet lätt för den stackarn under frågestunden.
grazzy är inte uppkopplad   Svara med citatSvara med citat
Svara


Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)
 

Regler för att posta
Du får inte posta nya ämnen
Du får inte posta svar
Du får inte posta bifogade filer
Du får inte redigera dina inlägg

BB-kod är
Smilies är
[IMG]-kod är
HTML-kod är av

Forumhopp


Alla tider är GMT +2. Klockan är nu 10:16.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2025, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson
 
Copyright © 2017