Wie Facebook die Daten von 300 Millionen Nutzern verkraftet

Durch solche und weitere Optimierungen sei es gelungen, die Zahl der physischen I/O-Zugriffe pro ausgeliefertem Bild von rund 10 auf rund 3 zu senken. Letztendlich aber entwickelte Facebook mit Haystack ein eigenes Open-Source-Dateisystem zum Speichern großer Bildermengen, das pro ausgeliefertem Bild nur noch einen I/O-Zugriff benötigt. So sei es nun möglich, rund viermal mehr Bilder mit der gleichen Hardware auszuliefern.

PHP für die Webserver

Die grundlegende Architektur der Facebook-Plattform gliedert sich in drei Schichten: ein Loadbalancer reicht Daten an Webserver weiter, die ihrerseits auf Dienste, Memcached und Datenbanken zugreifen. Bei den Webservern setze Facebook auf PHP als Scriptsprache, da PHP leicht zu lernen, zu programmieren und debuggen sei. Dem stehen hohen Runtimekosten gegenüber, denn PHP brauche viel Speicher und Rechenzeit. Zudem sei die Verbindung mit C++ eine Herausforderung und bei großer Codemenge werfe PHP gewisse organisatorische Probleme auf. Auch mache neuer Code alten langsamer, selbst wenn dieser in keinem Zusammenhang stehe, da der Initialisierungsaufwand, der bei jeder Anfrage anfällt, steige.

Um dem entgegen zu wirken, hat Facebook einige Optimierungen vorgenommen und beispielsweise den APC (Advanced PHP Cache) um Lazy-Loading, Cache-Priming und effizientere Locking-Funktionen erweitert. Zudem wurde eine eigene Memcached-Client-Erweiterung sowie Mechanismen zum asynchronen Event-Handling geschrieben. Derzeit arbeitet Facebook an einem Compiler, der PHP in C++ umsetzt, um daraus hoch optimierte ausführbare Dateien zu machen.

Die Webserver greifen auf Backendsysteme zurück, die in aller Regel in C++ implementiert werden, nutzen aber auch andere Sprachen wie Python, Ruby oder Erlang - je nachdem, welche für die aktuelle Aufgabe am besten geeignet ist. Facebooks Suchdienst ein solches Beispiel.

25 TByte Logfiles pro Tag

Ein weiteres Backendsystem ist Scribe, mit dem Facebook seine große Menge an Logfiledaten verarbeitet, denn täglich fallen rund 25 TByte an Logfiles auf den Servern an, die chronologisch konsolidiert werden müssen. Letztendlich verarbeitet ein Hadoop-Cluster mit rund 1.000 Nodes die Daten und erlaubt Analysen des Nutzerverhaltens, um herauszufinden, wie neue Funktionen von Nutzern verwendet werden.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed
 Wie Facebook die Daten von 300 Millionen Nutzern verkraftetWie Facebook die Daten von 300 Millionen Nutzern verkraftet 
  1.  
  2. 1
  3. 2
  4. 3
  5.  


........... 03. Feb 2010

Eins wird da wohl völlig reichen und selbst dann haste noch etliche Ressourcen frei um...

Michael 76 27. Okt 2009

Schon gewusst, Facebook setzt MySQL gar nicht als relationale Datenbank ein. MySQL dient...

gyko 27. Okt 2009

Da ich grad an der UCSD studiere, konnte mir das das anhören. Kann jedem Technik...

Michael 76 27. Okt 2009

Dir ist aber schon klar, das Abmelden nicht gleich löschen heisst. Meist werden deine...



Aktuell auf der Startseite von Golem.de
Dark Matter von Blake Crouch
Sein ganz persönliches Multiversum

Das Multiversum mal anders: In Dark Matter wird es auf das Leben eines Menschen heruntergebrochen. Das ist nicht nur unterhaltsam, sondern auch sehr erhellend.
Eine Rezension von Peter Osteried

Dark Matter von Blake Crouch: Sein ganz persönliches Multiversum
Artikel
  1. Investor: Google fantastisches Beispiel für Schwachsinns-Jobs
    Investor
    Google "fantastisches Beispiel" für "Schwachsinns-Jobs"

    Ein Investor von Andreessen Horowitz mischt sich in die Fake-Work-Debatte im Silicon Valley ein - und nennt Google ein "fantastisches Beispiel" dafür.

  2. Golem Karrierewelt: Live-Webinar heute: Warum CEH - Certified Ethical Hacker?
    Golem Karrierewelt
    Live-Webinar heute: Warum CEH - Certified Ethical Hacker?

    Am heutigen Dienstag, dem 7. Mai um 17 Uhr auf Youtube: Cybersecurity Professional Björn Voitel erklärt, für wen - und warum - es sich lohnt, das CEH-Zertifikat zu erwerben.

  3. In eigener Sache: Golem.de führt 1-Euro-Probeabo ein
    In eigener Sache
    Golem.de führt 1-Euro-Probeabo ein

    Lange habt ihr es euch gewünscht, jetzt ist es da: Mit dem Probeabo könnt ihr für 1 Euro in unser Golem-Plus-Angebot hineinschnuppern - und zum Start gibt es noch ein Extra für Neu- und Bestandskunden!

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Full-HD-Beamer 55,99€ • TVs -62% • Ryzen 7 7800X3D 334,33€ • Asus Gaming-Laptops -22% • Total War -76% • Mailights: MM-Flyer mit Rabatten bis 60% • Logitech Gaming-Zubehör -51% • Ambilight zum Nachrüsten ab 109,99€ • MSI 32" 4K UHD 144Hz 719€ [Werbung]
    •  /