zur Homepage
Computerwoche, 19/2005
Amazon w�chst mit skalierbarer IT
Von J�rg Auf dem H�vel
In einer geclusterten Linux-Umgebung mit Oracle-Datenbank verwaltet Amazon.com seinen gigantischen Datenbestand.
Was dem Online-Versandh�ndler Amazon heute einen Verlust von Hunderttausenden Euro bringen w�rde, war 1995 kein Problem:
Die Web-Seite war f�r eine halbe Stunde offline. Amazons Chefprogrammierer schleppte im Gr�ndungsjahr der Firma den
einzigen Sun-Server noch pers�nlich in seinen Honda, um ihn in die neuen Gesch�ftsr�ume zu transportieren.
Damals wie heute setzte der Katalog auf einer Oracle-Datenbank auf.
�ber die Jahre wuchs mit den Anforderungen auch die Kapazit�t der
Maschinen. Wo zun�chst Alpha Server von Digital Equipment die
Bestellungen sortierten, setzte CEO Jeffrey Bezos drei Jahre nach der
Firmengr�ndung auf einen Sun-Starfire mit Solaris-Betriebssystem. Die
Firma war innerhalb der kurzen Zeit von elf auf �ber 1000 Mitarbeiter
angewachsen, vier Millionen Kunden bestellten regelm��ig bei Amazon.
Die Freude an der Sun-Hardware w�hrte jedoch nicht lange, schon ein
Jahr sp�ter ging Amazon eine Kooperation mit Hewlett-Packard ein. Seit
dieser Zeit stattet HP Amazon mit Hardwarel�sungen aus. Auf den Servern
l�uft seither Linux. F�r jeden Dollar, so CIO Rick Dalzell, den Amazon
in neue Hardware stecke, spare es zehn Dollar an Instandhaltungs- und
Lizenzgeb�hren.
Das Volumen der Suchanfragen und der Datenbank verdoppelte sich
bis 2002 jedes Jahr. Damals umfasste Letztere 10 Terabyte und z�hlte
bereits zu den f�nf weltgr��ten Datenbanken. Sie ist das Herz von
Amazon, an diesem Kulminationspunkt laufen alle Bem�hungen zusammen.
Bestellungen, Kundendaten, Produktbestandsdaten: Das Data Warehouse ist
mit fast jedem System innerhalb des Unternehmens verbunden. Zu
Spitzenzeiten greifen �ber 1000 Mitarbeiter auf die Daten zu.
Foto: Amazon
Amazon mauserte sich vom virtuellen Buchh�ndler zum
Allround-Spezialisten f�r jedes erdenkliche Produkt. Im Januar 2004
k�ndigte Manager Tom Killalea das "14-Terabyte-Plus"-Warehouse an. Der
Online-H�ndler z�hlt seither nicht nur �ber 37 Millionen Kunden,
sondern auch 550 000 Verk�ufer, die �ber die Amazon-Plattform ihre
eigenen Produkte vertreiben. Der Online-Store der US-Basketballliga NBA
l�uft ebenso dar�ber wie der des Spielzeugh�ndlers Toys’r’us. Im
Weihnachtsgesch�ft 2004 erzielte Amazon erstmals mehr Umsatz mit
Elektronikartikeln als mit B�chern.
Zugleich erwarteten die Nutzer von Amazon wie von allen
Online-L�den, dass sie so zuverl�ssig funktionieren wie das Telefon:
(Ein-) W�hlen und loslegen. Die Seite muss nicht nur st�ndig erreichbar
sein, sie muss zudem schnell laden und alle Informationen z�gig
ausliefern. Ein Kunde will innerhalb einer Minute wissen, wie lange es
brauchen wird, bis eine Bestellung bei ihm ankommt, und ob die
einzelnen Waren in nur einem Paket oder separat versandt werden.
Umstrukturierung beendet
Heute ist die Umstrukturierung von Amazons IT-Architektur
abgeschlossen. Das System setzt auf Linux-Servern auf und l�uft mit der
Software "Real Application Clusters" (RAC) von Oracle auf
Proliant-Server von HP. Oracle RAC ist eine Datenbank, die das
Clustering unterst�tzt. In jedem Proliant-DL-380-Servern gibt ein
Intel-Xeon-Prozessor mit 3,4 Gigahertz den Takt an. HP empfiehlt f�r
diese Proliant-Familie das modulare Speichersystem "Smart Array 1000"
(MSA 1000). Die Besonderheit bei Amazon: Die Architektur ist
zweigeteilt und verrichtet ihre Aufgaben an unterschiedlichen Orten,
die �ber ein Hochgeschwindigkeits-Glasfaser-WAN miteinander verbunden
sind. Ein Teil des Real-Application-Clusters steht in an der Ostk�ste
der USA, ein Teil an der Westk�ste.
Ein System beherbergt das eigentliche Data Warehouse, das
zweite dient als "staging area". Hier wird neue Software installiert,
um bei einem Update einfach zwischen der normalen Umgebung und der
Staging-Umgebung umschalten zu k�nnen. So lassen sich Software-Updates
ohne Downtime fahren. Jedes System besteht aus mindestens vier Nodes,
auf welchen jeweils Oracle auf Linux l�uft. Die Nodes sind �ber
2-GB-Glasfaser mit SAN-Switches verbunden, die die Daten an die
diversen MSA-1000-Speichereinheiten verteilten. Mit dem Application-
und Cluster-Network sind die Nodes �ber 1-GB- und 100- MB-Ethernet
verkn�pft.
Die Software von Amazon ist eine �ber die Jahre gewachsene
Eigenentwicklung, "100 Prozent homegrown", wie der fr�here
Gesch�ftsf�hrer Joe Galli einmal bemerkte. Die Site kam zun�chst ohne
Anwendungs-Server aus, erst sp�ter setzte man auf Web-Logic von Bea. Um
das immer weiter wachsende Datenvolumen zu bew�ltigen, verbindet
seither dieser J2EE-kompatible Web-Server die WebClients mit den
verteilten Datenbanken.
Die geclusterte Architektur hat Vorteile: So ist die Kapazit�t
nicht auf einen einzelnen Server beschr�nkt. Wird neue Rechen-Power
ben�tigt, ist kein komplizierter Neuaufbau notwendig - ein neuer Server
wird einfach an das bestehende Netzwerk angeschlossen. Zum anderen
erh�ht sich die Verf�gbarkeit. F�llt ein Knotenrechner aus, �bernehmen
andere Einheiten seine Aufgaben. Zudem verf�gt Bea Weblogic �ber
Plugins f�r den Open-Source-Web-Server "Apache". Amazon nutzt eine von
der Firma Red Hat modifizierte Version von Apache mit Namen
"Stronghold", die den Apache-Server um SSL-Unterst�tzung erweitert.
Der Apache-Web-Server leistet hier das, was bei Ebay Microsofts
IIS �bernimt: Er kapselt das Internet aus Sicherheits- und
Performance-Gr�nden von der Bea-Sph�re ab. Apache liefert
beispielsweise JPG-Dateien schneller und preiswerter aus, als der
lizenzpflichtige Bea-Server das kann.
�berhaupt profitiert das Online-Versandhaus von der
Open-Source-Bewegung. Seit 2002 nutzt Amazon das Website Templating
System "Mason", ein bekanntes Perl-Tool zur Generierung von HTML-Code,
das ebenfalls gut mit Apache zusammenarbeitet. Die Shop-Entwickler von
Amazon stellen ihre Arbeit zum Teil auch der Programmierer-Gemeinde zur
Verf�gung. �ber die H�lfte der �nderungen an Mason von Version 1.21 auf
1.22 gehen auf Amazon-Mitarbeiter zur�ck.
Der E-Commerce-Riese nutzt eine Reihe von Tools, um das
Gesch�ft mit K�ufern und Lieferanten am Laufen zu halten. So sp�rt ein
Analyse-Tool der Firma SAS dem K�uferverhalten nach. Damit werden nicht
nur Pr�ferenzen erforscht, sondern auch Kreditkarten-Betrugsf�lle
verringert. Durch das Tool, so Jaya Kolhatkar, Leiterin der
Betrugsaufkl�rung bei Amazon, seien 2001 die Betrugsf�lle um 50 Prozent
zur�ckgegangen.
Personalisierte Angebote
Neben der IT-Architektur ist auch Amazons
Personalisierungs-Software ein gut geh�tetes Geheimnis. Das System
erkennt einen wiederkehrenden Besucher auf der Web-Seite und macht ihm
auf Grundlage der bisher get�tigten Eink�ufe Vorschl�ge f�r die neue
Shopping-Tour. Die Kunden sehen dann immer speziell f�r sie
modifizierte Seiten. Amazons Lust am Data Mining verf�hrte das
Unternehmen 2000 sogar dazu, unterschiedliche Preise f�r das gleiche
Produkt zu verlangen. Als die K�ufer mitbekamen, dass sie als
Versuchskaninchen benutzt wurden, stoppte Amazon das Experiment.
Die B-to-B-Strategie ist �hnlich ausgereift. Excelons "B2B Integration Server"
verbindet die Warenbestandsdatenbank von Amazon mit den gro�en Lieferanten.
Eine Software von Manugistics kontrolliert den globalen Warenfluss durch die
Lager und legt auch fest, welche Produkte in welchem Lager in welcher Menge
stets vorr�tig sein sollten. Split-Orders, also Warenlieferungen, die von unterschiedlichen
Lagerh�usern aus den Kunden erreichen, will Amazon unbedingt vermeiden. Zudem
m�ssen l�nderspezifische Transport-, Zoll- und Steuerkosten ber�cksichtigt werden.
Ein Gro�teil der versendeten Produkte kommt daher heute aus nahe liegenden
Distributionszentren zu den Kunden.
Amazon als Plattformanbieter
Wie Ebay auch, �ffnet Amazon seine Tore nun vermehrt f�r
Entwickler. Mit dem "Amazon Simple Queue Service" steht die Betaversion
eines E-Mail-Dienstes f�r Softwareanwendungen bereit. Beide Unternehmen
bieten damit ihre Infrastruktur, die sie urspr�nglich f�r sich
entwickelt haben, nun anderen Unternehmen an.