zur Homepage

Computerwoche, 19/2005

Amazon w�chst mit skalierbarer IT

Von J�rg Auf dem H�vel

In einer geclusterten Linux-Umgebung mit Oracle-Datenbank verwaltet Amazon.com seinen gigantischen Datenbestand.

Was dem Online-Versandh�ndler Amazon heute einen Verlust von Hunderttausenden Euro bringen w�rde, war 1995 kein Problem: Die Web-Seite war f�r eine halbe Stunde offline. Amazons Chefprogrammierer schleppte im Gr�ndungsjahr der Firma den einzigen Sun-Server noch pers�nlich in seinen Honda, um ihn in die neuen Gesch�ftsr�ume zu transportieren. Damals wie heute setzte der Katalog auf einer Oracle-Datenbank auf.

�ber die Jahre wuchs mit den Anforderungen auch die Kapazit�t der Maschinen. Wo zun�chst Alpha Server von Digital Equipment die Bestellungen sortierten, setzte CEO Jeffrey Bezos drei Jahre nach der Firmengr�ndung auf einen Sun-Starfire mit Solaris-Betriebssystem. Die Firma war innerhalb der kurzen Zeit von elf auf �ber 1000 Mitarbeiter angewachsen, vier Millionen Kunden bestellten regelm��ig bei Amazon. Die Freude an der Sun-Hardware w�hrte jedoch nicht lange, schon ein Jahr sp�ter ging Amazon eine Kooperation mit Hewlett-Packard ein. Seit dieser Zeit stattet HP Amazon mit Hardwarel�sungen aus. Auf den Servern l�uft seither Linux. F�r jeden Dollar, so CIO Rick Dalzell, den Amazon in neue Hardware stecke, spare es zehn Dollar an Instandhaltungs- und Lizenzgeb�hren.

Das Volumen der Suchanfragen und der Datenbank verdoppelte sich bis 2002 jedes Jahr. Damals umfasste Letztere 10 Terabyte und z�hlte bereits zu den f�nf weltgr��ten Datenbanken. Sie ist das Herz von Amazon, an diesem Kulminationspunkt laufen alle Bem�hungen zusammen. Bestellungen, Kundendaten, Produktbestandsdaten: Das Data Warehouse ist mit fast jedem System innerhalb des Unternehmens verbunden. Zu Spitzenzeiten greifen �ber 1000 Mitarbeiter auf die Daten zu.

Lager bei Amazon Foto: Amazon

Amazon mauserte sich vom virtuellen Buchh�ndler zum Allround-Spezialisten f�r jedes erdenkliche Produkt. Im Januar 2004 k�ndigte Manager Tom Killalea das "14-Terabyte-Plus"-Warehouse an. Der Online-H�ndler z�hlt seither nicht nur �ber 37 Millionen Kunden, sondern auch 550 000 Verk�ufer, die �ber die Amazon-Plattform ihre eigenen Produkte vertreiben. Der Online-Store der US-Basketballliga NBA l�uft ebenso dar�ber wie der des Spielzeugh�ndlers Toys’r’us. Im Weihnachtsgesch�ft 2004 erzielte Amazon erstmals mehr Umsatz mit Elektronikartikeln als mit B�chern.

Zugleich erwarteten die Nutzer von Amazon wie von allen Online-L�den, dass sie so zuverl�ssig funktionieren wie das Telefon: (Ein-) W�hlen und loslegen. Die Seite muss nicht nur st�ndig erreichbar sein, sie muss zudem schnell laden und alle Informationen z�gig ausliefern. Ein Kunde will innerhalb einer Minute wissen, wie lange es brauchen wird, bis eine Bestellung bei ihm ankommt, und ob die einzelnen Waren in nur einem Paket oder separat versandt werden.

Umstrukturierung beendet

Heute ist die Umstrukturierung von Amazons IT-Architektur abgeschlossen. Das System setzt auf Linux-Servern auf und l�uft mit der Software "Real Application Clusters" (RAC) von Oracle auf Proliant-Server von HP. Oracle RAC ist eine Datenbank, die das Clustering unterst�tzt. In jedem Proliant-DL-380-Servern gibt ein Intel-Xeon-Prozessor mit 3,4 Gigahertz den Takt an. HP empfiehlt f�r diese Proliant-Familie das modulare Speichersystem "Smart Array 1000" (MSA 1000). Die Besonderheit bei Amazon: Die Architektur ist zweigeteilt und verrichtet ihre Aufgaben an unterschiedlichen Orten, die �ber ein Hochgeschwindigkeits-Glasfaser-WAN miteinander verbunden sind. Ein Teil des Real-Application-Clusters steht in an der Ostk�ste der USA, ein Teil an der Westk�ste.

Ein System beherbergt das eigentliche Data Warehouse, das zweite dient als "staging area". Hier wird neue Software installiert, um bei einem Update einfach zwischen der normalen Umgebung und der Staging-Umgebung umschalten zu k�nnen. So lassen sich Software-Updates ohne Downtime fahren. Jedes System besteht aus mindestens vier Nodes, auf welchen jeweils Oracle auf Linux l�uft. Die Nodes sind �ber 2-GB-Glasfaser mit SAN-Switches verbunden, die die Daten an die diversen MSA-1000-Speichereinheiten verteilten. Mit dem Application- und Cluster-Network sind die Nodes �ber 1-GB- und 100- MB-Ethernet verkn�pft.

Die Software von Amazon ist eine �ber die Jahre gewachsene Eigenentwicklung, "100 Prozent homegrown", wie der fr�here Gesch�ftsf�hrer Joe Galli einmal bemerkte. Die Site kam zun�chst ohne Anwendungs-Server aus, erst sp�ter setzte man auf Web-Logic von Bea. Um das immer weiter wachsende Datenvolumen zu bew�ltigen, verbindet seither dieser J2EE-kompatible Web-Server die WebClients mit den verteilten Datenbanken.

Die geclusterte Architektur hat Vorteile: So ist die Kapazit�t nicht auf einen einzelnen Server beschr�nkt. Wird neue Rechen-Power ben�tigt, ist kein komplizierter Neuaufbau notwendig - ein neuer Server wird einfach an das bestehende Netzwerk angeschlossen. Zum anderen erh�ht sich die Verf�gbarkeit. F�llt ein Knotenrechner aus, �bernehmen andere Einheiten seine Aufgaben. Zudem verf�gt Bea Weblogic �ber Plugins f�r den Open-Source-Web-Server "Apache". Amazon nutzt eine von der Firma Red Hat modifizierte Version von Apache mit Namen "Stronghold", die den Apache-Server um SSL-Unterst�tzung erweitert.

Der Apache-Web-Server leistet hier das, was bei Ebay Microsofts IIS �bernimt: Er kapselt das Internet aus Sicherheits- und Performance-Gr�nden von der Bea-Sph�re ab. Apache liefert beispielsweise JPG-Dateien schneller und preiswerter aus, als der lizenzpflichtige Bea-Server das kann.

�berhaupt profitiert das Online-Versandhaus von der Open-Source-Bewegung. Seit 2002 nutzt Amazon das Website Templating System "Mason", ein bekanntes Perl-Tool zur Generierung von HTML-Code, das ebenfalls gut mit Apache zusammenarbeitet. Die Shop-Entwickler von Amazon stellen ihre Arbeit zum Teil auch der Programmierer-Gemeinde zur Verf�gung. �ber die H�lfte der �nderungen an Mason von Version 1.21 auf 1.22 gehen auf Amazon-Mitarbeiter zur�ck.

Der E-Commerce-Riese nutzt eine Reihe von Tools, um das Gesch�ft mit K�ufern und Lieferanten am Laufen zu halten. So sp�rt ein Analyse-Tool der Firma SAS dem K�uferverhalten nach. Damit werden nicht nur Pr�ferenzen erforscht, sondern auch Kreditkarten-Betrugsf�lle verringert. Durch das Tool, so Jaya Kolhatkar, Leiterin der Betrugsaufkl�rung bei Amazon, seien 2001 die Betrugsf�lle um 50 Prozent zur�ckgegangen.

Personalisierte Angebote

Neben der IT-Architektur ist auch Amazons Personalisierungs-Software ein gut geh�tetes Geheimnis. Das System erkennt einen wiederkehrenden Besucher auf der Web-Seite und macht ihm auf Grundlage der bisher get�tigten Eink�ufe Vorschl�ge f�r die neue Shopping-Tour. Die Kunden sehen dann immer speziell f�r sie modifizierte Seiten. Amazons Lust am Data Mining verf�hrte das Unternehmen 2000 sogar dazu, unterschiedliche Preise f�r das gleiche Produkt zu verlangen. Als die K�ufer mitbekamen, dass sie als Versuchskaninchen benutzt wurden, stoppte Amazon das Experiment.

Die B-to-B-Strategie ist �hnlich ausgereift. Excelons "B2B Integration Server" verbindet die Warenbestandsdatenbank von Amazon mit den gro�en Lieferanten.

Eine Software von Manugistics kontrolliert den globalen Warenfluss durch die Lager und legt auch fest, welche Produkte in welchem Lager in welcher Menge stets vorr�tig sein sollten. Split-Orders, also Warenlieferungen, die von unterschiedlichen Lagerh�usern aus den Kunden erreichen, will Amazon unbedingt vermeiden. Zudem m�ssen l�nderspezifische Transport-, Zoll- und Steuerkosten ber�cksichtigt werden. Ein Gro�teil der versendeten Produkte kommt daher heute aus nahe liegenden Distributionszentren zu den Kunden.

Amazon als Plattformanbieter

Wie Ebay auch, �ffnet Amazon seine Tore nun vermehrt f�r Entwickler. Mit dem "Amazon Simple Queue Service" steht die Betaversion eines E-Mail-Dienstes f�r Softwareanwendungen bereit. Beide Unternehmen bieten damit ihre Infrastruktur, die sie urspr�nglich f�r sich entwickelt haben, nun anderen Unternehmen an.