Waar benchmarks zijn… wordt vals gespeeld…

Benchmarks; geliefd (bij de klant?) en gehaat (door de marketing afdeling?) door velen. De toepassing lijkt handig; prestaties van verschillende systemen, apparaten of organisaties met elkaar vergelijken. Dit kan tussen organisaties (o.a. markt vergelijking) of binnen organisaties (o.a. om optimalisatie te bewijzen).

De datacenter industrie kent ook enkele benchmark cijfers. PUE (en zijn afgeleide) zeggen iets over de energie efficiëntie en word derhalve gezien als een ‘groen stempel’. TIER zegt iets over de beschikbaarheid. In een markt die een geweldige ontwikkeling door maakt, proberen leveranciers zich te onderscheiden van elkaar door deze stempels op de klanten af te vuren… vaak zonder enige (juiste) context en achtergrond.

Een stukje geschiedenis:

Voor enthousiaste PC gebruikers (ook wel tweakers genaamd) is de maximale prijs/prestatie verhouding van processoren (CPU’s) en grafische processoren interessant (GPU). Zeker voor Gamers. Om deze reden heeft het bedrijf FutureMark het product 3dMark ontwikkeld. Deze tool geeft een prestatie index cijfer op basis van een aantal testen die met name naar de GPU kijken. Op de markt van de GPU zijn 2 grote spelers actief; ATI (nu onderdeel van AMD) en Nvidia. Deze 2 bedrijven zijn al jaren lang in een strijd verwikkeld. Legendarisch is de aanpassing die Nvidia en ATI deden in hun drivers om hogere scores te halen in de benchmark tool in 2003:

Tweakers.net, 2003;

Zoals we eerder meldden werd nVidia er van beschuldigd hun Detonator-drivers specifiek aangepast te hebben om in 3DMark03 hogere scores te behalen. Hoewel nVidia claimde dat het om optimalisaties ging, liet Futuremark weten dat zowel ATi als nVidia vals speelden.

Als eindgebruiker, en zeker als inkoper, ben je opzoek naar vergelijkingsmethode en gegevens die er voor kunnen zorgen dat je de beste prijs/prestatie verhouding selecteert en daarmee het beste product voor jou (of je organisatie). Hierbij is het zelf testen en benchmarken ondoenlijk geworden. Het is vaak werk voor specialisten.

Een benchmark, op datacenter energie gebied, waar ik persoonlijk veel van verwachte is SPECpower.

SPECpower

SPECpower_ssj2008 is the first industry-standard SPEC benchmark that evaluates the power and performance characteristics of volume server class and multi-node class computers. With SPECpower_ssj2008, SPEC is defining server power measurement standards in the same way we have done for performance.

SPEC draait al langer mee in het benchmark wereldje en heeft een goede naam. Organisaties die de SPEC(power) benchmark hebben uitgevoerd, kunnen deze uploaden naar de online SPEC database. Hier door kun je makkelijk systemen met elkaar vergelijken.

SPECpower bestaat sinds 2008. In het begin was de benchmark alleen uit te voeren voor rack-mount servers en sinds enige maanden ook voor blade servers. Dit geeft eindelijk de mogelijkheid om te kijken naar de claim die veel hardware leveranciers doen: ‘blades zijn energie zuiniger’.

Dat dachten ze bij de Burton Group ook en ze vergeleken gegevens uit de SPECpower database: blade v.s. rackmount

So it looks like power consumption (at least based on these results) shouldn’t be a significant factor if you are trying to decide between blades and rack mount servers.

Uiteraard zorgde deze conclusie voor een reactie bij de blade server leveranciers (HP in dezen…) En wat blijkt… men heeft de resultaten een beetje geholpen;

As it turns out, the benchmarking team at HP were very aggressive in optimizing power consumption for the rack-mount system, optimizations included:…

In het rack-mount model had men de redundante voeding en netwerk kaart uitgeschakeld (een server zonder netwerk.. logisch?!?). Tevens had men wat optimalisatie rond de JVM command-line uitgevoerd. Hier door werd de vergelijking, die op het eerste gezicht appels-appels was, toch appels met peren.

PUE

PUE heeft ook zo zijn uitdagingen. Michael Manos schreef hier een aardig artikel over:

With mounting efforts around regulation, internal scrutiny around capital spending, lack of general market inventory and a host of other reasons, the push for efficiency has never been greater and the spotlight on efficiency as a function of “data center product” is in full swing. Increasingly PUE is moving from the data center professional and facilities groups to the marketing department. I view this as bad.

….

You don’t have to look far to read about the latest company that has broken the new PUE barrier of 1.5 or 1.4 or 1.3 or 1.2 or even 1.1. Its like the space race. Except that the claims of achieving those milestones are never really backed up with real data to prove or disprove it. Its all a bunch of nonsensical bunk.

Beter dan dat kan ik het niet verwoorden. Er zit te veel ruimte in de berekening methode, om deze te gebruiken als een commerciële vergelijkingsmethode. ‘Mijn PUE = 1,2’ zegt dus helemaal niets. Indien PUE (of afgeleide) gebruikt word voor wet en regelgeving (zoals in Amsterdam), dan dient dit op zijn minst te zijn uitgeschreven; hoe dient het gemeten te worden in ontwerp en operatie? Het gevaar in deze exacte specificatie, is dat het innovatie in de weg kan staan. De regelgever schrijft een technische specificatie voor, die mogelijk andere oplossingen in de weg staat.

Als laatste opmerking:

Een veel gemaakte fout is het gebruik van gemiddelden om positie te bepalen of beslissingen op te baseren.

Lees het stuk van professor Sam Savage:

“The only certainty is that nothing is certain.”

So said the Roman scholar Pliny the Elder. And some 2000 years later, it’s a safe bet he would still be right. The Information Age, despite its promise, also delivers a dizzying array of technological, economic and political uncertainties. This often results in an error I call the Flaw of Averages, a fallacy as fundamental as the belief that the earth is flat.
The Flaw of Averages states that: Plans based on the assumption that average conditions will occur are usually wrong.

PUE bevat een heleboel (gemiddelde) getallen…

Het mag duidelijk zijn dat de getallen die geproduceerd worden door PUE, SPECpower en andere alleen iets betekenen als je de context en achtergrond weet. Anders is het appels en peren vergelijken. De getallen kunnen je een indicatie geven… maar kijk verder dan je neus lang is 🙂

Waar benchmarks zijn… wordt vals gespeeld…

4 comments

Leave a Reply Cancel reply