So funktioniert die Logfile-Analyse mit GoAccess
Die Logdateien Ihres Webservers verraten Ihnen allerhand über den Hintergrund und das Verhalten Ihrer Besucher. So können Sie durch eine Inspektion des Logfiles z. B. in Erfahrung bringen, welchen Browser Ihre User verwenden, wie lange sie sich auf Ihrer Website aufhalten und wie viele Seiten sie dabei aufrufen oder welche Suchmaschinen bzw. Links sie auf Ihre Seite geführt haben. Dank dieser und weiterer Informationen ist das Logfile eine erstklassige Quelle zur Überprüfung der Benutzerfreundlichkeit und Optimierung Ihres Webprojekts. Da es unmöglich ist, diese umfangreichen Textdateien manuell auszuwerten, gibt es diverse Logfile-Analyse-Tools – sogenannte Logfile-Analyzer –, die diese Aufgabe übernehmen und die Ergebnisse visuell aufbereitet präsentieren. Ein interessanter Vertreter dieser Analyzer ist das Open-Source-Tool GoAccess.
Grundlegendes zu GoAccess
Im Juli 2010 veröffentlichte der Entwickler Gerardo Orellana die erste Version des Logfile-Analyse-Tools GoAccess, das er bis heute auf der Plattform GitHub betreut und weiterentwickelt. GoAccess kann als freie Software – zunächst unter der GNU-Lizenz, seit 2016 unter der MIT-Lizenz – kostenlos genutzt und an die eigenen Vorstellungen angepasst werden.
Die elementare Idee von GoAccess ist die Analyse und visuelle Darstellung von Webstatistiken in Echtzeit. Um dies zu gewährleisten, wertet der Logfile-Analyzer die verschiedensten Logdatei-Formate von Webservern und Cloud-Diensten wie Apache, nginx, Amazon S3 oder CloudFront aus und stellt die Ergebnisse grafisch ansprechend in einem Dashboard dar. Dieses lässt sich in unixoiden Systemen entweder über den Browser oder über die Kommandozeile aufrufen. Alternativ können die Statistiken auch im HTML-, JSON- oder CSV-Format ausgegeben werden.
GoAccess stellt nur minimale Systemanforderungen und setzt, da es in der Programmiersprache C geschrieben ist, einzig die C-Programmbibliothek ncurses voraus. Um das Logfile-Analyse-Tool auf einem Windows-Betriebssystem zu nutzen, benötigen Sie die Tool-Sammlung Cygwin, mit deren Hilfe Sie bestimmte Linux-Anwendungen auch auf einem Microsoft-System zum Laufen bringen.
Diese Features zeichnen das Open-Source-Tool aus
Um GoAccess einzusetzen, sind keinerlei Konfigurationen nötig. Sie wählen einfach die zu analysierende Logdatei aus, starten die Überprüfung und lassen sich die Informationen bequem in Echtzeit anzeigen. Die verschiedenen Daten sind dabei in einzelnen Sparten aufgeführt, wobei sowohl Werte für einzelne Messzeiträume als auch ein Wert für den gesamten Überprüfungszeitraum angeführt werden. Standardmäßig sind diese Auflistungen chronologisch sortiert, Sie können die Daten allerdings auch nach der Anzahl der Seitenaufrufe bzw. Besucher, der verbrauchten Bandbreite oder der Zeit, die zum Laden der Website (insgesamt, durchschnittlich oder maximal) benötigt wurde, sortieren. Einige Werte können Sie auch in Balken- oder Kurvendiagrammen anzeigen lassen. Zusätzlich zu den aktuellen Informationen liefert Ihnen GoAccess unter „Overall Analyzed Requests“ eine Zusammenfassung aller bisher ausgewerteten Log-Daten.
Sowohl das Terminal- als auch das Browser-Dashboard (beide in englischer Sprache) präsentieren die erwähnten unterschiedlichen Sparten und Diagramme ansprechend und nutzerfreundlich, sodass Sie in kürzester Zeit Rückschlüsse über Besucher und Website ziehen können. Die folgende Tabelle zeigt die verschiedenen Bereiche, die der Logfile-Analyzer dabei abdeckt, und fasst die Erkenntnisse zusammen, die aus den Werten gezogen werden können.
Sparte | Übersetzung | Entscheidende Werte | Bedeutung für Webanalyse |
Unique visitors per day – including spiders | Einzigartige Besucher pro Tag – inklusive Computerprogramme | Aufrufe, Besucher, Datum (Data) | Unter einem einzigartigen Besucher werden alle Aufrufe verstanden, die von derselben IP-Adresse erfolgen. Indem Sie die Besucherzahlen über einen längeren Zeitraum beobachten, können Sie feststellen, ob Kampagnen oder neue Inhalte von Erfolg gekrönt sind. |
Requested Files (URLs) | Angeforderte Dateien bzw. URLs | Aufrufe, Bandbreite, Ladezeit (Avg., Cum., Max. T.S.), URL (Data | In dieser Sparte erhalten Sie einen Überblick über die am öftesten angeforderten URLs. So erfahren Sie, welche Seiten Ihres Webprojekts besonders beliebt sind, wieviel Bandbreite verbraucht wird und wie stabil die Ladezeiten der Seiten sind. |
Static Requests | Statische Anfragen | Aufrufe, Bandbreite, Ladezeit, Datei (Data) | Wie im vorigen Fall geht es um angefragte Dateien, allerdings nur um statische Inhalte wie Bilder, Icons oder Layout-Elemente. |
Not Found URLs (404s) | Nicht gefundene URLs (404-Fehler) | Aufrufe, URL (Data) | In dieser Sparte aufgelistete URLs haben bei den Besuchern zu einem 404-Fehler geführt. Mithilfe dieser Statistik können Sie Netzwerkprobleme oder fehlerhafte Verlinkungen feststellen und beheben. Letztere werden sowohl von Nutzern als auch von Suchmaschinen negativ bewertet. |
Visitor Hostnames and IPs | Hostname und IP der Besucher | Stadt, Land, Hostname, IP (Data) | In dieser Rubrik erhalten Sie Informationen über Provider und IP-Adresse Ihrer Besucher. GoAccess liefert sogar Daten zu Herkunftsland und -ort. Der Nutzen besteht darin, Usern gezielt personalisierte Inhalte zu präsentieren. Allerdings widersprechen sowohl vollständige IP-Adressen als auch Geolokalisierung dem deutschen Datenschutz. (Setzt außerdem GeoIP von Maxmind voraus.) |
Operating Systems | Betriebssysteme | Aufrufe, Besucher, Betriebssystem (Data) | Nach Häufigkeit sortiert sehen Sie in dieser Rubrik, welche Betriebssysteme Ihre User nutzen. Mithilfe dieser Daten können Sie z. B. genau feststellen, wie hoch der mobile Traffic ist. |
Browsers | Browser | Aufrufe, Besucher, Browser (Data) | In diesem Bereich werden Ihnen die zugreifenden Client-Typen präsentiert. In erster Linie sehen Sie die Zahlen der verschiedenen Browser, aber beispielsweise auch, ob und welche Crawler Ihre Website durchsuchen. |
Time Distribution | Zeitliche Verteilung der Aufrufe | Aufrufe, Besucher, Ladezeit, Stunde (Data) | Sie erhalten eine stundengenaue Übersicht über die Zugriffszahlen. So können Sie genau feststellen, wann Ihre User besonders aktiv sind, und dann Werbung oder neue Inhalte punktgenau schalten bzw. veröffentlichen. |
Virtual Hosts | Virtuelle Hosts | Aufrufe, Bandbreite, Host (Data) | Wenn Sie mehrere virtuelle Hosts (Domains, IP-Adressen) auf Ihrem Webserver betreiben, können Sie mithilfe dieser Statistik herausfiltern, welcher die Ressourcen Ihres Servers am stärksten beansprucht. |
Referrers URLs | Referrer-URLs | Aufrufe, URL (Data) | Der Referrer ist die in der Logdatei erscheinende Information über die URL, über die Ihr Besucher auf Ihre Seite gelangt ist. Sie können mit dieser Statistik einerseits starke Partnerseiten herausfiltern, andererseits sogar die verwendeten Suchbegriffe der User erfahren, wenn diese direkt von einer Suchmaschine gekommen sind. |
Referring Sites | Referrer-Websites | Aufrufe, Web-Adresse (Data) | Im Gegensatz zur vorherigen Statistik erhalten Sie hier nicht die URL, sondern die allgemeine Webadresse der Herkunftsseite. |
Keyphrases from Google’s search | Bei der Google-Suchmaschine | Aufrufe, Suchbegriffe | GoAccess bietet zusätzlich zu den Referrer-Statistiken eine |
engine | verwendete Stichworte | (Data) | separate Auflistung der Suchanfragen – zumindest für Google. Das erspart Ihnen die mühsame Arbeit, Referrer-URLs eigenständig auszuwerten. Die hier präsentierten Ergebnisse können nützlichen Input für Ihre Keyword-Strategie liefern. |
Geo Location | Geotargeting | Besucher, Herkunft (Data) | Unter dem Punkt „Geo Location“ finden Sie eine exakte Zuweisung der IP-Adressen zur geografischen Position des Nutzersystems. Die Angaben bergen dieselbe Datenschutz-Problematik wie die Statistik über Hostname und Nutzer-IP. (Setzt außerdem GeoIP von Maxmind voraus.) |
HTTP Status Codes | HTTP-Status-Codes | Aufrufe, Statuscode (Data) | Diese Sparte gewährt eine Übersicht über die Antworten Ihres Servers. Sie können den Daten entnehmen, ob Ihr Webserver ordnungsgemäß funktioniert und alle Inhalte fehlerfrei abgerufen werden können. |
So installieren und nutzen Sie GoAccess
Um sicherzugehen, dass Sie die neueste Version von GoAccess installieren, sollten Sie die Installationsdatei von der offiziellen Website herunterladen. Über die Kommandozeile gelingen Download und Installation folgendermaßen:
$ wget http://tar.goaccess.io/goaccess-1.0.tar.gz
$ tar -xzvf goaccess-1.0.tar.gz
$ cd goaccess-1.0/
$ ./configure --enable-utf8
$ make
# make install
Vergessen Sie nicht, dass ncurses Voraussetzung für die Funktionalität des nginx- und Apache-Log-Analyzers ist und ebenfalls in der neuesten Version auf ihrem System installiert sein sollte. Falls noch nicht geschehen, können Sie die C-Bibliothek mit dem folgenden Code einrichten:
$ wget http://ftp.gnu.org/pub/gnu/ncurses/ncurses-5.7.tar.gz
$ tar xzf ncurses-6.0.tar.gz
$ cd ncurses-6.0
$ ./configure --prefix=/opt/ncurses
$ make
# make install
$ ls -la /opt/ncurses
Eine detaillierte Übersicht über die Konfigurationsmöglichkeiten des Logfile-Analyse-Tools erhalten Sie im englischsprachigen Handbuch.