So richten Sie Spark unter Windows 10 ein: Eine vollständige Schritt-für-Schritt-Anleitung

Mal ehrlich: Die Installation von Apache Spark unter Windows 10 kann sich manchmal anfühlen, als würde man blind einen Zauberwürfel lösen. All die Umgebungsvariablen, Abhängigkeiten und Konfigurationsdateien lassen es viel komplizierter erscheinen, als es eigentlich ist. Aber mal ehrlich: Wenn Sie Schritt für Schritt vorgehen (und dabei vielleicht ein bisschen fluchen), läuft Spark lokal, ohne dass Sie sich die Haare raufen müssen. Dieser Prozess ist besonders nützlich, wenn Sie sich auf Ihrem privaten Rechner mit Big Data oder maschinellem Lernen beschäftigen und nur ein lokales Setup zum Experimentieren benötigen. Sobald Sie damit fertig sind, können Sie spark-shell ausführen und im Handumdrehen mit großen Datensätzen experimentieren.

So installieren Sie Spark in Windows 10

In diesem Abschnitt erfahren Sie, wie Sie Spark auf Ihrem Windows 10-Rechner zum Laufen bringen. Wahrscheinlich haben Sie Java bereits installiert oder sind beim Setzen von Umgebungsvariablen auf Fehler gestoßen. Hoffentlich klärt diese Anleitung einige Unklarheiten und erspart Ihnen einige Stunden Rätselraten. Sobald diese Schritte abgeschlossen sind, läuft Spark reibungslos und Sie können Befehle direkt in der Eingabeaufforderung oder in PowerShell eingeben. Schauen Sie sich anschließend auch einige Tutorials zur Spark-Datenverarbeitung an – sobald es funktioniert, macht es richtig süchtig.

Installieren Sie Java (der erste entscheidende Schritt)

Also, Java. Ja, Spark läuft auf Java, und das Komische ist, dass Sie das Java Development Kit (JDK) benötigen, nicht nur die Laufzeitumgebung. Oft laden Benutzer die falsche Version herunter oder vergessen, JAVA_HOME festzulegen. Um das zu vermeiden, gehen Sie auf die Oracle JDK-Downloadseite und laden Sie das neueste JDK 8 herunter, da dieses immer noch die beste Spark-Kompatibilität bietet. Nach der Installation legen Sie Ihre Umgebungsvariable fest, indem Sie zu Einstellungen > System > Info > Erweiterte Systemeinstellungen > Umgebungsvariablen gehen. Klicken Sie unter „Systemvariablen“ auf Neu und fügen Sie „JAVA_HOME“ hinzu, das auf Ihren Ordner C:\Programme\Java\jdk-version verweist. Aktualisieren Sie anschließend die Variable Pfad, indem Sie ;%JAVA_HOME%\bin anhängen – so sind Java-Befehle überall zugänglich. Bei manchen Setups benötigt dieser Schritt ein paar Versuche, bis er richtig funktioniert, aber wenn er einmal festgelegt ist, ist er ein Kinderspiel.

Spark herunterladen (der lustige Teil)

Besuchen Sie die Downloadseite von Apache Spark. Wählen Sie eine Version – wahrscheinlich die neueste stabile Version – und laden Sie das vorgefertigte Paket für Hadoop herunter. Da Spark auf Hadoop-Bibliotheken basiert, finden Sie Optionen wie „Vorgefertigt für Apache Hadoop 3.3“.Das ist für die meisten Windows-Konfigurationen die richtige Wahl. Entpacken Sie die ZIP-Datei nach dem Download in einen Ordner, in dem Sie häufig arbeiten, z. B.C:\spark. Dieser Ordner wird Ihr Spark-Basisverzeichnis. Benennen oder verschieben Sie ihn später nicht, da sonst Pfadprobleme auftreten.

Festlegen von Umgebungsvariablen für Spark und Hadoop (der lästige, aber notwendige Teil)

Hier kann Windows ein wenig störrisch werden. Gehen Sie wieder zu Einstellungen > System > Info > Erweiterte Systemeinstellungen > Umgebungsvariablen. Erstellen Sie eine neue Systemvariable namens SPARK_HOME, die direkt auf Ihr Spark-Verzeichnis verweist, beispielsweise C:\spark. Fügen Sie dann %SPARK_HOME%\bin zur Variable Path hinzu – das ist ganz einfach. Aber hier ist ein Trick: Manche Leute setzen HADOOP_HOME auch so, dass es auf eine Hadoop-Binärdatei verweist, die Sie separat abrufen müssen. Sie können so etwas wie die WinUtils-Binärdatei von einem Projekt wie Hadoop Windows-Binärdateien auf GitHub herunterladen – denn Windows möchte natürlich, dass Sie sich durch Reifen springen. Extrahieren Sie das in einen Ordner wie C:\hadoop und setzen Sie HADOOP_HOME entsprechend. Fügen Sie auch %HADOOP_HOME%\bin zu Ihrem Pfad hinzu. Auf diese Weise verursachen Hilfstools keine Fehler, wenn Sie Spark starten.

Installieren Sie Hadoop-Binärdateien (da Spark diese unter Windows benötigt)

Dieser Teil ist etwas merkwürdig – Hadoop ist hauptsächlich für Linux gedacht, aber die vorgefertigten Binärdateien funktionieren unter Windows einwandfrei, wenn Sie alles richtig einrichten. Laden Sie eine mit Ihrem Spark kompatible Version herunter – beispielsweise Hadoop 3.x – und legen Sie die Dateien „WinUtils.exe“ und „core-site.xml“ in Ihrem Hadoop-Ordner ab. Spark liest diese Konfigurationen aus Gründen der HDFS-Kompatibilität. Wenn Sie jedoch nur lokal arbeiten, ist es wichtig, die Binärdateien an Ort und Stelle zu haben, damit Spark nicht ausrastet. Außerdem hilft das Setzen der Umgebungsvariablen wie erwähnt Spark dabei, seine Hadoop-Abhängigkeiten problemlos zu finden.

Überprüfen Sie das Setup, indem Sie spark-shell ausführen

Dies ist der Moment der Wahrheit.Öffnen Sie die Eingabeaufforderung oder PowerShell und geben Sie ein spark-shell. An einem guten Tag sehen Sie, wie Spark initialisiert, einige Bibliotheken lädt und Ihnen anschließend eine Eingabeaufforderung wie scala> anzeigt. Sollten Sie Fehlermeldungen über fehlende Java- oder Klassenpfadprobleme erhalten, überprüfen Sie Ihre Umgebungsvariablen. Manchmal hilft ein Neustart des Terminals oder sogar Ihres PCs nach Änderungen. Nach einem erfolgreichen Start ist Spark grundsätzlich installiert und bereit für die Datenverarbeitung.

Bei manchen Setups kann der erste Durchlauf zu zahlreichen Fehlern führen oder das System hängen bleiben. Ein erneuter Durchlauf oder ein Neustart behebt das Problem jedoch in der Regel. Und ja, Windows macht es einem manchmal schwerer als nötig, aber Ausdauer zahlt sich aus.

Tipps zur Installation von Spark unter Windows 10

Bleiben Sie bei Java 8. Neuere Versionen können zu Kompatibilitätsproblemen führen.
Überprüfen Sie alle Umgebungsvariablen doppelt – Tippfehler verursachen seltsame Fehler.
Halten Sie Ihre Spark- und Hadoop-Verzeichnisse einfach – vermeiden Sie Leerzeichen oder Sonderzeichen.
Manchmal ist das Festlegen von HADOOP_HOME und das Aktualisieren Ihres Pfads komplizierter als nötig. Lassen Sie sich einfach Zeit.
Verwenden Sie zum schnellen Testen spark-shelldie Eingabeaufforderung, um zu bestätigen, dass alles funktioniert.

Häufig gestellte Fragen

Was ist Apache Spark?

Diese Open-Source-Engine kann große Datenmengen blitzschnell verarbeiten. Stellen Sie sie sich wie einen Turbo-Datenprozessor auf Steroiden vor.

Benötige ich Hadoop, um Spark unter Windows 10 auszuführen?

Ja, denn Spark nutzt Hadoop-Bibliotheken für bestimmte Funktionen. Selbst im lokalen Modus ist dies im Hintergrund erforderlich.

Kann ich Java 11 für Spark verwenden?

Es ist besser, bei Java 8 zu bleiben – sonst treten Kompatibilitätsprobleme auf. Der Aufwand lohnt sich nicht, wenn es nur funktionieren soll.

Woher weiß ich, ob Spark richtig installiert ist?

Wenn `spark-shell` ohne Fehler startet und Sie die Scala-Eingabeaufforderung sehen, ist alles in Ordnung. Spark scheint zu funktionieren.

Was passiert, wenn bei der Installation etwas schief geht?

Überprüfen Sie Ihre Umgebungsvariablen und Pfadeinstellungen dreifach. Stellen Sie außerdem sicher, dass Ihre Java- und Spark-Versionen übereinstimmen. Auf manchen Rechnern ist nach dem Setzen der Variablen ein Neustart erforderlich.

Zusammenfassung der Schritte

Installieren Sie Java JDK 8 und legen Sie die Umgebungsvariablen fest.
Laden Sie Spark herunter und extrahieren Sie es.
Legen Sie die Variablen SPARK_HOME und HADOOP_HOME zusammen mit Pfadaktualisierungen fest.
Laden Sie Hadoop-Binärdateien (wie WinUtils) herunter und legen Sie HADOOP_HOME fest.
Öffnen Sie die Eingabeaufforderung und testen Sie mit „spark-shell“.

Zusammenfassung

Dieser ganze Prozess mag mühsam erscheinen, insbesondere mit Umgebungsvariablen und Abhängigkeiten, aber sobald es klappt, ist es sehr lohnend. In einem Setup war die Ausführung von „spark-shell“ unkompliziert – in einem anderen musste ich etwas mehr tüfteln. Ich bin mir nicht sicher, warum es manchmal sofort funktioniert und manchmal nicht, aber ein Neustart oder die erneute Überprüfung der Pfade hilft normalerweise. Sobald Spark läuft, können Sie mit der Untersuchung von Datensätzen beginnen und vielleicht etwas in maschinelles Lernen eintauchen.