Apache Spark est un cadre de calcul distribué open source qui est créé pour fournir des résultats de calcul plus rapides. Il s’agit d’un moteur de calcul en mémoire, ce qui signifie que les données seront traitées en mémoire.

Étincelle prend en charge diverses API pour le streaming, le traitement des graphiques, SQL, MLLib. Il prend également en charge Java, Python, Scala et R comme langages préférés. Spark est principalement installé dans Clusters Hadoop mais vous pouvez également installer et configurer Spark en mode autonome.

Dans cet article, nous verrons comment installer Apache Spark dans Debian et Ubuntudistributions basées sur.

Installez Java et Scala dans Ubuntu

À installer Apache Spark dans Ubuntu, vous devez avoir Java et Scala installé sur votre machine. La plupart des distributions modernes sont livrées avec Java installé par défaut et vous pouvez le vérifier à l’aide de la commande suivante.

$ java -version
Vérifier la version Java dans Ubuntu
Vérifier la version Java dans Ubuntu

Si aucune sortie, vous pouvez installer Java en utilisant notre article sur comment installer Java sur Ubuntu ou exécutez simplement les commandes suivantes pour installer Java sur les distributions basées sur Ubuntu et Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version
Installez Java dans Ubuntu
Installez Java dans Ubuntu

Ensuite, vous pouvez installer Scala à partir du référentiel apt en exécutant les commandes suivantes pour rechercher scala et l’installer.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package
Installez Scala dans Ubuntu
Installez Scala dans Ubuntu

Pour vérifier l’installation de Scala, exécutez la commande suivante.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Installez Apache Spark dans Ubuntu

Allez maintenant au fonctionnaire Page de téléchargement d’Apache Spark et récupérez la dernière version (c’est-à-dire 3.1.1) au moment de la rédaction de cet article. Vous pouvez également utiliser le commande wget pour télécharger le fichier directement dans le terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Ouvrez maintenant votre terminal et passez à l’emplacement de votre fichier téléchargé et exécutez la commande suivante pour extraire le fichier tar d’Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Enfin, déplacez le fichier extrait Étincelle répertoire vers /opter annuaire.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Configurer les variables d’environnement pour Spark

Vous devez maintenant définir quelques variables d’environnement dans votre .profil fichier avant de démarrer l’étincelle.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Pour vous assurer que ces nouvelles variables d’environnement sont accessibles dans le shell et disponibles pour Apache Spark, il est également obligatoire d’exécuter la commande suivante pour appliquer les modifications récentes.

$ source ~/.profile

Tous les binaires liés à Spark pour démarrer et arrêter les services sont sous le sbin dossier.

$ ls -l /opt/spark
Binaires Spark
Binaires Spark

Démarrez Apache Spark dans Ubuntu

Exécutez la commande suivante pour démarrer le Étincelle service maître et service esclave.

$ start-master.sh
$ start-workers.sh spark://localhost:7077
Démarrer le service Spark
Démarrer le service Spark

Une fois le service démarré, accédez au navigateur et saisissez la page d’étincelle d’accès URL suivante. À partir de la page, vous pouvez voir que mon service maître et esclave est démarré.

http://localhost:8080/
OR
http://127.0.0.1:8080
Page Web Spark
Page Web Spark

Vous pouvez également vérifier si étincelle fonctionne bien en lançant le étincelle commander.

$ spark-shell
Shell Spark
Shell Spark

Voilà pour cet article. Nous vous attraperons très bientôt avec un autre article intéressant.

Si vous appréciez ce que nous faisons ici sur TecMint, vous devriez considérer:

TecMint est le site communautaire à la croissance la plus rapide et le plus fiable pour tout type d’articles, guides et livres Linux sur le Web. Des millions de personnes visitent TecMint! pour rechercher ou parcourir les milliers d’articles publiés disponibles GRATUITEMENT à tous.

Si vous aimez ce que vous lisez, pensez à nous acheter un café (ou 2) en guise de remerciement.

Soutenez-nous

Nous sommes reconnaissants pour votre soutien sans fin.

.

Leave a Reply