mrjob

Screenshot Software:
mrjob
Detalii soft:
Versiune: 0.4
Incarca data: 20 Feb 15
Producător: David Marin
Licenţă: Gratuit
Popularitate: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob este un modul Python care vă ajută să scrie și să rulați de locuri de muncă Hadoop Streaming.
mrjob sprijină pe deplin serviciu Amazon Elastic MapReduce (EMR), care vă permite să cumpere timp pe un cluster Hadoop pe oră. De asemenea, funcționează cu propriul grup Hadoop.
Instalare:
python setup.py instalare
Configurarea EMR pe Amazon
& Nbsp; * crea un Amazon Web Services cont: http://aws.amazon.com/
& Nbsp; * înregistrați-vă pentru Elastic MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Obțineți acces si chei secrete (du-te la http://aws.amazon.com/account/ și faceți clic pe "Atestări securitate") și a stabilit variabilele de mediu $ AWS_ACCESS_KEY_ID și $ AWS_SECRET_ACCESS_KEY în consecință

Încercați-l!

# Local
python mrjob / exemple / mr_word_freq_count.py README.md> contează
# Pe EMR
python mrjob / exemple / mr_word_freq_count.py README.md -r EMR> contează
# Pe cluster Hadoop
python mrjob / exemple / mr_word_freq_count.py README.md -r Hadoop> contează
Configurarea Avansată
Pentru a rula în alte regiuni AWS, încărcați arborele sursă, marca a alerga, și de a folosi alte caracteristici avansate mrjob, va trebui să configurați mrjob.conf. mrjob caută dosarul său conf în:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf oriunde în $ PYTHONPATH ta
& Nbsp; * /etc/mrjob.conf
Vezi mrjob.conf.example pentru mai multe informații

Caracteristici :.

  • locuri de muncă rula pe EMR, propriul grup Hadoop, sau la nivel local (pentru testare).
  • Scrie locuri de muncă mai multe etape (o hartă-reduce pas se încarcă în următorul)
  • Duplicate mediul dumneavoastră de producție în interiorul Hadoop
  • Încărcați arborele sursă și pune-l la locul de munca lui $ PYTHONPATH
  • make Run și alte configurare scripturi
  • variabile Set de mediu (de exemplu, $ TZ)
  • instala poarta pachete Python de la tar (EMR numai)
  • Configurare gestionate în mod transparent de fișier mrjob.conf config
  • interpreta în mod automat busteni de eroare de la EMR
  • tunel SSH la tracker de locuri de muncă Hadoop pe EMR
  • configurare minimală
  • Pentru a rula pe EMR, setați $ AWS_ACCESS_KEY_ID și $ AWS_SECRET_ACCESS_KEY
  • Pentru a rula pe cluster Hadoop, setați $ HADOOP_HOME

Cerințe :

  • Python

Software similare

Open MPI
Open MPI

17 Feb 15

Son of Grid Engine
Son of Grid Engine

19 Feb 15

TrueCL
TrueCL

20 Feb 15

Alte software-uri de dezvoltator David Marin

doloop
doloop

11 May 15

Comentarii la mrjob

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!