Apache Spark

Screenshot Software:
Apache Spark
Detalii soft:
Versiune: 1.6.0 Actualizat
Incarca data: 6 Mar 16
Licenţă: Gratuit
Popularitate: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark a fost proiectat pentru a îmbunătăți vitezele de procesare pentru programe de analiză a datelor și de manipulare.

Acesta a fost scris în Java și Scala și oferă caracteristici care nu se găsesc în alte sisteme, mai ales pentru că nu sunt de masă și nici că utile pentru aplicațiile de procesare non-date.

Spark a fost creat pentru prima dată la UC Berkeley AMP Lab, iar mai târziu a donat la Apache Software Foundation

Ce este nou în această versiune:.

  • Unified Memory Management. - memoria partajată pentru executarea și punerea în cache în loc de divizare exclusivă a regiunilor
  • Performanță Parchet - Îmbunătățirea performanței de scanare Parchet atunci când se utilizează scheme de plat
  • .
  • Îmbunătățirea Planificatorul de interogare pentru interogări cu agregări distincte -. Planurile de interogare ale agregări distincte sunt mai robuste atunci când coloane distincte au decardinalitate de mare
  • execuție interogare Adaptive -. Suportul initial pentru selectarea automată a numărului de reductoare pentru se alătură și agregări
  • Evitarea filtre duble Sursa de date API -. Atunci când punerea în aplicare a unei surse de date cu filtru pushdown, dezvoltatorii pot spune acum Spark SQL pentru a evita dubla evaluare a unui filtru împins în jos
  • Rapid-nul sigur se alătură - se alătură folosind egalitatea-nul în condiții de siguranță (& # x3c; = & # x3e;) va executa acum folosind SortMergeJoin in loc de calcularea unui produs cartisian
  • .
  • În memorie cache piloane Performance - semnificativă (până la 14x) accelera, atunci când cache de date care conține tipuri complexe în DataFrames sau SQL
  • .
  • SQL de execuție Utilizarea Off-Îngrămădește Memorie - Suport pentru configurarea de execuție interogare să aibă loc folosind memoria off-heap pentru a evita GC aeriene

Ce este nou în versiunea 1.5.2:

  • API-ul de bază suportă acum arbori de agregare multi-nivel pentru a ajuta la accelerarea scumpe reduce operațiile.
  • de raportare a erorilor îmbunătățită a fost adăugat pentru anumite operații gotcha.

  • dependență Jetty
  • Spark este acum umbrită pentru a ajuta la evitarea conflictelor cu programe de utilizator.
  • Spark acum suportă criptare SSL pentru anumite puncte finale de comunicare.
  • Valorile Realtime GC și a numărului de înregistrări au fost adăugate la UI.

Ce este nou în versiunea 1.4.0:

  • API-ul de bază suportă acum arbori de agregare multi-nivel pentru a ajuta la accelerarea scumpe reduce operațiile.
  • de raportare a erorilor îmbunătățită a fost adăugat pentru anumite operații gotcha.

  • dependență Jetty
  • Spark este acum umbrită pentru a ajuta la evitarea conflictelor cu programe de utilizator.
  • Spark acum suportă criptare SSL pentru anumite puncte finale de comunicare.
  • Valorile Realtime GC și a numărului de înregistrări au fost adăugate la UI.

Ce este nou în versiunea 1.2.0:

  • operatorul de sortare PySpark suportă acum deversând extern pentru seturi mari de date .
  • PySpark acum suportă variabile de transmisie mai mare de 2 GB si realizeaza prin varsare extern în timpul felul.
  • Spark adaugă o pagină la nivel de locuri de muncă progres în interfața de utilizare Spark, un API stabil pentru raportarea progresului și actualizarea dinamică a valorilor de ieșire ca și locuri de muncă completă.
  • Spark are acum suport pentru citirea fișierelor binare pentru imagini și alte formate binare.

Ce este nou în versiunea 1.0.0:

  • Această versiune se extinde bibliotecile standard de Spark, introducerea unui nou pachetul SQL (Spark SQL), care permite utilizatorilor să integreze interogări SQL în fluxurile de lucru Spark existente.
  • MLlib, biblioteca masina de învățare lui Spark, este extins cu suport vectorial rare și mai mulți algoritmi noi.

Ce este nou în versiunea 0.9.1:

  • Fixed hash coliziune bug în deversând extern
  • un conflict fix cu log4j Spark pentru utilizatorii care se bazează pe alte backend de exploatare forestieră
  • Fixed Graphx lipsesc din borcan de asamblare Spark în Maven construiește
  • eșecuri silențioase fixe datorate hartă starea de ieșire mai mare dimensiune Akka cadrului
  • dependență directă inutilă Spark eliminată pe ASM
  • Au fost eliminate valorile-ganglionul de default construi din cauza licenței de conflict LGPL
  • Fixed bug în distribuție care nu conțin tarball borcan de asamblare scânteie

Ce este nou în versiunea 0.8.0:

  • Dezvoltare a mutat la Fundația Apache Sowftware ca proiect incubator.

Ce este nou în versiunea 0.7.3:

  • Python performanță: Mecanismul Spark pentru reproducere Python VMs are a fost îmbunătățită pentru a face acest lucru mai repede atunci când JVM are o dimensiune mare morman, accelerând API-ul Python.
  • Mesos stabilește: JARs adăugat la locul de muncă va fi acum pe classpath atunci când deserializing rezultatele sarcinii în Mesos
  • .
  • raportare de eroare:. Eroare de raportare pentru o mai bună excepții non-serializabile și rezultate prea mari de sarcină
  • Exemple:. Adăugat un exemplu de prelucrare flux cu stateful updateStateByKey
  • Build:. Spark in direct nu mai depinde de repo Twitter4J, care ar trebui să permită să construiască în China
  • Remedii erori în foldByKey, streaming conta, metode de statistică, documentare și web UI.

Ce este nou în versiunea 0.7.2:.

  • Versiunea Scala actualizată la 2.9.3
  • Mai multe îmbunătățiri la Bagel, inclusiv corecții legate de performanță și un nivel de stocare configurabil.
  • Noi metode API:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, și altele
  • O nouă interfață valori de raportare, SparkListener, pentru a colecta informații despre fiecare etapă de calcul:. Lungimi de sarcini, bytes amestecate, etc
  • Mai multe exemple noi folosind API-ul Java, inclusiv K-mijloace și pi de calcul.

Ce este nou în versiunea 0.7.0:

  • Spark 0.7 adaugă un API Python numit PySpark <. / li>
  • locuri de muncă Spark lansa acum un tablou de bord web pentru monitorizarea utilizarea memoriei fiecărui set de date distribuite (RDD) în program.
  • Spark acum poate fi construit folosind Maven, în plus față de SBT.

Ce este nou în versiunea 0.6.1:

  • fix mesaj prea agresiv caderile, care ar putea provoca lucrătorilor deconectați de la cluster-ul.
  • Fixed un bug în modul de deploy independent, care nu a expune la planificator HOST-urile, care afectează localitatea HDFS.
  • reutilizarea conexiune îmbunătățită în Shuffle, care poate accelera foarte mult până mici shuffles.
  • fixe unele blocaje potențiale în managerul de bloc.
  • Fixed un bug obtinerea ID-uri de gazde eșuate din Mesos.
  • Mai multe îmbunătățiri de script EC2, cum ar fi o mai bună manipulare a cazurilor la fața locului.
  • Made adresa IP locală, care Spark se leaga de personalizabil.
  • Suport pentru Hadoop 2 distribuții.
  • Suport pentru localizarea Scala pe distribuții Debian.

Ce este nou în versiunea 0.6.0:.

  • desfășurare Simpler
  • Spark documentație a fost extins cu un nou ghid de pornire rapidă, instrucțiuni suplimentare de implementare, ghid de configurare, ghid de tuning, și documentația îmbunătățită Scaladoc API.
  • Un nou manager de comunicare folosind asincrone Java NIO execută operații de amestecare a alerga mai repede, mai ales atunci când trimit cantități mari de date sau atunci când au locuri de muncă mai multe sarcini.
  • Un nou manager de stocare acceptă per setări la nivel de stocare de date CCD (de exemplu, dacă pentru a păstra setul de date în memorie, deserialized, pe disc, etc, sau chiar replicat pe întreaga noduri).
  • depanare îmbunătățită.

Alte software-uri de dezvoltator Apache Software Foundation

Apache Ivy
Apache Ivy

1 Mar 15

Apache Deltacloud
Apache Deltacloud

13 Apr 15

Apache Turbine
Apache Turbine

9 Feb 16

Apache CloudStack
Apache CloudStack

10 Feb 16

Comentarii la Apache Spark

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!