DataFu a fost dezvoltat la LinkedIn și este scris în întregime în Java.
DataFu include funcții / biblioteci pentru lucrul cu:
- Statistici
- Estimare
- Eșantionarea
- Sesiuni
- analiza link-ul
- operatiile
- Genti
DataFu este perfect pentru extragerea datelor și a aplicațiilor statistice de lucru pe partea de sus a bazelor de date Hadoop sau de porc.
Aceste funcții permit dezvoltatorilor să profite pe deplin de toate datele stocate în interiorul unui Hadoop sau porc bază de date, fără a fi nevoie să se ocupe cu cerințe masive de sistem, în scopul de a face acest lucru.
Ce este nou în această versiune:.
- pereche de FDU pentru eșantionare aleatorie simplă cu înlocuire
- Mai multe dependențe acum ambalate în DataFu dependențe, astfel mai puține JAR este necesar.
- UDF SetDifference pentru calcul set diferență (de exemplu, A-B sau A-B-C).
Ce este nou în versiunea 1.2.0:
- Pereche de FDU pentru eșantionarea aleatorie simplă cu înlocuire.
- Mai multe dependențe acum ambalate în DataFu dependențe, astfel mai puține JAR este necesar.
- UDF SetDifference pentru calcul set diferență (de exemplu, A-B sau A-B-C).
Ce este nou în versiunea 1.1.0:.
- Adăugat SHA hash UDF
- InUDF și AssertUDF adăugat pentru porc 0,12 compatibilitate. Acestea sunt aceleași ca și în și Assert.
- SimpleRandomSample, care pune în aplicare un algoritm scalabil de eșantionare aleatorie simplă.
Comentariile nu a fost găsit