DataCleaner

Screenshot Software:
DataCleaner
Detalii soft:
Versiune: 4.0.9
Incarca data: 11 Apr 16
Producător: -
Licenţă: Gratuit
Popularitate: 17

Rating: nan/5 (Total Votes: 0)

DataCleaner este o sursă deschisă și soluție complet gratuit pentru organizațiile și întreprinderile care doresc să crească și să măsoare calitatea datelor lor.

Cu DataCleaner, utilizatorii vor putea profil, compara, validarea datelor împotriva regulilor de afaceri, și să monitorizeze progresul acestor măsurători în timp.

PRINTRE caracteristicile sale, putem menționa monitorizarea datelor, crearea de profiluri și analiza datelor DQ, curățarea datelor și de îmbogățire, de a detecta și de îmbinare duplicate, calitatea datelor de client, precum și ETLightweight super-rapid (Extract-Transform-Load).

Pentru a afla mai multe despre funcțiile și capabilitățile DataCleaner, precum și modul de a lucra cu ea, vă rugăm să consultați http://eobjects.dk/docs

What este nou în această versiune:

  • Îmbunătățiri și noi caracteristici:
  • Ne-am făcut posibil să se creeze și drop tabele prin interfața cu utilizatorul desktop DataCleaner. Rețineți că termenul quot; tabel & quot; aici acoperă de fapt, mai mult decât tabelele bazei de date doar relaționale. Aceasta include, de asemenea, foi în datastores MS Excel, Colecții în MongoDB, Tipuri de documente în CouchDB și ElasticSearch și așa mai departe ... Practic toate tipurile de Datastore care acceptă scrie-operațiuni, cu excepția datastores o singură masă, cum ar fi datastores CSV, acceptă această funcționalitate! Funcționalitatea este expusă prin:
  • & quot; Creați tabel & quot; activat prin intermediul meniului-clic dreapta schemelor în copac de pe partea stângă a aplicației.
  • & quot; Creați tabel & quot; activat, de asemenea, prin intrările de masă de selecție în componente, cum ar fi inserări în tabel, tabel de căutare și tabelul de actualizare.
  • & quot; picătură de masă & quot; activat prin intermediul meniului clic dreapta tabelelor din copac de pe partea stângă a aplicației.
  • Am adăugat (opțional) capacitatea de a specifica servicii de web Salesforce.com Endpoint URL. Acest lucru vă permite să utilizați DataCleaner pentru a se conecta la mediul sandbox de Salesforce.com precum și la propriile obiective personalizate.
  • Suportul ElasticSearch a fost îmbunătățită, permițând mapări personalizate precum și reutilizarea definițiile Datastore ElasticSearch acum, de asemenea, pentru căutarea și indexare.
  • Eșantionarea înregistrărilor și selectarea potențialelor duplicate în funcția de detectare duplicat a fost îmbunătățită, ceea ce duce la configurarea mai rapid, deoarece deciziile luate în timpul sesiunii de formare sunt mai reprezentative.
  • Formatul de fișier Modelul de detectare duplicat a fost actualizat, care a eliminat necesitatea unui fișier separat "de referință", în scopul de a salva deciziile de formare anterioare. Compatibilitatea cu formatul vechi a fost reținut, dar folosind noul format adaugă multe beneficii pentru experiența utilizatorului.
  • Remedieri de erori:
  • O problemă fir de înfometare a fost fixată în DataCleaner monitor. Impactul acestei probleme a fost mare, dar sa întâmplat numai în cazuri rare și foarte personalizate. În cazul în care ascultător personalizat obiecte de pe monitorul DataCleaner ar arunca o eroare, ar rezulta într-o resursă niciodată nu a fost eliberat și a lua un fir de la piscina Quartz-programare pe server. În cazul în care acest lucru s-ar întâmpla de multe ori pe server ar putea rula în cele din urmă din fire în acea piscină.
  • Meniul vertical de pe ecran rezultatul este de a face acum un loc de muncă adecvat de afișare a etichetelor componentelor care au rezultate. Acest lucru face mai ușor de recunoscut, care puncte element de meniu pentru ce element rezultat.

Ce este nou în versiunea 3.5.5:

  • Transformarea 'căutare Sinonim' are acum o opțiune să se uite în sus în fiecare semn de intrare. Acest lucru este util dacă faci înlocuirea sinonime în cadrul valorilor unui câmp text lung.
  • Blocarea executarea de locuri de muncă DataCleaner prin intermediul serviciului web al monitorului pentru aceasta ar putea eșua, uneori, cu un bug cauzat de firul de blocare. Această problemă a fost stabilită.
  • O îmbunătățire a fost făcută în modul în care locurile de muncă și secvența componentelor sunt închise / curățate după executarea.
  • Versiunea JNLP / Java WebStart de DataCleaner a fost expus de o eroare în Java runtime care cauzează anumite fișiere JAR să nu fie recunoscute de către lansator WebStart, în anumite circumstanțe. Această problemă a fost stabilită prin ușoare modificări ale acestor fișiere JAR.
  • Cateva link-uri moarte în documentația a fost stabilită.

Ce este nou în versiunea 3.5.4:

  • Este posibil acum să se ascundă coloanele de ieșire ale transformărilor . Ascunzându nu va afecta fluxul de prelucrare la toate, ci pur și simplu le ascunde de la interfața cu utilizatorul, și, prin urmare, ar putea face experiența mai curat, atunci când interacționează cu alte componente.
  • Un nou serviciu web a fost adăugat la cererea de monitorizare web, care oferă o modalitate de sondaj statutul executării unui anumit loc de muncă.
  • Un bug a fost stabilit, cauzand raportul HTML pentru a eșua pentru anumite tipuri de analize, atunci când nu exista rezultate au fost prelucrate.
  • și alte 6 bug minor a fost ADRESATE.

Ce este nou în versiunea 3.5.1:

  • Captură modificat înregistrările:
  • S-a adăugat un nou filtru pentru a permite prelucrarea incrementală a înregistrărilor care nu au fost prelucrate anterior, de exemplu pentru profilare sau copierea înregistrărilor modificate numai. Numele noilor filtre este Capture modificat înregistrările, referindu-se la conceptul de captare de modificare a datelor.
  • executare Queued de locuri de muncă:
  • Monitorul DataCleaner va stau la coadă acum executarea aceluiași loc de muncă, în cazul în care este declanșat de mai multe ori. Acest lucru asigură că nu executați accidental în același loc de muncă în același timp, care ar putea duce la tot felul de probleme, în funcție de ceea ce face treaba.
  • bugfix minore:
  • Mai multe bugfixes a fost pus în aplicare.

Ce este nou în versiunea 3.5:

  • Mai multe experți sunt acum disponibile pentru înregistrarea datastores; inclusiv fișierul-upload la server pentru fișiere CSV, intrare conexiune bază de date, înregistrarea ghidată de acreditări Salesforce.com și mai mult.
  • Asistentii de constructii de locuri de muncă au fost, de asemenea, extinse cu mai multe caracteristici îmbunătățite; Selecția de distribuție de valoare și de model de a găsi câmpuri în Quick expertul de analiză, un sistem complet nou pentru a crea expertul EasyDQ pe bază de client de curățare de locuri de muncă și un nou program asistent de locuri de muncă pentru arderea de locuri de muncă Pentaho Data Integration (citeste mai jos).
  • Acum puteți ad-hoc de interogare orice direct în datastore interfața cu utilizatorul web. Acest lucru face mai ușor pentru a obține informații rapide sau sporadice în date, fără a stabili locuri de munca sau alte abordări gestionate de prelucrare a datelor.
  • Odată ce sunt create locuri de muncă sau datastores, utilizatorul este îndrumat să ia măsuri cu obiectul nou construit. De exemplu, puteți rula foarte repede un loc de muncă imediat după ce este construit, sau interoga după datastore este înregistrată.
  • Administratorii pot încărca acum direct de locuri de muncă la magazia, care este deosebit de util dacă doriți să mână edita conținutul XML al fișierelor de locuri de muncă.
  • O mulțime de cruft tehnice este acum ascuns în favoarea de a arăta dialoguri simple. De exemplu, atunci când un loc de muncă se declanșează un indicator de încărcare mare este afișat, iar atunci când a terminat rezultatul va fi afișat. Ecranul avansat de logare, care a fost anterior nu pot fi încă afișate pe clic pe un link pentru detalii suplimentare.

Ce este nou în versiunea 3.1.2:

  • Am adăugat un serviciu web în monitorizarea cerere pentru obținerea unei (listă a) valori metrice. Acest lucru face ca monitorizarea chiar și mai ușor de utilizat ca o componentă cheie de infrastructură, ca modalitate de monitorizare a datelor (calitate) și de a expune rezultatele la aplicații terțe părți.
  • Componenta "tabel de căutare" a fost îmbunătățită prin adăugarea de semantica alătura ca o proprietate configurabil. Folosind se alăture semantica vă puteți optimiza dacă doriți ca de căutare pentru a lucra ca un semantically LEFT JOIN sau un element interior JOIN.
  • Componentele EasyDQ au fost modernizate, adăugând opțiuni de configurare suplimentare și o interfață mai bogată rezultat deduplicare.
  • îmbunătățiri de performanță au fost un accent specific acestui comunicat. Au fost realizate îmbunătățiri în motorul de DataCleaner să utilizeze în continuare o abordare de streaming de prelucrare, în anumite cazuri, de colț, care nu a fost acoperit anterior.

Ce este nou în versiunea 3.1.1:

  • Data și opțiunile de analiză referitoare la timp au fost extinse , adăugând analizoare de distribuție pentru numere de săptămână, luni și ani. Toate analizoarele legate de data și ora sunt acum grupate într-un submeniu numit & quot; Data și ora & quot; & quot; Analizeaza & quot;.
  • Un opțional & quot; & quot statistici descriptive; opțiune a fost adăugată la analizor Numărul și analizorul Data / ora. Această opțiune adaugă valori suplimentare la rezultatele acestor analizoare, cum ar fi mediană, Skewness, percentilele și kurtotica. Aceste valori sunt opționale, deoarece amprenta lor de memorie este oarecum mai mare decât valorile existente.
  • Liniile in topurile de cronologie ale aplicatiei web de monitorizare au acum mici puncte în ele. Acest lucru este util mai ales pentru diagrame cu puține (sau chiar numai unul) observații în ele. - Să arate exact în cazul în care punctele de observație sunt
  • Parserul de interogare când se invocă interogări ad-hoc au fost de asemenea îmbunătățit în mod substanțial. Acum interogări pot conține clauze distincte, * -wildcards, subinterogari și sunt tolerante la erori față de problemele de text la caz.
  • Două transformatoare noi au fost adăugate pentru a genera UUID și pentru generarea de amprente de timp.

Ce este nou în versiunea 3.1:

  • formule metrice - elaborate de date de calitate KPI:
  • Este posibil acum să construiască mult mai elaborate Datele de calitate KPIs in aplicatia web de monitorizare a DataCleaner lui. Interfața cu utilizatorul vă permite să construiască formule complexe într-o formulă de stil foaie de calcul cum ar fi; folosind variabilele colectate de locuri de muncă DataCleaner.
  • formule metrice pot combina orice număr de unități de măsură, constante și operații, atâta timp cât acesta poate fi exprimat într-o ecuație matematică.
  • De exemplu, - măsura rata de înregistrări duplicate în procente din numărul total de înregistrare. Sau pentru a măsura cantitatea de coduri de produse care sunt conforme cu un set de modele string multiple.
  • Ad-hoc interogari - de orice datastore:
  • Cu DataCleaner 3.1 puteți efectua acum interogări ad-hoc pentru orice datastore! Interogările pot fi exprimate în SQL simplu și va fi aplicată bazelor de date precum și fișiere, baze de date NoSQL și mai mult, oferind un mecanism de interogare cu adevărat util să se extindă în experiența dumneavoastră descoperire și date de profile.
  • Opțiunea de interogare este de asemenea disponibil prin intermediul unui serviciu web pentru monitorizarea utilizatorilor cu rolul ADMIN. Interogarea este furnizat ca un parametru HTTP sau organism POST, iar rezultatul este furnizat ca un tabel XHTML.
  • Valoarea Matcher - o nouă opțiune de analiză:
  • De multe ori ai o idee fermă cu privire la care ar trebui să li se permită și de așteptat pentru un anumit domeniu de valori. În DataCleaner acolo a fost întotdeauna opțiunea de analiză a valorii de distribuție, care ar ajuta să vă afirma presupunerile. În DataCleaner 3.1, deși, aveți o jertfă mai precisă - pentru matcher Value. Această opțiune de analiză vă permite să specificați un set de valori așteptate și apoi efectuați o distribuție de valoare cum ar fi analiza, în mod specific pentru a valida și a identifica valorile neașteptate.
  • Copierea, ștergerea și gestionarea de locuri de muncă:
  • Managementul locurilor de muncă și a rezultatelor în aplicația de monitorizare DataCleaner a fost îmbunătățit foarte mult. Acum aveți posibilitatea să faceți clic pe un loc de muncă în pagina Programare a monitorului și găsi opțiuni de gestionare disponibile pentru operațiuni, cum ar fi redenumirea, copierea, ștergerea și multe altele. Fiecare operațiune respectă legăturile cu alte artefacte din monitor, cum ar fi rezultatele analizelor, programe și multe altele. Acest lucru înseamnă că gestionarea registrului central de monitorizare a devenit mult mai ușor și matur.
  • Gestionați istoricul calității datelor:
  • Uneori vă confruntați cu situații în care de fapt, doriți să faceți o monitorizare cu date istorice! S-ar putea să fie că aveți gropi de istorice sau copii de rezervă ale bazelor de date, pe care doriți să le afișați și spune povestea. Acum puteți face analiza acestor date istorice, încărcați-l la monitorul DataCleaner, și folosind un nou serviciu web, un set de date istorice ale acelui anumit rezultat al analizei. Acest lucru înseamnă că termenele vor complot în mod adecvat rezultatele folosind data la care au dorit, dar cu rezultatele pe care le-ați colectat, poate, la un moment ulterior în timp.
  • sprijin programator grupată (numai EE):
  • Programatorul de DataCleaner monitor a fost exteriorizată, astfel încât să poată fi înlocuit cu mijloacele de configurare simplă. În Enterprise Edition (EE) din DataCleaner, noi oferim un planificator pus în cluster, oferind posibilitatea de a încărca și distribui echilibru execuțiile dumneavoastră pe un grup de mașini.
  • Single-signon (OSN) folosind CAS (EE numai):
  • În Enterprise Edition (EE) din DataCleaner noi oferim acum o singură opțiune-signon pentru aplicația de monitorizare. Acum DataCleaner poate fi o parte integrantă a infrastructurii IT, de asemenea, de securitate înțelept.
  • ... Și mult mai mult:
  • Cele de mai sus este doar un rezumat. Mai mult de treizeci de probleme au fost rezolvate în această versiune. Am rezolvat mai multe cereri de la forumuri și comunitate, și îi încurajăm pe toți să folosească acest mediu ca un vehicul pentru schimbare. Suntem foarte fericiți pentru a face dezvoltarea DataCleaner să fie puternic influențate de fluxurile din comunitate.

Ce este nou în versiunea 3.0.3:

  • Adaugă un serviciu pentru redenumirea de locuri de muncă în magazia de monitorizare .
  • Puteți accesa acest lucru ca un serviciu Web RESTful sau interactiv în interfața de utilizare.
  • S-a adăugat un serviciu Web pentru modificarea datei istorică a unui rezultat al analizei în magazia de monitorizare.
  • Aplicația web a fost făcută compatibilă cu containere moștenire JSF.
  • Caching de configurare în aplicația web a fost mult îmbunătățită, ceea ce duce la pagina de ori mai rapid de încărcare și de inițializare de locuri de muncă.

Ce este nou în versiunea 3.0.2:

  • Când declanșând un loc de muncă în aplicația web de monitorizare, panoul de auto-reîmprospătează în fiecare secundă pentru a obține cele mai recente starea de execuție.
  • datastores bazate pe fișiere (cum ar fi CSV sau Excel foi de calcul) cu căi absolute sunt acum rezolvate corect în aplicația de monitorizare web.
  • & quot; Selectați din valoarea cheii Harta & quot /; transformator suportă acum expresii selectați imbricate, cum ar fi & quot; Address.Street & quot; sau & quot; OrderLines [0] .product.name & quot;.
  • Mecanismul de tabel de căutare au fost optimizate pentru performanță, folosind declarații pregătite atunci când rulează împotriva bazelor de date JDBC.
  • Administratorii pot descărca acum datastores bazate pe fișiere direct de la & quot; Datastores & quot; pagina.
  • Excepție de manipulare în aplicația de monitorizare web a fost îmbunătățit un pic, ceea ce face mesaje de eroare mai precis și intuitiv.

Ce este nou în versiunea 3.0.1:

  • bugfix primar în această versiune a fost referitoare la restaurarea cartografierea coloanelor și categorisiri enumerable specifice. De exemplu, în noul analizor completitudine, am constatat că, după reîncărcarea unui loc de muncă salvată, cartografierea nu a fost întotdeauna corectă.
  • De asemenea s-au făcut câteva îmbunătățiri interne, ceea ce face mai ușor de implementat aplicația web monitorului DataCleaner în medii cu ajutorul cadrului de primăvară.
  • În sfârșit, dar cel puțin nu, setările de vizualizare în aplicația desktop au fost îmbunătățite prin luarea în mod automat o privire la locul de muncă fiind vizualizată și basculând afișate artefacte în funcție de dimensiunea ecranului și cantitatea de detalii necesare pentru a arăta frumos.

Ce este nou în versiunea 3.0:

  • Afișarea cronologie și a tendințelor de valori de calitate a datelor
  • depozit centralizat de gestionare pentru și care conțin locuri de muncă, rezultate, termene etc.
  • Programare și auditarea de locuri de muncă DataCleaner
  • Furnizarea de servicii web pentru invocarea transformărilor DataCleaner
  • Securitate și multi-închiriere
  • Alerte și notificări atunci când măsurătorile de calitate a datelor sunt în afara zonelor lor de confort așteptate.
  • Există un nou analizor completitudine, care este foarte util pentru simpla identificare a înregistrărilor care au câmpuri incomplete.
  • Acum puteți exporta DataCleaner rezultate la aspect frumos HTML rapoarte pe care le poate da managerului, sau trimite la parser XML!
  • Noul mediu de monitorizare este strâns integrat cu aplicația pentru desktop. Astfel, aplicatia desktop are acum posibilitatea de a publica locuri de muncă și a rezultatelor la magazia monitorului, și să fie folosit ca editor interactiv pentru conținut deja în depozit.
  • Noile transformări orientate spre data sunt acum disponibile: filtru Interval, care vă permite să subset de seturi de date bazate pe intervale de date, precum și data format, care permite să formatați o dată utilizând o mască de dată
  • .
  • regex Parser (care a fost anterior disponibile doar prin ExtensionSwap) a fost acum inclusă în DataCleaner. Acest lucru face foarte convenabil pentru a analiza și standardizarea câmpurilor de text bogat folosind expresii regulate.
  • Există un caz nou transformator de text disponibil. Cu această transformare puteți converti cu ușurință între litere majuscule / minuscule și valorificarea corespunzătoare a fraze și cuvinte.

  • au fost adăugate
  • Două căutare nouă / înlocuire transformări:. căutare simplă / înlocuire și căutare Regex / înlocui
  • Experiența de utilizare a aplicației pentru desktop a fost îmbunătățită. Am adăugat mai multe mesaje de ajutor în aplicație, a făcut culorile mai luminoase și mai clare și îmbunătățite de manipulare a fontului.

Ce este nou în versiunea 2.5.2:

  • suport Apache CouchDB:
  • Am adăugat suport pentru baza de date NoSQL Apache CouchDB. DataCleaner suportă atât citirea din, analiza și scrierea la instanțe CouchDB.
  • scriitor tabel de actualizare:
  • Ca urmare a eforturilor noastre anterioare de a aduce caracteristici stil ETLightweight în DataCleaner, am adăugat un scriitor care actualizează înregistrări într-un tabel. Aveți posibilitatea să utilizați acest exemplu pentru a insera sau actualiza înregistrările pe baza unor condiții specifice.
  • La fel ca insert în scriitor de masă, noul scriitor tabel DataCleaner actualizare nu este limitată la bazele de date bazate pe SQL, dar orice tip de datastore care acceptă scris (în prezent baze de date relaționale, fișiere CSV, foi de calcul Excel, baze de date MongoDB și baze de date MongoDB), dar semantica sunt aceleași ca și cu o declarație tradițională UPDATE TABLE în SQL.
  • Burghiu-to-detaliu informațiile salvate în fișierele rezultate:
  • Atunci când utilizați caracteristica rezultat Salvare de DataCleaner 2.5, unii utilizatori cu experiență că lor de foraj la detaliu de informații a fost pierdut. În DataCleaner 2.5.2 acum vom persista, de asemenea, aceste informații, făcând arhivele DQ mult mai valoros atunci când investighează incidentele de date istorice.
  • îmbunătățită de eroare de manipulare EasyDQ:
  • Componentele EasyDQ au fost îmbunătățite în ceea ce privește tratarea erorilor. În cazul în care o problemă de rețea de moment se produce sau o altă problemă similară cauzează câteva înregistrări să eșueze, componentele EasyDQ vor fi acum cu grație recupera și cel mai important. - Munca de lot va prevala, chiar și în ciuda erorilor
  • Tabel de mapare pentru datastores NoSQL:
  • Deoarece CouchDB și MongoDB nu sunt de masă pe bază, dar au o structură mai dinamică va punem la dispozitie doua abordari pentru a lucra cu ei: Implicit, care este de a lasa DataCleaner autodetecția o structură de tabel și avansate, care vă permite să specificați manual dvs. de structura de masă dorită. Anterior, opțiunea avansată a fost disponibilă numai prin configurare XML, dar acum interfața cu utilizatorul conține dialoguri potrivite pentru a face acest lucru direct în aplicație.

Ce este nou în versiunea 2.4.1:

  • îmbunătățiri ale caracteristicilor:
  • Caracteristici Lot de încărcare suntem mult îmbunătățite atunci când scrierea de date pentru tabelele bazei de date. Asteptati-va pentru a vedea mai multe ordine de magnitudine îmbunătățiri aici.
  • Scrierea datelor a fost făcută în mod mai convenabil la dispoziție, prin adăugarea opțiunilor pentru meniul ferestrei.
  • Acum puteți redenumi cu ușurință componentele unui loc de muncă prin dublu clic pe filele lor.
  • Javascript transformator are acum colorat sintaxă, astfel încât Javascripts dvs. sunt mai ușor de a inspecta și de a modifica.
  • Remedieri de erori:
  • Când citirea și scrierea de la aceeași depozitul de date (de exemplu. În zona de așteptare DataCleaner) ne-am asigurat că cache-ul tabel cu care este datastore odihnit. Anterior, unele scenarii permis să vedeți o imagine inactual a tabelelor.
  • Un impas potențial la pornirea aplicației a fost rezolvată. Acest blocaj a fost o consecință a unei probleme în JVM, dar am lucrat în jurul acestuia prin sincronizarea tuturor apelurilor la API special în Java.

Ce este nou în versiunea 2.4: (. Aka deduplicare sau potrivirea fuzzy a înregistrărilor)

  • Duplicate de detectare , care este liber să utilizeze pentru până la 500.000 de valori.
  • de validare a datelor de adrese și curățare. Acest lucru vă permite să verificați dacă există adrese, în cazul în care acestea sunt formatate corect și chiar să sugereze corecții în cazul în care aveți greșeli.
  • de validare a datelor Denumirea și curățare. Cu serviciul Name, EasyDQ nu numai că formatați numele dumneavoastră în mod constant, dar, de asemenea, verifică ortografierea și interpretează piesele nume.
  • E-mail și de validare telefon și curățare. Aceste servicii asigură verificarea datelor de e-mail și telefon, asigurându-vă că domeniile de e-mail există, că codurile de țară sunt corecte și multe altele.

Ce este nou în versiunea 2.3:

  • Sprijinul internațional de date:
  • Dacă lucrați cu date internaționale, atunci s-ar putea avea diferite seturi de caractere în datele dvs., de exemplu, chineză sau ebraică. Am adăugat analizorul de distribuție set de caractere, care este o opțiune de profile care vă permite să dau seama care seturi de caractere sunt utilizate în datele dumneavoastră.
  • Lucrul cu date care conțin diferite seturi de caractere poate fi problematică. Cu ajutorul noului transformator transcrie acum puteți transcrie siruri de caractere de la diferite sisteme de scriere cu caractere latine.
  • Există, de asemenea, o nouă demonstrație webcast, concentrându-se pe capacitățile de date internaționale ale DataCleaner 2.3 în secțiunea de documentație.
  • Gruparea rezultatelor analizei printr-o coloană secundară:
  • Analizorul model este acum capabil de a modelelor de grup bazate pe o coloană secundară. Acest lucru este util pentru analize cum ar fi:
  • Obțineți modele de numere de telefon, grupate în funcție de țară.
  • Ia modele de e-mail bazat pe numele de utilizator de domeniu de e-mail.
  • Ceva similar a fost făcut pentru analizor valoarea de distribuție; acest lucru permite analize cum ar fi:
  • Sunt toate numele orașelor distincte, atunci când grupate în funcție de codul poștal?
  • Care este distribuția de gen în cadrul anumitor tipuri de clienți?
  • diagrame îmbunătățite:
  • Rezultatele Pattern Finder poate fi afișat acum într-o diagramă. Acest lucru face vizibil distribuția și arată cât de mult de un & quot; coada lunga & quot; de modele există.
  • Ieșirea analizorului de distribuție de valoare a fost îmbunătățită în câteva domenii:
  • lizibilitatea diagramei a fost îmbunătățită.
  • Acesta indică numărul total de rânduri și numărul distinct față de aceste rânduri: numărul de valori diferite care există în rândurile. Acest lucru ajută în imaginind cât de des există valori duplicate.
  • Dacă există șiruri goale, folosim cuvântul cheie pentru ea, astfel încât este mai ușor să le recunoască.
  • Ieșire:
  • Pe lângă formatele deja existente de ieșire (fișierele CSV și datastores H2) am adăugat scris de ieșire pentru foi de calcul Excel.
  • După ce a scris la un datastore, este posibil acum previzualizarea de ieșire, astfel încât să puteți verifica dacă ieșirea este în conformitate cu așteptările dumneavoastră.
  • Acum este posibil să se adauge ieșire ca un nou datastore, astfel încât să poată fi folosită ca intrare pentru un nou loc de muncă.
  • Alte îmbunătățiri:
  • Documentația a fost, în general îmbunătățită. În special, s-au adăugat logare și interfață linie de comandă descrieri.
  • Mecanismul de extindere a fost îmbunătățită prin modularizing mai multe piese ale cererii și introducerea Google Guice ca un cadru de injecție de dependență, în general, disponibil pentru dezvoltatorii de extensii.
  • Și, desigur, am făcut mai mult de douăzeci de mici îmbunătățiri și bug fixat.

Ce este nou în versiunea 2.2:

  • Principalul factor pentru această versiune a fost o poveste despre extensibilitate . În timp ce eliberarea aplicației noi eliberăm un site web un acesteia simultan nou DataCleaner, care are un domeniu important nou: ExtensionSwap. Ideea ExtensionSwap este de a permite partajarea de extensii pentru DataCleaner și instalare, pur și simplu făcând clic pe un buton în browser-ul!
  • DataCleaner extensie API a fost îmbunătățit foarte mult în această versiune, ceea ce face posibil pentru a crea propriile transformatoare, analizoare și filtre. În cazul în care vă simțiți extensiile ar putea fi de interes pentru alți utilizatori, vă rugăm să-l împărtășească pe ExtensionSwap și va punem la dispozitie un canal pentru tine să-l distribui cu ușurință la mii de utilizatori. API-ul de extensie și ExtensionSwap este explicată în continuare în noua noastră demonstrație pentru webcast dezvoltatori și alte Iubitorii de tehnică, cu un interes.
  • eliberați, de asemenea, un set de extensii initiale pe ExtensionSwap: The HIquality Contacte pentru extensia DataCleaner care prevede Nume avansate, telefon și e-mail de curățare, bazată pe deducții uman limbaj natural servicii web prelucrare DQ. De asemenea, de transport maritim o extensie de probă, care va servi drept exemplu pentru dezvoltatorii care doresc să încerce dezvoltarea extensie ei înșiși. În lunile următoare ne vom asigura pentru a posta chiar mai multe extensii care provin din portofoliul nostru intern de instrumente pe care le folosim la colectarea de cunoștințe echipe umane inferență lui.
  • În plus față de extensibilitate suntem, de asemenea, concentrându-se pe embeddability. Vrem să fie în măsură să încorpora DataCleaner cu ușurință în alte aplicații pentru a face profilare și analiză a datelor posibile oriunde! Am creat un nou API boostrap, care permite aplicațiilor să mănunchi DataCleaner și bootstrap-l cu o configurație dinamică sau rulați-l într-un & quot; un singur mod de datastore & quot ;, în cazul în care cererea este acordat către doar inspectarea unei singure datastore (definit în mod obișnuit prin aplicarea că încorporări DataCleaner). Avem deja unele cazuri foarte interesante de includere DataCleaner în lucrările. - Atât în ​​alte aplicații open source precum și pentru aplicații comerciale
  • Am adăugat suport pentru analiza seturilor de date SAS. Acesta este un lucru suntem destul de mandri ca suntem, cunostintele noastre, prima aplicație majoră open source pentru a oferi o astfel de funcționalitate, în cele din urmă eliberatoare o mulțime de utilizatori SAS. Partea de interoperabilitate SAS a fost creat ca un proiect separat, SassyReader, așa că ne așteptăm să vedem adoptarea în comunități complementare open source DataCleaner lui prea curând!
  • Am adăugat, de asemenea, un sprijin pentru un alt tip de Datastore: Fixed fișiere cu lățime. Fișierele cu lățime fixă ​​sunt fișiere text în cazul în care fiecare coloană are o lățime fixă. Nu există nici un separator sau citat de caractere, cum ar fi fișierele CSV, în schimb fiecare linie sunt egale în lungime și fiecare linie va fi în conformitate cu un de cuvinte set de lungimi de valoare.
  • O opțiune pentru & quot; nu pe incoerențe & quot; S-a adăugat în fișier CSV și datastores fișiere cu lățime fixă. Aceste steaguri adăuga o verificare de integritate format atunci când se utilizează aceste datastores bazate pe fișier text.
  • Un bug fix a fost, care a provocat setări CSV separator să nu fie reținute în interfața cu utilizatorul, atunci când editați un fișier CSV datastore.
  • japoneze și alte caractere care nu sunt acceptate în interfața cu utilizatorul. Acest lucru & quot; bug & quot; a fost o chestiune de investigare a fonturilor disponibile pe sistem și selectând un font care poate reda caracterele particulare. Pe majoritatea sistemelor moderne vor exista fonturi disponibile care pot, dar pe unele ramuri Unix / Linux ar putea exista în continuare limitări.
  • Secțiunea de documentare a fost actualizat! Inca de la 2.0 eliberarea inițială a documentației au fost cu mult în urmă, dar am reușit în cele din urmă să-l la zi. Încă mai există piese care lipsesc în docs, dar ar trebui să fie utilă pentru utilizarea definately de bază, precum și o referință pentru cele mai multe subiecte.
  • timpul pornirii aplicațiilor a fost îmbunătățită prin paralelizare încărcarea de configurare și prin întârzierea inițializarea acelor părți ale configurației care nu sunt necesare pentru afișajul inițial fereastră.
  • fonetică Analizorul similitudine căutare au fost eliminate din distribuție principală, astfel cum aceasta a fost destul de experimental și servește mai ales ca o dovadă a conceptului și un aperitiv pentru comunitate pentru a crea analizoare de mai avansate de potrivire. Acum puteți găsi și instala găsitor similitudine fonetică pe ExtensionSwap.
  • Anulată sau manipulare de locuri de muncă a fost îmbunătățită, iar contin erori.De interfața cu utilizatorul răspunde mai corect prin dezactivarea butoanelor și indicatorilor de progres, în cazul în care un loc de muncă a oprit.
  • Fixed câteva probleme minore UI referitoare la dimensionarea masă și utilizarea scrollbar.

Ce este nou în versiunea 2.1.1:

  • Îmbunătățiri:
  • Adăugat un câmp de text de căutare / filtrare pe lista datastores. Acest lucru vă permite să găsiți rapid datastore dacă ați înregistrat mai mult decât datastores disponibile pe ecran.
  • Datele de referință pentru codurile de țară s-a adăugat la distributia standard, gratie merge la Graham Rhind pentru furnizarea acestora.
  • Adăugat o bară de derulare orizontală la datele prefigurand ferestrelor de acolo sunt mai mult de 10 de coloane.
  • Abilitatea de a adăuga un pachet de extensie cu o nouă funcționalitate în dialogul Opțiuni în timpul rulării. Mai mult accent pe extensiile vor urma în versiuni viitoare.
  • Am expus o previzualizare timpurie a linia de comandă nostru Interface (CLI), permițându-vă să invoce aplicația cu & quot; -usage & quot; parametru care va afișa opțiunile CLI.
  • Număr Adăugat opțiuni de formatare & quot; Conversie la număr & quot; transformator.
  • Remedieri de erori:
  • Fixed o problemă în afara memoriei atunci când interogând tabele cu o mulțime de coloane (150 +).
  • Fixed o problemă care cauzează & quot; analiza Limit & quot; bifa caseta pentru a nu fi verificat corect atunci când un loc de muncă a fost re-deschis după salvarea.
  • Nu a fost într-adevăr un bugfix așa cum a fost niciodată o caracteristică oficială, dar acum acceptăm restaurarea preferințelor utilizatorilor (fișierul userpreferences.dat) din versiunile anterioare ale DataCleaner.

Ce este nou în versiunea 2.1:

  • A existat o mulțime de muncă efectuate pe interfața cu utilizatorul ( vezi pagina media):
  • Am decis să elimine fereastra din partea stanga, care conține opțiuni de configurare a mediului.
  • În schimb toate aceste opțiuni au fost acum mutat la fereastra clădirii de locuri de muncă, astfel încât utilizatorul trebuie doar să se concentreze pe o singură fereastră pentru toate interacțiunile necesare pentru a construi un loc de muncă.
  • Fereastra de bun venit / conectare a fost eliminată în favoarea unui panou mai discret, care poate fi tras sau ascunse din fereastra principală.
  • de selecție și de management este DataStore considerată prima activitate în cerere, motiv pentru care acesta este, de asemenea, primul pas să se ocupe în fereastra principală.











Imagini

datacleaner-315902_1_315902.png
datacleaner-315902_2_315902.png
datacleaner-315902_3_315902.png

Software similare

eBag
eBag

19 Feb 15

PM Report
PM Report

20 Feb 15

Cyparkler
Cyparkler

2 Jun 15

Alte software-uri de dezvoltator -

Vala
Vala

16 Aug 18

Aseba
Aseba

12 Apr 16

Particle Text
Particle Text

30 Oct 15

CyanPack
CyanPack

27 Apr 16

Comentarii la DataCleaner

Comentariile nu a fost găsit
Adauga comentarii
Porniţi pe imagini!