OpenRefine
OpenRefine | |
Dezvoltator | Freebase(d), apoi Google, acum comunitatea open source |
---|---|
Versiune inițială | 10 noiembrie 2010 |
Ultima versiune | 3.8.2[1] () |
Repo | github.com/OpenRefine/OpenRefine |
Scris în | Java[2] |
Sistem de operare | Microsoft Windows macOS Linux |
Platformă | Microsoft Windows, Linux, macOS |
Disponibil în | engleză, italiană, chineză, japoneză, franceză, germană |
Tip | |
Licență | Licența BSD |
Prezență online | |
site web oficial blog oficial cont Twitter hasthtag | |
Modifică date / text |
OpenRefine este o aplicație desktop open-source pentru curățarea datelor și transformarea în alte formate, o activitate cunoscută în mod obișnuit sub denumirea de manipularea datelor.[3] Este similar cu aplicațiile de foi de calcul și poate gestiona formate de fișiere de foi de calcul, cum ar fi CSV, dar se comportă mai mult ca o bază de date.
Funcționează pe rânduri de date care au celule grupate pe coloane, similar modului în care funcționează tabelele de baze de date relaționale. Proiectele OpenRefine constau dintr-un tabel, ale cărui rânduri pot fi filtrate folosind fațete care definesc criterii (de exemplu, afișând rândurile în care o anumită coloană nu este goală).
Spre deosebire de foile de calcul, majoritatea operațiilor din OpenRefine se fac pe toate rândurile vizibile, de exemplu, transformarea tuturor celulelor din toate rândurile de pe o coloană,[4] sau crearea unei coloane noi pe baza datelor existente. Acțiunile efectuate pe un set de date sunt stocate în proiect și pot fi „reluate” pe alte seturi de date. Formulele nu sunt stocate în celule, ci sunt folosite pentru a transforma datele. Transformarea se face o singură dată.[5] Expresiile cu formule pot fi scrise în General Refine Expression Language (GREL),[6] în Jython (adică, Python) și în Clojure.[7]
Programul funcționează ca o aplicație web locală: pornește un server web și deschide browserul implicit la adresa 127.0.0.1 :3333.
Utilizări
modificare- Curățarea datelor dezordonate: de exemplu, dacă lucrați cu un fișier text cu unele date semi-structurate, acesta poate fi editat folosind transformări, fațete și grupări pentru a face datele să fie curat structurate.[8]
- Transformarea datelor: conversia valorilor în alte formate, normalizare și denormalizare.
- Analizarea datelor de pe site-uri web : OpenRefine are o funcție de preluare a URL-urilor și un parser HTML Jsoup(d) și un motor DOM.[9]
- Adăugarea de date la setul de date prin preluarea lor de la serviciile web (i.e. care întorc date în formatul JSON ).[10] De exemplu, poate fi folosit pentru geocodarea adreselor la coordonatele geografice.[11]
- Alinierea la Wikidata sau alt site ce folosește Wikibase: aceasta implică reconciliere — maparea valorilor șirurilor din celule cu entitățile din Wikidata.[12]
Formate acceptate
modificareImportul este acceptat din următoarele formate:[13]
- TSV(d), CSV
- Fișier text cu separatoare personalizate sau coloane cu lățime fixă
- XML
- triplete RDF (formatele de serializare RDF/XML și Notation3)
- JSON
- Foi de calcul Google[14]
Dacă datele de intrare sunt într-un format de text non-standard, pot fi importate ca linii întregi, fără a fi împărțite în coloane, iar apoi coloanele sunt extrase ulterior cu instrumentele OpenRefine. Fișierele arhivate și comprimate sunt acceptate (.zip, .tar.gz, .tgz, .tar.bz2, .gz sau .bz2); de asemenea, Refine poate descărca fișiere de intrare de la o adresă URL. Pentru a utiliza pagini web ca intrare, este posibil să importați o listă de adrese URL și apoi să invocați o funcție de preluare a URL-urilor.
Exportul este acceptat în următoarele formate:[15]
- TSV
- CSV
- Microsoft Excel
- tabel HTML
- Foi de calcul Google
- Exportator de șabloane: este posibil să definiți un șablon personalizat pentru ieșirea datelor, de exemplu ca tabel MediaWiki.
Toate proiectele OpenRefine în format nativ pot fi exportate ca arhivă .tar.gz.
Dezvoltare
modificareOpenRefine și-a început viața ca Freebase Gridworks, dezvoltat de Metaweb și este disponibil ca sursă deschisă din ianuarie 2010.[16] La 16 iulie 2010, Google a achiziționat Metaweb,[17] creatorii Freebase(d), iar pe 10 noiembrie 2010 a redenumit Freebase Gridwords în Google Refine, lansând versiunea 2.0.[18] Pe 2 octombrie 2012, autorul original David Huynh a anunțat că Google va opri în curând dezvoltarea pentru Google Refine.[19][20][21] De atunci, baza de cod a fost mutată către un proiect open source numit OpenRefine.[22]
Note
modificare- ^ Release 3.8.2 (în engleză), , accesat în
- ^ „OpenRefine/OpenRefine - GitHub”. GitHub. Accesat în .
- ^ „openrefine.github.com”. openrefine.org.
- ^ „Editing by transforming: Cell Editing wiki page from Refine documentation”. Accesat în .
- ^ „Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation”. Accesat în .
- ^ General Refine expression language OpenRefine/OpenRefine Wiki GitHub.
- ^ „Expressions: Refine documentation”. Accesat în .
- ^ „Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data”. YouTube. Accesat în .
- ^ „Stripping HTML: Refine documentation wiki page”. Accesat în .
- ^ „FetchingURLsFromWebServices wiki page: Refine documentation”. Accesat în .
- ^ „Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation”. YouTube. Accesat în .
- ^ „OpenRefine documentation: Reconciliation”. GitHub. Accesat în .
- ^ „Importers: Refine documentation wiki page”. Accesat în .
- ^ „Changelog for 2.5”. Accesat în .
- ^ „Exporting: Refine documentation wiki page”. Accesat în .
- ^ „Google Code Archive - Long-term storage for Google Code Project Hosting”. code.google.com.
- ^ „Google Official Blog: Deeper understanding with Metaweb”. Accesat în .
- ^ „Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers”. Accesat în .
- ^ „Google Groups”. groups.google.com.
- ^ „From Freebase Gridworks to Google Refine and now OpenRefine”.
- ^ OpenRefine Arhivat în , la Wayback Machine..
- ^ google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting.