Wikipedia:WMROMD/Cursuri/Wikidata și proiectele surori/Linked data

În acest modul vom discuta despre refolosirea datelor Wikidata, editarea în masă pe Wikidata și despre date conectate. În fiecare secțiune veți găsi o legătură către "articolul principal", care conține pagina detaliată de ajutor pentru unealta respectivă. Din păcate nu toate paginile de ajutor sunt traduse în română.

Date conectate

modificare

Datele conectate sunt date structurate care sunt interconectate cu alte date, astfel încât să poată deveni mai utile prin interogări semantice. Se bazează pe tehnologii web standard, cum ar fi HTTP, RDF și URI, dar în loc să le folosească pentru a servi pagini web doar pentru cititori umanii, extind aceste tehnologii pentru a partaja informații într-un mod care poate fi citit automat de computere. O parte din viziunea datelor conectate este ca Internetul să devină o bază de date globală.

Conectarea datelor este unul din motivele pentru care a fost creată Wikidata: multe din informațiile de pe Wikidata existau deja pe Wikipedia (cel puțin în limba engleză), însă într-o formă neorganizată și greu de reutilizat. Aducerea lor la Wikidata le-a făcut dintr-o dată accesibile pentru toate site-urile Wikimedia, dar și pentru alte site-uri și aplicații conectate (vezi exemple mai jos în pagină).

Modalități de acces la datele Wikidata

modificare

Cea mai simplă metodă de acces la datele Wikidata este chiar din site. Puteți căuta după termenul căutat în mai multe limbi, sau puteți accesa intrarea corespunzătoare unui articol din Wikipedia: din site-ul de desktop aveți legătura "Element Wikidata" în meniul din stânga; pe mobil, opțiunea este disponibilă doar în modul avansat. Puteți afla mai multe despre acest mod de a vizualiza paginile de mobil din pagina dedicată.

Structura datelor pe site este prezentă în secțiunea Structura unui element din modulul precedent.

Folosirea datelor în Wikipedia

modificare

Introducerea unor informații noi de la Wikidata nu este chiar trivială folosind Editorul Vizual. Vă recomandăm să folosiți editorul wikitext pentru acest tip de editări.

Există două metode de afișare a datelor Wikidata în Wikipedia: funcția parser și scripturile Lua. Scripturile Lua necesită cunoștințe de programare, de aceea nu vom intra în detalii în acest modul. Metoda mai ușoară de accesare a datelor este folosirea funcției parser #statement. Această funcție vă va permite să afișați valoarea oricărei afirmații inclusă într-un element.

Acces direct

modificare

Pe o pagină conectată la un element Wikidata, puteți folosi funcția parser adăugând eticheta proprietății pe care o doriți în română sau numărul P al proprietății. Codul trebuie adăuga în wikitext.

Exemple:

  • {{#statements:membru al partidului politic}} sau {{#statements:P102}} va returna valoarea pentru "membru al partidului politic"
  • {{#statements:descoperitor sau inventator}} sau {{#statements:P61}} va întoarce valoarea "descoperitor sau inventator".
  • Pe Douglas Adams, codul {{#statements:cetățenie}} va afișa "Regatul Unit".

Acces arbitrar

modificare

Puteți afișa date dintr-un element care nu este conectat printr-o legătură interwiki. Pentru aceasta folosiți aceeași funcție, adăugând parametrul from= urmat de codul Q (titlul) elementului.

Exemple:

  • {{#statements:nume la naștere|from=Q42}} va afișa "Douglas Noël Adams"
  • {{#statements:cetățenie|from=Q42}} va afișa "Regatul Unit".
  • {{#statements:P1476|from=Q191380}} va afișa "Notre-Dame de Paris"
  • {{#statements:autor|from=Q191380}} va afișa "Victor Hugo"
  • {{#statements:data difuzării|from=Q191380}} va afișa "1831"

Valori multiple

modificare

Când o declarație are mai multe valori, funcția parser va afișa cea mai "bună" valoare, adică:

Exemplu: {{#statements:ocupație|from=Q42}} afișează "dramaturg, scenarist, romancier, scriitor de literatură pentru copii, scriitor de literatură științifico-fantastică, umorist, scriitor, muzician" (mai sunt și alte ocupații în Douglas Adams (Q42) dar doar unele sunt preferate)

Valori formatate

modificare

Pentru anumite proprietăți, funcția parser #statements va afișa valoarea într-un anumit format.

Imagini de la Commons

Funcția parser afișează o previzualizare a imaginii, redimensionată la 200 de pixeli. Legătura trimite la pagina de descriere de la Wikimedia Commons.

{{#statements:imagine|from=Q42}} afișează  

Coordonate geografice

Funcția parser afișează coordonatele în formatul grade-minute-secunde.

{{#statements:coordonate|from=Q243}} afișează 48°51′30″N 2°17′40″E

Text monolingv

Funcția parser afișează textul cu rankingul cel mai mare, sau concatenarea tuturor valorilor.

{{#statements:numele în limba nativă|from=Q31}} afișează Koninkrijk België, Royaume de Belgique, Königreich Belgien.

Dată

Valoarea datei va fi formatată ca zi-lună-an.

{{#statements:data nașterii|from=Q42}} afișează 11 martie 1952

Legături

Se poate da clic pe legături.

{{#statements:site oficial|from=Q243}} afișează https://www.toureiffel.paris, https://www.toureiffel.paris/en, https://www.toureiffel.paris/it

ID-uri externe

Un ID extern va oferi o legătură directă către siteul extern.

{{#statements:identificator IMDb|from=Q42}} afișează nm0010930

Elemente

Valori brute

modificare

Pentru a folosi valori fără legătură, folosiți #property.

Exemplu:

{{#property:identificator IMDb|from=Q42}} afișează nm0010930


SPARQL este un limbaj de interogare. Pentru cei familiarizați cu bazele de date relaționale, este echivalentul limbajului SQL pentru structuri mai complexe. Stați liniștiți, nu e nevoie să programați pentru a realiza câteva interogări simple. Hai să vedem un exemplu: mergeți la adresa https://query.wikidata.org

  1. Clic pe Exemple
  2. Alegeți Pisici din lista ce apare în noua fereastră
  3. Clic pe Rulare sub cutia cu cod

 

Asta ne-a dat o listă a tututror pisicilor mai mult sau mai puțin faimoase de pe Internet - sau cel puțin pe cele de care știe Wikidata. Asta e minunat (dacă îți plac pisicile și nu câinii)!

Puteți face propriile interogări fără cod din unealta Query Builder: https://query.wikidata.org/querybuilder/ Pentru mai multe informații despre SPARQL, vedeți pagina de ajutor :d:Help:SPARQL, ce conține mai multe tutoriale și pagini de ajutor despre acest limbaj

Un API (Application Programing Interface) este o metodă prin care un program software poate interacționa cu un alt program. De obicei aceste interfețe sunt construite peste protocolul HTTP, cel pe care îl folosim și noi când accesăm o pagină web.

API-ul Wikibase permite interogarea, adăugarea, ștergerea șieditarea informațieide pe Wikidata sau orice altă instanță ce folosește același software. Practic orice poate face un om prin site-ul Wikidata, programele fac prin intermedul API-ului. Fiind vorba de o interfață dedicață programelor și programatorilor nu vom insista asupra ei, ci vă invităm să consultați documentația prezentată după titlul secțiunii dacă doriți să aflați mai multe.

Unelte externe de editare pe Wikidata

modificare

În modulul anterior am văzut cum edităm paginile Wikidata pe site. Mai departe vom vedea unele unelte externe, care vă vor permite să faceți editări într-un mod mai productiv. Acestea sunt doar uneletele cele mai folosite de comunitatea în limba română, dar găsiți o listă mult mai mare de unelte pentru Wikidata pe pagina :d:Wikidata:Tools.

PetScan este o unealtă de interogare a proiectelor Wikimedia ce poate genera liste de pagini din Wikipedia și proiectele surori (sau de elemente Wikidata) care se potrivesc cu anumite criterii, precum apartenența la o categorie, toate elementele cu o anumită proprietate etc. PetScan poate combina anumite liste temporare (numite surse) în diferite moduri pentru a crea noi liste de elemente. De asemenea, dacă se lucrează cu elemente Wikidata, din PetScan se pot face operațiuni în masă asupra acestora (de ex. să se adauge o proprietate sau o descriere).

Un lucru de care trebuie ținut cont când se lucrează cu PetScan este că interfața este foarte încărcată și deloc intuitivă - de exemplu, undele informații se adaugă în tabelul cu rezultate din tabul Output, altele din tabul Wikidata, sunt mai multe metode de a ajunge la aceleași rezultate etc.

QuickStatements

modificare

QuickStatements (QS) este o unealtă dezvoltată de Magnus Manske care poate modifica elemente Wikidata pe baza unor comenzi textuale simple. Această unealtă poate adăuga și elimina declarații, etichete, descrieri și aliasuri, precum și adăuga declarații cu surse și calificatori opționali. Secvența de comenzi poate fi scrisă direct în fereastra de import sau creată separat într-un editor de text și copiată în fereastra de import. De asemenea, poate fi creată de cod extern, precum Lua, apelat dintr-un format și transmis ca URL. Datele modificate în OpenRefine pot fi exportate în format QuickStatements.

Pagina de documentație conține detalii despre configurarea și formatul comenzilor, așa că nu vom intra în detalii. QuickStatements este o unealtă foarte utilă pentru a importa rapid cantități mari de date fără a scrie cod.

WDFIST (Wikidata Free Image Search Tool)

modificare

WDFIST este o unealtă ce vă permite adăugarea unor imagini din articole pe Wikidata. Are o interfață de căutarea asemănătoare cu PetScan, din care se extrage o listă de articole cu imaginile aferente și o listă de elemente Wikidata fără imagine. Utilizatorul alege apoi manual imaginile potrivite și ele sunt adăugate în elementul Wikidata aferent

OpenRefine

modificare
Tutorial OpenRefine pentru începători

OpenRefine este o aplicație desktop open-source pentru manipularea datelor (curățarea, transformare în alte formate etc.)[1] Arată similar cu aplicațiile de foi de calcul și poate gestiona formate de fișiere de foi de calcul, cum ar fi CSV, dar se comportă mai mult ca o bază de date.

Funcționează pe rânduri de date care au celule grupate pe coloane, similar modului în care funcționează tabelele de baze de date relaționale. Proiectele OpenRefine constau dintr-un tabel, ale cărui rânduri pot fi filtrate folosind fațete care definesc criterii (de exemplu, afișând rândurile în care o anumită coloană nu este goală). Acțiunile efectuate pe un set de date sunt stocate în proiect și pot fi „reluate” pe alte seturi de date. Formulele nu sunt stocate în celule, ci sunt folosite pentru a transforma datele. Transformarea se face o singură dată.

OpenRefine se folosește pentru: curățarea datelor dezordonate (dacă lucrați cu un fișier text cu unele date semi-structurate, acesta poate fi editat pentru a face datele să fie curat structurate); transformarea datelor; analizarea datelor de pe site-uri web; adăugarea de date la setul de date prin preluarea lor de la serviciile web; alinierea la Wikidata: aceasta implică reconciliere — maparea valorilor șirurilor din celule cu entitățile din Wikidata.

Dacă doriți să aflați mai multe despre OpenRefine, urmăriți tutorialul video din dreapta; dacă nu este suficient, mai jos aveți încă un tutorial, din trei părți:

Wikibase

modificare

În primul modul al acestui curs am vorbit de diferența dintre Wikipedia (enciclopedia) și MediaWiki (software-ul pe care rulează Wikipedia). La fel se întâplă și la Wikidata: el rulează pe un software, numit Wikibase, care poate fi instalat pe orice instanță de MediaWiki. Asta înseamnă că orice site din lumea Wikimedia poate (teoretic) să aibă o structură asemănătoare cu Wikidata. Acest lucru se întâmplă în realitate doar cu Wikimedia Commons.

Date structurate la Wikimedia Commons

modificare

Structured data on Commons (prescurtat SDC) este denumirea dată informațiilor multilingve despre un fișier care pot fi înțelese de oameni, dar cu destulă consistență pentru a fi procesate de mașini. Fișierele de pe Wikimedia Commons pot fi descrise folosind concepte de la Wikidate (date conectate!).

Wikibase as a service

modificare

Rezultatul săptămânii

modificare

În această săptămână avem mai multe "teme" care vă vor permite să exersați cele învățate. Alegeți 1-2 dintre taskurile de mai jos:

  1. Folosiți #statement în pagina de teste de la Wikipedia în limba română pentru a publica următoarele informații despre localitatea unde vă aflați: numărul de locuitori, numele primarului, imaginea asociată (dacă există)
  2. Folosind Wikidata Query builder, găsiți lista oamenilor născuți (care au locul nașterii) localitatea în care locuiți. Atenție: pentru orașele și reședințele de comună din România e posibil să găsiți două intrări pe Wikidata: una este pentru UAT, alta pentru satul/localitatea componentă cu același nume. Încercați cu amândouă și vedeți dacă rezultatele sunt diferite. Ce putem deduce din aceste rezultate despre calitatea datelor?
  3. PetScan:
    1. Găsiți toate paginile despre satele din județul/raionul dvs. (hint: pentru România, categoria se numește Categorie:Sate din județul X, pentru Republica Moldova Categorie:Localități din raionul X)
    2. Puneți PetScan să vă afișeze imaginea paginii și elementul Wikidata asociat pentru lista de mai sus
    3. Exportați rezultatul ca wikitext și adăugați-l în pagina dvs de teste
  4. Folosind unealta WDFIST, adăugați 2-3 imagini la Wikidata.
  1. ^ „openrefine.github.com”. openrefine.org.