Discuție Wikipedia:Arhivă legături externe

Ultimul comentariu: acum 10 ani de Ark25 în subiectul Excepții de funcționare

RfC: Folosirea unui cache extern

modificare

Pe fr.wp (traducere) și hu.wp există un sistem de cache pentru legăturile externe moarte ce folosește situl Wikiwix (exemplu). De asemenea, peste vară există un proiect GSoC pentru un asemenea sistem, probabil limitat la en.wp. Până atunci, eu propun să preluăm sistemul de la fr.wp.

Dacă sunteți de acord, menționați și cum ar trebui implementat (activat/dezavtivat pentru anonimi, activat/dezactivat implicit pentru utilizatori, activat permanent/dezactivare cu gadget)--Strainu (دسستي‎4 iunie 2011 14:15 (EEST)Răspunde

Ar fi extrem de util lucrul acesta, pe care l-am adus și eu în discuție mai demult la Discuție Wikipedia:Sfatul Bătrânilor/Arhive/2010#Arhivare de știri. Orice soluție viabilă este binevenită. Wikiwix pare a fi „super cool”, ca să zic așa. —  Ark25  (discuție) 4 iunie 2011 22:16 (EEST)Răspunde
Cum în afară de Ark nimeni nu și-a mai exprimat opinia, am decis să activez codul în mod implicit pentru toată lumea. Atenție, cacheul funcționează doar de aproximativ un an, e posibil ca unele legături mai vechi să nu fi fost indexate.--Strainu (دسستي‎11 iunie 2011 10:52 (EEST)Răspunde

Deși este o inițiativă bună nu mi se pare normal ca [arhivat] să apară chiar lângă fiecare legătură externă sau referință atât timp cât pagina originală încă există. (mai ales că la cele moarte e inutil, noroc de webarchive).— Ionutzmovie discută 11 iunie 2011 13:26 (EEST)Răspunde

Este singura soluție fezabilă. Ar lua mult prea mult timp să verificăm în timp real fiecare legătură dacă întoarce sau nu un cod de eroare (mai ales dacă nu întoarce un cod de eroare, ci dă timeout). Am spus mai sus că nu toate legăturile sunt active.--Strainu (دسستي‎11 iunie 2011 16:28 (EEST)Răspunde
Ar fi recomandată introducerea unui gadget prin care pot fi ascunse la dorința utilizatorului. Apropo, paginile sunt arhivate chiar dacă referințele, de exemplu, nu au fost accesate?— Ionutzmovie discută 11 iunie 2011 16:37 (EEST)Răspunde
OK, o să scriu un gadget pentru dezactivare. Din câte știu eu da, indexarea se face cu un robot asemănător cu en:Googlebot. Mai multe detalii poți găsi pe paginile indicate mai sus.

Ar fi util să fie afișată și data la care s-a făcut arhivarea (acolo unde scrie "It appears as it used to be at the time it was inserted as an external link in Wikipedia."). În pagina fr:Utilisateur:Pmartin/Cache spune "il ne fait pas de requêtes sur les serveurs de Wikiwix lorsqu'un internaute visionne un article de Wikipedia". Totuși, cred că Wikiwix nu arhivează o legătură externă când cineva vizualizeză articolul de pe Wikipedia, ci e necesar ca cineva să dea click pe link-ul "[arhivat]" (adică Wikiwix arhivează pagina doar prima dată când cineva cere să vadă arhiva). Am înțeles corect mecanismul? Cum s-ar putea afișa data arhivării (nu în link-ul din articol, ci atunci când vezi varianta arhivată)? Răzvan Socol mesaj 12 iunie 2011 10:56 (EEST)Răspunde

Este extrem de important să ne lămurim cum funcționează arhivarea. Dacă într-adevăr se arhivează numai când dă cineva click, atunci e cam aiurea. Se poate face cumva click automat pe toate legăturile acelea? Și ar putea face cineva o pagină web, pe care peste 1-2 zile să o dezactiveze, ca să vedem dacă într-adevăr funcționează? (fără să dea nimeni click pe „arhivă”). Dacă nu lămurim chestiunea, ne putem trezi cu suprize de proporții. —  Ark25  (discuție) 12 iunie 2011 12:45 (EEST)Răspunde
În mod sigur nu se face atunci când cineva dă clic. Nu mai știu unde, dar într-un articol am găsit o versiune de cache diferită de versiunea curentă. Ori cum noi de-abia am introdus metoda, nu cred că avea când să se schimbe. Dacă dați clic pe legătura de scoatere a paginii din cache vă spune și cum se numește robotul, cred că se poate pleca de acolo. Oricum, la en.wp am văzut că a apărut un sit alternativ, dacă wikiwix nu ne convine putem schimba. Chestia e că din ce-am văzut Pmartin e foarte receptiv, s-a oferit chiar să traducă pagina de cache și a rezolvat și bugul pe care i l-am raportat.--Strainu (دسستي‎12 iunie 2011 13:27 (EEST)Răspunde
Am adăugat în 13 iunie o legătură externă în articolul Fus orar, dar nu am dat click pe link-ul [arhivat], decât astăzi, 17 iunie, la ora 9:15 EET. După cum mă așteptam, pagina [1] spune "Current UTC (or GMT/Zulu)-time used: vendredi 17 juin 2011, 06 h 15 m 15", adică data la care a fost prima dată accesată arhiva, nu data când a fost adăugată legătura externă în articol. Pentru a ne asigura că se efectuează arhivarea la data adăugării legăturii, trebuie ca cel care adaugă legătura externă să facă și un click pe link-ul [arhivat]. Răzvan Socol mesaj 17 iunie 2011 09:23 (EEST)Răspunde
Nu se poate face cumva ca [arhivat] să nu apară după fiecare link (un format poate)? Pe pagina principală apare de cinci ori la actualități și strică aspectul.— Ionutzmovie discută 12 iunie 2011 20:51 (EEST)Răspunde
Dacă cineva se oferă să ruleze un robot, putem încerca așa. Istoria a arătat însă că noi nu suntem capabili să asigurăm rularea unui robot pe termen lung, deci eu unul prefer soluția curentă pentru că nu necesită mentenanță. În ceea ce privește pagina principală, eu unul nu cred că strică aspectul, dar am pus plainlinks la legături ca să nu mai apară legătura de arhivare.--Strainu (دسستي‎13 iunie 2011 12:19 (EEST)Răspunde

Păi și acuma cum pot să accesez legăturile de arhivare? Nu are opțiune acest gadget pentru a specifica anumite pagini pe care să le evite? (de exemplu să nu intre la Pagina_principală). Dacă nu are o asemnea opțiune, eu unul prefer să avem Pagina de întâmpinare „murdărită” până când se va găsi o soluție, decât nimic. —  Ark25  (discuție) 14 iunie 2011 10:22 (EEST)Răspunde

Neplăcut. Am întrebat care e explicația oficială. Până atunci ar cam rezulta că ori avem nevoie de un robot, ori gâdilăm JSul să facă automat o cerere către cache la salvarea paginii, ori renunțăm de tot la cache. Care ar fi soluția cea mai potrivită? În orice caz, încep să fiu din ce în ce mai înclinat să-l trec ca gadget, să nu-l mai lăsăm activat pentru toată lumea.--Strainu (دسستي‎17 iunie 2011 09:43 (EEST)Răspunde
Ca să-mi dovedesc că n-am visat pe 12 iunie, am căutat și un sit care nu arată la fel ca în cache, și până la urmă l-am găsit: >[2] vs [3] (în partea de jos lipsește o siglă și o bucată de text). Probabil însă că asta se datorează faptului că același link apare și la fr.wp, iar siturile românești nu au fost indexate.
M-am uitat și la varianta WebCite de la en.wp, dar din păcate aceea e "on demand", adică e nevoie neapărat de un robot din câte înțeleg. :(--Strainu (دسستي‎17 iunie 2011 10:16 (EEST)Răspunde

În momentul acesta, wikiwix pare a fi varză. Cam toate arhivele duc către un blog. De exemplu mergi la Pasajul Basarab, dă click pe "[arhive]" la referințe și vei ajunge pe blogul cu pricina. Primul link din Referințe, de exemplu: [4], mă duce la Blogul unui Mihai Iorga. În altă ordine de idei, eu cred că ar trebui făcută o pagină specială de genul Wikipedia:Cache extern pentru discuția asta și altele pe tema asta. Nu prea cred că această temă va fi scutită de incidente și observații pe viitor —  Ark25  (discuție) 19 iunie 2011 22:18 (EEST)Răspunde

Yeey, încă un cui în "legenda" hackerilor români. Din păcate nu pot să concluzionez decât că introducerea legăturilor în ro.wp a dus la acest atac. Ark, mi-am permis să șterg legătura către situl respectiv din postul tău. Nu are rost să facem și mai multă reclamă unui asemenea personaj.
Am scos cacheul din common.js și l-am pus ca gadget (e ultimul de jos). Ai dreptate cu pagina dedicată, propun să ii zicem Wikipedia:Arhivă legături externe.--Strainu (دسستي‎20 iunie 2011 11:00 (EEST)Răspunde

Trebuie să aflăm totuși cum a fost posibilă intruziunea. Unde, mai exact a fost modificat cod pentru a realiza redirecționarea? Pare a fi vorba de cod încărcat la http://ro.wikipedia.org, din moment ce redirectul funcționa și pentru arhive de saituri .com, .org, etc. Străinu, ai putea întreba la francezi dacă și ei au pățit? Și încă ceva, unde găsesc în paginile de la fr.wp legături arhivate? Am nevoie pentru a putea vedea dacă și ei pățesc același lucru. —  Ark25  (discuție) 20 iunie 2011 14:32 (EEST)Răspunde

Da, au pățit și francezii, nu a fost o problemă de la ro.wp. Vezi aici. El zice că a fost un bug. Poate Mihai Iorga lucrează la ei? Mie mi se pare că e cusută cu ață albă povestea, dar mă rog.
Francezii au 2 metode de includere: un gadget (cel la care textul e "Étend la fonctionnalité de cache (lien archive des liens externes) à tous les liens externes et à tous les espaces de noms") și formatul Lien_bris%C3%A9 (vezi Pages liées) pentru pagini care îl folosesc.--Strainu (دسستي‎20 iunie 2011 18:43 (EEST)Răspunde
Bonsoir, je ne comprends pas pourquoi vous avez déplacé l'option cache de wikiwix vers les gadgets. La communauté francophone a désactivé du commons.js son affichage et a remis après correction du problème. L'utilité du système est fait pour les lecteurs afin qu'il puisse vérifier la source de l'information même si le site est en erreur 404 ou modifie l'information. Notre système est encore loin d'être parfait, mais les lecteurs ( pas que les contributeurs ) nous renvoient des améliorations car il est très difficile de prévoir tous les cas. Si cette fonction n'est plus visible par le grand public, vous prenez un risque que celui-ci ne joue pas le rôle que vous attendez. Cordialement Pmartin (discuție) 21 iunie 2011 02:29 (EEST)Răspunde

Din păcate nu pricep franceză. Nu știu ce a răspuns, dar după mine, Pmartin ar trebui să identifice exact și dincolo de orice dubiu dacă problema a fost la Wikipedia sau Wikiwix. În cazul al doilea, ar trebui să-i anunțe pe cei de la Wikiwix și să le ceară o explicație. Doar așa putem considera sistemul ca fiind de încredere. —  Ark25  (discuție) 30 iunie 2011 11:44 (EEST)Răspunde

Pmartin este directorul companiei care deține Wikiwix. Pe pagina care ți-am indicat-o eu a spus că era un bug: au introdus un alt index.html. În mesajul de aici spunea că nu înțelege de ce am mutat codul într-un gadget.--Strainu (دسستي‎30 iunie 2011 12:51 (EEST)Răspunde

Wikipedia:Acoperire în presă

modificare

Este foarte de important ca la Wikipedia:Acoperire în presă să fie activată arhivarea. —  Ark25  (discuție) 29 iunie 2011 12:10 (EEST)Răspunde

Saituri dispărute

modificare

Saiturile ziarelor Săptămâna financiară (http://www.sfin.ro) și Financiarul (http://www.financiarul.com) nu mai există. Au fost înlocuite cu http://www.incomemagazine.ro. Am senzația că legăturile către aceste două saituri nu sunt arhivate cu Wikiwix. Oare chiar funcționează arhivarea paginilor sau Wikiwix de fapt doar încarcă versiunea actuală a paginilor, punând un antet (logo Wikiwix) deasupra?

Pentru a putea verifica, puteți vedea referințele de la Șantiere navale din România, conțin legături către ambele saituri. —  Ark25  (discuție) 19 iunie 2012 15:28 (EEST)Răspunde

Mda, legăturile Săptămâna financiară și Financiarul au fost arhivate bine (cele de la Șantiere navale din România). Articolele originale au dispărut dar ele sunt păstrate în arhiva Wikiwix. Problema este că totuși alte articole nu sunt arhivate. De exemplu la articolul Pod există o legătură externă către saitul Incont.ro - Cele mai periculoase poduri din lume, 30 mai 2011, incont.ro - care nu mai funcționează dar care nu a fost arhivat. Poate a fost dezactivat gadgetul atunci când a fost adăugată legătura?
Trebuie să lămurim totuși, când se face arhivarea legăturilor. Se face în mod automat? Dacă da, atunci cum? Dacă nu, atunci înseamnă că trebuie să facem click pe legătura Wikiwix pentru a realiza arhivarea. În acest caz, rezultă că trebuie să deschidem toate referințele și legăturile externe după ce le-am adăugat la un articol Wikipedia, ca să ne asigurăm că au fost arhivate. Iar ca să facem munca mai eficientă și mai suportabilă, rezultă că avem nevoie de un robot care deschide automat toate aceste legături. Poate să facă cineva un asemenea robot? Un fel de browser care deschide automat toate URL-urile externe din Wikipedia română, odată la o lună sau odată la câteva luni. —  Ark25  (discuție) 4 iulie 2013 23:49 (EEST)Răspunde
Am făcut o pagină în care am adăugat tot felul de legături externe, care ajută la studierea fenomenului de en:Link rot precum și eficiența arhivării cu WikiWix - Wikipedia:Arhivă legături externe/Teste. —  Ark25  (discuție) 5 iulie 2013 06:42 (EEST)Răspunde

Cum funcționează WikiWix?

modificare

Atunci când adăugăm o referință, dacă vrem ca ea să fie arhivată la WikiWix, atunci trebuie și să facem click pe linkul WikiWix care se află în dreapta referinței. Dacă nu facem click pe legătura WikiWix, atunci REFERINȚA NU VA FI ARHIVATĂ !. De aceea avem multe referințe inaccesibile a căror arhive WikiWix de asemenea nu sunt accesibile. Eu am dedus că așa funcționează WikiWix. Întrebarea este cum putem face ca un browser-robot să "dea click" pe toate legăturile WikiWix. Ca să pot demonstra dincolo de orice dubiu că într-adevăr așa funcționează WikiWix, am nevoie să activăm gadgetul la Wikipedia:Arhivă legături externe/Teste - unde am adăugat o grămadă de referințe. Adică să trateze pagina ca și cum ar fi un articol Wikipedia - deocamdată WikiWix "arhivează" doar legăturile existente în paginile articolelor, nu și pe cele din paginile de discuție. Unele vor dispărea în curând pentru că saiturile respective nu păstrează arhiva știrilor prea mult timp. —  Ark25  (discuție) 17 iulie 2013 17:13 (EEST)Răspunde

L-am activat pe pagina respectivă.--Strainu (دسستي‎17 iulie 2013 17:54 (EEST)Răspunde
Mulțumesc ! —  Ark25  (discuție) 18 iulie 2013 11:03 (EEST)Răspunde
Ai dat tu clic pe toate linkurile ieri?Mie îmi apare data 17.07.2013, iar wikiwix n-are cum să știe pe ce pagini e activat și pe care nu - ori le indexează pe toate, ori doar la acces.--Strainu (دسستي‎18 iulie 2013 14:31 (EEST)Răspunde

Da, însă numai la primele trei secțiuni: InCont.ro, MoneyCenter.ro, Economica.net - restul vreau să le "clichez" în curând. Unde îți apare data de 17.07.2013? Că sunt foarte curios. De notat faptul că aceste legături deja clickate se încarcă foarte repede, spre deosebire de cele pe care faci click pentru prima oară. —  Ark25  (discuție) 22 iulie 2013 08:40 (EEST)Răspunde

Tocmai am ajuns într-o situație foarte interesantă: Am deschis vreo 20 de legături externe deodată, (împreună cu arhivele WikiWix). Pentru o parte din legături, WikiWix îmi dă următorul mesaj: Traffic blocked because of exceded quota. Rezultă că pe WikiWix nu putem arhiva prea multe legături, există o cotă (probabil zilnică).

Acestea sunt legăturile cu pricina.

 Ark25  (discuție) 24 iulie 2013 10:52 (EEST)Răspunde

Gadget pentru Archive.is

modificare

Se poate face un gadget pentru Archive.is ? Se pare că saitul respectiv are un robot care arhivează toate legăturile externe prezente în articolele Wikipedia. De exemplu, pentru articolul urmator: http://www.evz.ro/detalii/stiri/adevarul-de-duminica-la-ultima-editie-898143.html , arhivele articolului se găsesc la http://archive.is/http://www.evz.ro/detalii/stiri/adevarul-de-duminica-la-ultima-editie-898143.html (adică trebuie doar adăugat prefixul "http://archive.is/" la linkul în cauză). Ar părea că este destul de simplu de făcut un asemenea gadget. —  Ark25  (discuție) 16 august 2013 12:34 (EEST)Răspunde

Am găsit cum se face. În pagina MediaWiki:Cache.js trebuie modificat doar:

        link.setAttribute("href", "http://wikiwix.com/cache/?url=" + path.replace(/%/g, "%25").replace(/&/g, "%26") + "&title=" + encodeURIComponent(page_title));

cu:

        link.setAttribute("href", "http://archive.is/" + path.replace(/%/g, "%25").replace(/&/g, "%26");

În plus, mai trebuie adăugată linia:

            path.indexOf("archive.is") > -1 || 

undeva după linia

        if (path.indexOf("http://wikiwix.com/cache/") > -1 || 

. —  Ark25  (discuție) 23 august 2013 16:17 (EEST)Răspunde

OK din partea mea, dar scrie și la cafenea te rog. Partea cu title nu trebuie să fie prezentă la archive.is.--Strainu (دسستي‎23 august 2013 20:42 (EEST)Răspunde
Am modificat dar acum nu mai apare nimic, de parcă aș fi dezactivat gadgetul. Oare e greșit ceva în cod sau poate mai trebuie așteptat puțin? —  Ark25  (discuție) 23 august 2013 23:14 (EEST)Răspunde
Mulțumesc, Strainu, pentru rezovlvare. Gadgetul trebuie făcut să prezinte arhivele și pentru linkurile din paginile de discuție, din moment ce saitul arhivează automat și acele linkuri. Se poate face ori „la calup” ori, eventual, un gadget separat pentru paginile de discuție. Eu cred că mai bine toate la un loc - nu are cu ce să deranjeze. Linkurile aduse ca probe în discuții se vor putea proba astfel și peste ani buni. —  Ark25  (discuție) 25 august 2013 01:09 (EEST)Răspunde

Am activat arhivele și pentru paginile de discuție ale articolelor Wikipedia. În plus, am schimbat Gadgetul ca să prezinte arhivele păstrate la Archive.org. Ar fi bine să facem două gadgeturi, unul pentru Archive.is și celălalt pentru Archive.org. Eventual se poate face și pentru WikiWix. Trebuie găsite și imagini (icoane) diferite pentru fiecare server - mă refer la iconul aceasta. Fiecare utilizator își va activa serverele de arhivare pe care le preferă. Însă nu știu cum să fac un gadget separat, aici am nevoie de ajutor. —  Ark25  (discuție) 27 august 2013 06:12 (EEST)Răspunde

Nu știu dacă e o idee bună archive.org, din câte am văzut calitatea lor a scăzut considerabil după 2010. Vizitează paginile rar, sunt multe fișiere lipsă etc.--Strainu (دسستي‎27 august 2013 11:19 (EEST)Răspunde
Cred că merită totuși, multe din articolele din Adevărul de la Discuție:Nicolae Ceaușescu/Bibliografie suplimentară (2011) nu mai sunt online, dar Archive.org le-a arhivat pe toate, ceea ce este o gură de oxigen binevenită și nesperată. De asemenea are arhivate articole din Ziua, și presupun că și din Gardianul.
În plus, mai există destule legături externe de prin anii 2007 și mai înainte care au fost arhivate. Tocmai am găsit la articolul Radio Europa Liberă legătura aceasta: http://www.expres.ro/article.php?artid=332558# , care este arhivată la Archive.org: http://web.archive.org/web/20080106175921/http://www.expres.ro/article.php?artid=332558 Ark25  (discuție) 27 august 2013 22:58 (EEST)Răspunde
Am făcut gadget separat pentru Archive.org: MediaWiki:Cache-Archive.org.js. L-am adăugat în listă la MediaWiki:Gadgets-definition. Am însă două nelămuriri:
  1. Unde se adaugă descrierea gadgetului? La preferințe apare textul „Versiunea arhivată pentru legăturile externe”. Nu găsesc acest text pe vreundeva pentru a-l putea modifica sau pentru a adăuga descrierea pentru noul gadget.
  2. De ce este scris acolo (în Gadgets-definition) „cache.js”, în loc de „Cache.js” ? Nu contează dacă numele scripturilor sunt scrise cu litere mari sau mici? —  Ark25  (discuție) 6 septembrie 2013 11:57 (EEST)Răspunde
Mai multe detalii la mw:Extension:Gadgets#Usage.--Strainu (دسستي‎12 septembrie 2013 15:12 (EEST)Răspunde

Am modificat în Special:Gadgeturi. —  Ark25  (discuție) 14 septembrie 2013 19:00 (EEST)Răspunde

Excepții de funcționare

modificare

@Strainu: Ce chestie interesantă! În pagina Electrogrup nu îmi apar legăturile arhivelor, am încercat atât în Firefox cât și în Chrome. În restul articolelor funcționează. —  Ark25  (discuție) 29 septembrie 2014 07:39 (EEST)Răspunde

Acum îmi merge. Scuze pentru alarma falsă. Habar n-am din ce cauză uneori nu sunt afișate legăturile spre arhive. —  Ark25  (discuție) 5 octombrie 2014 09:09 (EEST)Răspunde

Pagini utile

modificare
Înapoi la pagina de proiect „Arhivă legături externe”.