Domeinu-Izena:

https://github.com/iipc/openwayback/wiki/General-Overview

Laguntza

Baliteke zenbait gune web artxiboan ez egotea arakatzea egin zen garaian crawlerraren (webguneak bisitatu eta web artxiboan biltzeaz arduratzen den makina) bisitatu beharreko webguneen zerrendan ez zegoelako.

Beste aukera bat da webgune horrek bere robots.txt fitxategian web artxiboaren crawlerra blokeatuta edukitzea edo crawlerrak atzitzean webgunea pasahitz bidez babestuta egotea.

Azkenik, baliteke webgunearen jabeek .EUS web artxiboan bere edukiak eduki nahi ez dituztela esan izana. Kasu horietan, webgune horiek ez dira eskuragarri egongo bilaketa bat egitean.

.EUS web artxiboak era automatikoan atzituko ditu aktibo dauden .EUS domeinu-izenak. Horretarako crawler lagungarri bat erabiltzen da, domeinu-izenak aktibo dauden edo ez ebazten duena. Hortaz, aktibo dagoen .EUS domeinu-izen bat baduzu, denbora kontua da .EUS web artxiboak artxibatu arte. Dena den, denbora baten ondoren oraindik ere agertzen ez dela ikusten baduzu jarri gurekin harremanetan.

Era berean, ziurtatu zure gunearen robots.txt fitxategian ez dagoela .EUS web artxiboaren crawlerraren jarduna debekatzen duen araurik, bestela ezingo baitu zure webgunea atzitu.

Zure webgunea .EUS web artxiboan topa badaiteke eta bertan ez egotea nahi baduzu, jarri gurekin harremanetan eta ahal bezain laster kenduko dugu.

.EUS web artxiboaren erabilera baldintza eta helburuen artean ez dago bildutako webguneen babes-kopia zerbitzua izatea. Izan ere, web artxiboak duen fitxategiak gordetzeko moduak babes-kopiak sortzea zailtzen du.

Edozein kasutan, web artxiboa erabili daiteke bertsio zaharra atzitu eta bertatik testuak, irudiak edo egoki ikusitako beste edozein elementu artxibatutako webgunetik hartzeko.

Horrelakoak eduki horiek gure zerbitzarietan eskuragarri ez daudenean gertatzen dira. Horren arrazoia da crawlerra ez dela gai izan eduki hori harrapatzeko, edo webgune bakoitzak duen denbora/eduki muga gainditu dela.

Artxibatutako guneen bilduma aztertuz gero, hautsitako orrialde batzuk, falta diren grafikoak eta batere artxibatuta ez dauden gune batzuk aurkituko dituzu. Horretan eragiten duten hainbat faktore daude:

  • Robots.txt fitxategia - Gune bateko robots.txt fitxategiak gune baten arakatzea eragotzi dezake. Kasu horretan, web artxiboaren crawlerrak eskaera hori errespetatuko du eta webgune hori ez da atzituko.

  • Javascript – webgunean zehar Javascript modu nabarmenean erabiltzen den kasuetan arazoak egoteko probabilitatea handiagoa da. Izan ere, Javascript-ek eduki dinamikoa sortzen du eta hori harrapatzeko zaila izan ohi da crawlerrentzat.

  • Orrialde umezurtzak - Zure orrialdeetarako estekarik ez badago, robotak ez ditu aurkituko (crawlerrak ez du kontsultarik egiten bilaketa laukietan).