Skoči na vsebino

Upravljanje podatkov

Upravljanje s podatki

Gruče uporabljajo različne lokacije za podatke:

  • Uporabniški prostor na prijavenem vozlišču (user home, omejen s kvoto)
  • Podatkovni prostor na lokalnem diskovju (po dogovoru)
  • Začasni prostor za vhodno/izhodne datoteke poslov ARC (lokalno diskovje)
  • Vmesna shramba (cache) ARC za vhodne podatke
  • Podatki, dostopni preko ARC RTE
  • Kratko/srednjeročna shramba na strežniku SMR/dCACHE (dcache.arnes.si)

ARC podpira še številne protokole za dostop do podatkov in shranjevanje: ftp, gsiftp, http, https, httpg, dav, davs, ldap, srm, root, rucio, s3.

ARC uporablja vmesni pomnilnik (cache) in optimizira prenose (ponovni zagon prenosov, enkratni prenos iste datoteke za več poslov ipd.)

Shranjevanje podatkov na oddaljenem strežniku dCache

  • Arnes vzdržuje strežnik dCache, ki je na voljo uprabnikom SLING preko gen.vo.sing.si in drugih VO.
  • 100TB je na voljo za vhodno-izhodne podatke nalog.
  • Člani istega VO-ja lahko berejo datoteke v dodeljenem poolu, strežnik tako ni primeren za zaupne podatke. Če že, najboljše, da so šifrirani.
  • Varnostne kopije za podatke na strežniku dCache se ne izvajajo.

Na spletnih straneh SLING so na voljo osnovna navodila za uporabo Arnes dCache.

Odjemalec ARC omogoča neposredno upravljanje s podatki, ki so lahko tudi vhodne ali izhodne datoteke za posle.

  • arcls seznam vsebine oddaljenega imenika
  • arccp kopiranje datotek
  • arcrm brisanje datotek
  • arcmkdir nov imenik
  • arcrename preimenovanje datotek

Primeri za protokol WebDAV

Primer arcls:

$ arcls https://dcache.sling.si:2880/gen.vo.sling.si/test/

datoteka1.txt
imenik1/

Primer arccp:

$ arccp test.txt https://dcache.sling.si:2880/gen.vo.sling.si/test/imenik2/
V zgornjem primeru se bo imenik2 avtomatsko ustvaril vkolikor ne obstaja. S poševnico na koncu povemo da je imenik2 imenik, drugače bi se test.txt preslikal v datoteko z imenom imenik2 v imeniku test. Ukaz arcmkdir s protokolom WebDAV ne deluje.

Primer arcrm:

$ arcrm https://dcache.sling.si:2880/gen.vo.sling.si/test/imenik2
Če je argument arcrm imenik, se bo zbrisala vsa vsebina imenika.

Primer kopiranja direktorija med dvema strežnikoma:

$ arccp -r https://dcache.arnes.si:2880/data/arnes.si/gen.vo.sling.si/projekt1/ https://dcache.sling.si:2880/gen.vo.sling.si/projekt1/

Primeri za protokol GridFTP

Zastarel protokol

Protokol GridFTP je zastarel in se pri uporabi pojavlja vse več problemov. Če je le možno, priporočamo uporabo protokola WebDAV (zgoraj).

Primer arcls:

$ arcls srm://dcache.sling.si/gen.vo.sling.si/project_name/

centos7.sif
gmp\_test.c
gmp\_test.sh
gmp\_test.xrsl
...

Za gsiftp morajo biti certifikati posodobljeni vsak dan z ukazom fetch-crl, priporočljivo pa je to dodati v super user cronjob. Primer arccp:

arccp test.txt gsiftp://dcache.sling.si/gen.vo.sling.si/proj_name

Primer arcrm:

arcrm srm://dcache.sling.si/gen.vo.sling.si/proj_name/test

Primer arcmkdir:

arcmkdir srm://dcache.sling.si/gen.vo.sling.si/proj_name/test

Uporaba objektne hrambe S3

HPC Vega ponuja objektno hrambo podatkov. Za pridobitev ključa in gesla je potreben Openstack odjemalec, za samo upravljanje podatkov pa je primeren katerikoli S3 odjemalec, spodaj je primer za s5cmd. Za uporabnike HPC Vega, je Openstack odjemalec na voljo na prijavnih vozliščih. Začetna kvota uporabnika je 100GB.

Pridobivanje ključa in gesla za dostop do projekta v S3 objektni hrambi:

openstack --os-auth-url http://auth01.ijs.si:5000/v3 --os-project-domain-name sling --os-user-domain-name sling --os-project-name <ime_projekta> --os-username <uporabniško_ime> ec2 credentials create

Parametre si lahko tudi shranimo v okoljske spremenljivke:

OS_AUTH_URL=https://keystone.sling.si:5000/v3
OS_PROJECT_NAME=<ime_projekta>
OS_PROJECT_DOMAIN_NAME=sling
OS_USER_DOMAIN_NAME=sling
OS_IDENTITY_API_VERSION=3
OS_URL=https://keystone.sling.si:5000/v3
OS_USERNAME=<uporabniško_ime>

Ukaz za pridobitev ključa in gesla je v tem primeru enostavnejši:

openstack ec2 credentials create

Primer uporabe odjemalca s5cmd

Za prenos podatkov lahko uporabimo odjemalec s5cmd.

Pridobljeni ključ in geslo vpišemo v datoteko ~/.aws/credentials. Datoteko in direktorij predhodno zaščitimo pred branjem drugih uporabnikov:

mkdir ~/.aws
chmod 700 ~/.aws
touch ~/.aws/credentials
chmod 600 ~/.aws/credentials
cat >~/.aws/credentials <<EOF
[default]
aws_access_key_id = <access>
aws_secret_access_key = <secret>
EOF

Pregled vsebine:

s5cmd --endpoint-url https://ceph-s3.vega.izum.si ls

Primer ustvarjanja vedra:

s5cmd mb test1

Primer kopiranja datoteke v vedro:

s5cmd --endpoint-url https://ceph-s3.vega.izum.si cp primer.txt s3://test1/