Poenotenje rodoslovnih podatkov

Poenotenje rodoslovnih podatkov
Martin Mali, Peter Hawlina

Kolega Martin Mali je pripravil program za združevanje poljubnega števila rodoslovnih datotek in iz te združene datoteke, ki ima delovno ime ZADRUGA tvori dva referenčna indeksa. Osnovni je indeks imen, urejen po abecednem zaporedju priimkov. Temu je dodan indeks porok, kjer so spet po abecednem redu pregledno predstavljeni vsi pari. Vsak par po dvakrat – enkrat najdemo par po priimku ženina in drugič po priimku neveste. Ta indeks osvežuje v povprečju na dva meseca. Za zadnjo objavo je 212 dajalcev ponudilo v primerjavo podatke za 1,300.000 oseb in skoraj 450.000 parov. Ta indeks beleži povprečno 300 obiskov dnevno.

Kljub programskemu  združevanju podatkov in tvorjenju indeksa ima kolega Mali kar nekaj operativnega dela. Največ s tem, da iz prejetega gradiva izloči 'smeti' in skuša neenoten zapis poenotiti. Ob zadnji obdelavi je na spisek prejemnikov društvenih obvestil poslal naslednje sporočilo:

Spoštovane kolegice in kolegi rodoslovci,

Urejam spletno stran
www.genealogy.sikjer je indeks imen in indeks porok.
Prosim vas, da svojo GEDCOM datoteko pošljete meni na naslov
Ta e-poštni naslov je zaščiten proti smetenju. Za ogled potrebujete Javascript, da si jo ogledate. . Ne iščite me po twiterju, likedinu itd. Teh družabnih omrežij ne uporabljam čeprav sem tam prijavljen. Uporabljam samo FaceBook, pa še to je že preveč.

Nekateri imate celo zmešnjavo šumnikov. Od zavitih oklepajev, *C, *S, *Z, do raznih kvak, ki nastanejo zaradi različnih kodnih tabel. Nekaj je tudi takih, ki imajo namesto šumnikov samo sičnike. Vso to zmešnjavo je težko urediti. Zato nastanejo v indeksu na spletu čudna imena in priimki. Vem, da je za vas to težko. Vi imate eno datoteko, jaz pa nekaj čez 200!.

Indeks porok NE vsebuje izključno poročenih parov. Tu so tudi pari, ki so imeli otroke, pa niso bili nikoli poročeni. So tudi primeri, ko nikoli niso živeli skupaj, pa so vseeno v indeksu porok. Mogoče bi indeks porok preimenovali v indeks staršev. Mogoče indeks bioloških staršev. Spet bi bile izjeme. Tisti, ki so bili poročeni, pa niso imeli otrok, niso starši. Skratka z eno samo besedo ne moremo zajeti vseh, zato je obveljalo "Indeks porok".

Pri pregledovanju indeksa imen in porok lahko pride tudi do težav. Če imate kakšne pripombe ali priporočila, mi pišite.

Sporočilu kolega Malija dodajam še to, da je tudi za referenčni indeks pomembno, da so podatki kolikor mogoče pravilno in kolikor mogoče popolno vpisani. To je z novimi izdajami rodoslovnih programov postalo še bolj izpostavljena potreba. Pri nas najbolj uporabljani program Brother's Keeper v verziji 6 in 7 izvaja več kontrol pri uvažanju datoteke iz GEDCOM formata kot jih je v verziji 5. Pri uvažanju opozarja na ponesrečene strukturne povezave med starši in otroki in med pari. Nekateri dajalci imajo večje število primerov, da ima neka oseba nekoga poročenega s samim seboj, da ima samega sebe za očeta in še več takih, ki imajo po dva para staršev. 

Take napake so zagotovo najbolj nadležne za dajalca samega. Saj njegova datoteka postaja neuporabna zanj samega in verjetno se bo vsakdo izogibal podatkov, katere bi prejemal iz nezanesljivega vira. So pa tudi nadlega pri tvorjenju skupne datoteke in indeksa.

Referenčna vrednost zaradi omenjenih strukturnih napak ni bistveno okrnjena.

Toliko bolj pa je opazna praznina v letnicah rojstva (in poroke) pri tistih, ki niso izostali zaradi priporočila, da se ne objavljalo datumi rojstva mlajših od 100 let. Nekateri imajo tudi za starejše od 100 let pripombo LIVING, DETAILS EXCLUDED in podobno. S tem nikomur ne koristijo, najmanj pa sebi. Vpis imena in priimka v indeksu brez letnice rojstva je le izjemoma komu koristen. Morda bomo vpise kot je Kastelic Ana brez letnice in kraja rojstva v bodočih objavah indeksa raje izpuščali, saj nikomur ne morejo koristiti. Toliko bolj so nekoristni vpisi priimka ali celo samo imena brez ostalih atributov.

Izločati bomo morali tudi datoteke, za katere kontrolne rutine opozarjajo na strukturna neskladja. Za formalno kakovost podatkov mora poskrbeti dajalec. V uvodnem delu indeksa je napotek na priporočila in standarde.

Priporočila in standardi niso obvezni. Kdor jih ne upošteva, je na slabšem. Kdor močneje odstopa, se je obsodil na popolno izolacijo in s tem razvrednotil rezultate svojega dela.

Toliko večja škoda nastane pri tistih, ki so rodoslovne podatke evidentirali mnogo več kot samo za ožje sorodstvo. Taki imajo rodovnike, kjer je število oseb zapisano s štiri, pet ali celo šestmestnimi številkami. Če se pri delu niso držali priporočil, se tudi zlepa ne lotijo prirejanja. Pa bi bilo prirejanje pogosto opravljeno s programskimi orodji. Sprememba formata datuma je ena od rutin BK programa. Family Tree Builder je morda drugi najbolj uporabljani program. Ta datume zapisuje v formatu Sep 8 1941 in ne vem, če je mogoče take zapise datumov programsko preoblikovati v evropski format DD.MM.LLLL.

Programsko lahko tudi v celi datoteki spremenimo VELIKE ČRKE v Velike Začetnice. Nekatere serijske spremembe lahko opravimo programsko v GEDCOM datoteki.

Main page Contacts Search Contacts Search