Kako pronaći gotovo duplicirane dokumente sa sadržajem i tekstom

Autor: Peter Berry

Datum Stvaranja: 19 Srpanj 2021

Datum Ažuriranja: 10 Svibanj 2024

Sadržaj

Što je gotovo dupliciranje?
Zašto je otkrivanje skoro dupliciranja važno?
Kako se može procijeniti sličnost?
Gdje su proizvodi?
Gotovo duplicirano otkrivanje u pravnom otkriću
Trebam li se brinuti zbog skoro dupliciranih dokumenata?
Skoro dupliciranje na web mjestima
Otkriveno gotovo duplicirano otkrivanje

Simon se bavi razvojem softvera od vremena papirnate vrpce. Razvio je nišni softver za upravljanje informacijama.

Što je gotovo dupliciranje?

Skoro dupliciranje elektroničkih dokumenata lako je opisati, ali teško definirati. Skoro duplicirani dokumenti imaju sličan, ali ne nužno identičan sadržaj. Sličnost dokumenata često se procjenjuje postotkom, gdje je 100% identično. Iako se identični dokumenti lako definiraju i identificiraju (putem različitih algoritama kontrolne sume koji proizvode niz na temelju bajtnog sadržaja datoteke), definicija sličnosti ovisi o dubljem razumijevanju dokumenta i njegovog značenja. Postojeće metode procjene sličnosti koriste statističku analizu skupina riječi kao snažnu zamjenu za analizu značenja. Raznolikost algoritama i statistička priroda analize znači da mjerenja sličnosti nisu apsolutna - dva dokumenta izmjerena kao 75% slična pomoću jednog algoritma ili skupa parametara neće imati istu sličnost koristeći drugi algoritam ili skup parametara. Stoga su izjave poput "40% svih tekstualnih dokumenata slične" visokokvalificirane.

Zašto je otkrivanje skoro dupliciranja važno?

Tražilice se često koriste za pokušaj otkrivanja svih dokumenata koji se odnose na određeno pitanje ili pitanje, ali pristup zasnovan na ključnim riječima nastoji dati nerazumno velik broj rezultata, a poredak tih rezultata ne odgovara uvijek željama korisnika .

Rezultati web pretraživača često sadrže velik broj duplikata i gotovo dupliciranih rezultata, a mogućnost filtriranja bila bi značajna prednost. Google posjeduje niz patenata za ovaj postupak, a rang Google stranice smanjuje se zbog prisutnosti duplikata i gotovo duplikata.

Na razini organizacije obiluju duplikati dokumenata, često zahvaljujući višestrukim skicama istog dokumenta. Pronalaženje najnovije verzije dokumenta može biti jednostavno ako se kontrola verzija strogo i univerzalno koristi u spremištu dokumenata, ali to je rijetko slučaj.

Kako se može procijeniti sličnost?

Razumna procjena sličnosti slika može se dobiti ponovnim uzorkovanjem slika koje se uspoređuju s vrlo malim brojem piksela, a zatim korištenjem udjela piksela koji su identični ili unutar određene tolerancije prostora u boji (često se koristi samo skala sive boje) , kao mjera sličnosti. Taj je postupak brz i poznata je osnova nekoliko lako dostupnih programa za podudaranje slika. Ostali su programi skloni prirodi svojih algoritama za usporedbu, ali možda se koriste ovom metodom.

Za tekstualne dokumente zadatak je puno teži, jer je redoslijed riječi važan, kao i njihovo značenje. Izdvajanje riječi iz tekstualnih dokumenata nije izravna stvar, iako postoji mnoštvo komponenata za izvlačenje teksta, jer izdvajanje teksta čini ključni dio procesa izrade indeksa tražilice. Čest je slučaj da će uporaba drugog izvlačivača teksta na istom dokumentu dati različite rezultate.

Pod pretpostavkom savršenog izdvajanja teksta, je li udio identičnih riječi u dva dokumenta mjera sličnosti? Nažalost ne - dva dokumenta s istim riječima u različitim redoslijedima po ovoj će mjeri izgledati identično. Sinonimi su još jedna komplikacija - više riječi može opisivati istu stvar. Postoji mnogo pristupa procjeni sličnosti, ali oni se dijele u dvije skupine. Tekst se dijeli na male, ponekad preklapajuće skupine sekvencijalnih riječi koje se nazivaju šindre, a sličnost se mjeri udjelom identičnih šindra pronađenih u parovima dokumenata. Drugi gradi vektor riječi koji karakteriziraju dokument i vrši njegovu usporedbu na vektorima. Obje metode imaju širok raspon parametara i metoda usporedbe, neke koriste vrlo sofisticiranu statistiku. Raznolikost algoritama i parametara sličnosti znači da ne postoji apsolutna mjera sličnosti teksta.

Daljnji je problem taj što svaki dokument treba uspoređivati sa svim ostalim dokumentima u zbirci, što čini uspoređivanje vrlo sporim za velike zbirke, poput velikih web stranica.

Gdje su proizvodi?

Procjena sličnosti tekstualnih dokumenata predmet je mnogih akademskih studija, kao što će ukazati potraga za "gotovo dupliciranim otkrivanjem dokumenata", ali čini se da se samo jedna studija preobrazila u samostojeći, razdvojeni proizvod.

Iako je pravno otkriće dobro poznato i unosno područje potražnje za otkrivanjem gotovo duplikata, u mnogim se organizacijama susreću problemi koji proizlaze iz gotovo dupliciranja dokumenata, posebno tamo gdje više autora doprinosi jednom dokumentu čiji se nacrti razmjenjuju putem e-pošte koja je dostaviti vanjskoj agenciji. Mjesto najnovije verzije takvog dokumenta (na primjer, odgovor na ponudu) možda neće biti poznato, što će rezultirati podnošenjem dokumenta bez najnovijih revizija. Dosljedna uporaba sustava za upravljanje dokumentima s kontrolom verzija koju koriste svi autori može se zaštititi od ove situacije, ali takav se sustav možda neće primijeniti ili se može koristiti na takav način da otežava pronalaženje najnovije verzije dokumenta .

Druga domena za otkrivanje gotovo dupliciranih dokumenata je indeksiranje web stranica. Identifikacija gotovo dupliciranih web stranica može biti od velike pomoći u održavanju velikih web stranica ažurnim osiguravanjem da se izmjene primjenjuju na sve stranice gdje su potrebne, dobivanjem najvišeg mogućeg Google Page Ranka i smanjenjem opsega rezultata pretraživanja.

Gotovo duplicirano otkrivanje u pravnom otkriću

Pravno otkriće je pretkrižni postupak u kojem svaka stranka u pravnom predmetu može zatražiti predočenje dokumenata koje posjeduje druga koja su relevantna za slučaj koji se razmatra. To može zahtijevati procjenu vrlo velikog broja elektroničkih dokumenata i e-adresa radi njihove važnosti za određeni slučaj i njihovog izvoza u standardiziranom formatu, procesu koji je poznat pod nazivom eDiscovery. Ako se jedan dokument smatra relevantnim, drugi dokumenti slični njemu također mogu biti relevantni. Kako relevantnost utvrđuje visoko plaćeno pravno i pravno osoblje, svako smanjenje broja dokumenata koji se pregledavaju ili pojednostavljivanje postupka grupiranjem sličnih dokumenata i uklanjanjem točnih duplikata donijet će znatne uštede u troškovima.Velika ušteda i drugi zahtjevi zakonskog postupka otkrivanja, posebno učinkovito rukovanje e-poštom, znače da je softver za tu svrhu mnogo skuplji od uobičajenog potrošačkog softvera, ali dostupno je mnogo različitih paketa.

Jedan dobavljač (Casefleet) ima koristan post na blogu o kriterijima za usporedbu alata za eDiscovery. Dobavljač za upravljanje informacijama u poduzeću OpenText nudi još jednog. Oboje ističu važnost dostupnosti algoritama strojnog učenja za odgovaranje na pitanja poput "Pronađi dokumente poput ovog", koji nudi gotovo duplicirano otkrivanje, iako to nije algoritam učenja. Proizvod Discovery Assistant dobavljača ImageMaker uključuje sofisticirani algoritam za otkrivanje gotovo duplikata, ali njegova cijena i dizajn ograničavaju upotrebu kao alat za e-otkrivanje.

Algoritmi strojnog učenja djeluju pomoću skupova treninga. Uobičajeni je postupak ručnog prikupljanja nekih relevantnih dokumenata i njihove upotrebe kao kompleta za obuku za pronalaženje drugih dokumenata u velikoj zbirci putem algoritama strojnog učenja. Google ovdje opisuje primjenu algoritama strojnog učenja na klasifikaciju dokumenata. Zbog svoje računalne intenzivnosti, često se implementira kao usluga u oblaku.

Trebam li se brinuti zbog skoro dupliciranih dokumenata?

Kako su se troškovi skladištenja smanjili, a preuzimanje dokumenata pretraživanjem postalo sve snažnije, povećana je učinkovitost i ušteda prostora uklanjanjem dupliciranih i gotovo dupliciranih dokumenata postala je manje značajna. Međutim, zadržavanje više nacrta dokumenta može povećati pravnu izloženost u slučaju da se organizaciji uruči nalog za otkrivanje, jer svi dokumenti koje je organizacija pohranila moraju biti predočeni drugoj strani. Rani nacrti mogu sadržavati sadržaj koji šteti organizaciji, a njihovo identificiranje i uklanjanje može smanjiti pravnu izloženost.

Pravna izloženost ključni je pokretač premještanja organizacijske pohrane s dijeljenih diskova, na kojima je vrlo teško primijeniti politiku odlaganja dokumenata, na sustave za upravljanje dokumentima (DMS). DMS-ovi nude mnoge prednosti u odnosu na dijeljenje datoteka, uključujući:

Datum prijave s definicijskim dokumentom. Ovaj datum pruža osnovu za razdoblja čuvanja i ne podliježe neplaniranom resetiranju, što se može dogoditi s metapodacima datuma datotečnog sustava.
Definicija vlasništva nad dokumentima. Kao i datum prijave, vlasništvo ne podliježe neplaniranom resetiranju ili promjenjivosti kada se računi uklone.
Jednostavna primjena politika zbrinjavanja i primjena "zakonskog zamrzavanja" na promjenama dokumenata koje se moraju primijeniti nakon uručivanja naloga za otkrivanje.
Kontrola verzija. Različitim inačicama dokumenta može se pristupiti sustavno, ali korisnici to možda neće iskoristiti.

Unatoč ovim prednostima i dostupnosti besplatnih verzija većine DMS proizvoda, diskovni se pogoni i dalje koriste za pohranu organizacijskih dokumenata, ponekad bez službene sankcije. Uobičajeni razlozi su izvedba i poznavanje, kao zahtjev za dodatnim hardverom na kojem se pokreće DMS. Izvedba DMS-a često je mnogo lošija od udjela datoteka, posebno za velike datoteke, a neke se aplikacije (poput datoteka povezanih s Excelom) oslanjaju na relativne putove između datoteka, kojih nema u DMS-ovima, koji datoteke često pohranjuju u bazu podataka. Čak i pohrana datoteka u oblaku u strukturama mapa može imati problema na ovom području zbog upotrebe apsolutnih imena staza koja se razlikuju među korisnicima. Korisnici su također općenito upoznati s operacijama datoteka s dijeljenim datotekama i možda će im prijava / odjava i obvezni unos metapodataka koji zahtijevaju DMS-ovi biti teški. Popularni DMS proizvod Microsoft SharePoint učinio je nešto da se radno okruženje učini što sličnijim dijeljenju datoteka.

Skoro dupliciranje na web mjestima

Kako se rang Googleove stranice smanjuje ako Google utvrdi da web stranica ima visoku razinu dupliciranja (njihova definicija uključuje gotovo dupliciranje), većina usluga održavanja i optimizacije tražilice uključuje otkrivanje duplikata kao dio svojih izvješća, a nekoliko (uključujući OnCrawl i DeepCrawl) izričito uključuju gotovo dupliciranje u svoja izvješća.

Otkriveno gotovo duplicirano otkrivanje

Ako ne obavljate pravna otkrića ili ne pokušavate optimizirati rang svoje web stranice, postoji nekoliko softverskih paketa koji mogu izvršiti gotovo dupliciranu analizu zbirke dokumenata.

U blizini

Ovo je program naredbenog retka Java tvrtke SoftCorporation s besplatnom tromjesečnom licencom. To je više okvir nego potrošački program, koji zahtijeva instalaciju određenog broja besplatnih knjižničnih paketa kako bi mogao funkcionirati. Rezultat je zbirka klastera datoteka u XML formatu, a dokumentacija ukazuje na akademsko podrijetlo. Potencijalni korisnici morali bi biti vrlo vješti u radu s računalima da bi ga mogli primijeniti.

FindAlike

Ovo je ambiciozni Windows-ov proizvod tvrtke Aleka Consulting, koji nudi otkrivanje gotovo duplikata, objedinjeno pretraživanje i označavanje. Za razliku od Neardupa, on ne nudi popis svih klastera dokumenata u statičkoj zbirci, ali pronalazi gotovo duplikate određenog dokumenta ili određenog tekstualnog sadržaja povezivanjem s indeksima pretraživanja sustava Windows, što uključuje Outlook poruke e-pošte, kao i sadržaj diska. To mu omogućuje automatsko pronalaženje gotovo duplikata u zbirkama dokumenata i Outlook e-pošte koje se kontinuirano ažuriraju. Ova mu sposobnost daje mogućnost pronalaska svih različitih verzija dokumenta, a zatim ih poredajte po datumu kako biste pronašli najnovije. Za klasteriranje su predviđene 4 unaprijed zadane razine sličnosti. FindAlike također nudi zajedničko pretraživanje više diskovnih pogona i označavanje e-adresa i dokumenata, bilo ručno ili automatski, koristeći statističke klasifikatore i klasifikatore temeljene na pravilima. Dodatak za Office pruža ovu funkciju u programu Word, Outlook, Excel i Powerpoint za tekstualni sadržaj otvorenog dokumenta. FindAlike košta 89 dolara godišnje za jednokratnu licencu za radnu površinu, uz besplatnu 30-dnevnu procjenu. Dostupne su i licence za radne grupe.

Ovaj je članak točan i vjeran prema autorskom znanju. Sadržaj je samo u informativne ili zabavne svrhe i ne zamjenjuje osobne savjete ili profesionalne savjete u poslovnim, financijskim, pravnim ili tehničkim pitanjima.