Rozpoznávání citlivých údajů v textu

21.10.2021

picture

Zpět na výpis

Podívejme se na to, jak lze identifikovat dokumenty, které obsahují citlivé osobní údaje: jména, adresy, telefonní čísla a další. Může se jednat například o smlouvy nebo faktury.

Představte si, že se vám za roky práce nahromadily stovky online dokumentů a vy je potřebujete roztřídit, abyste s nimi správně nakládali. Na jedné hromádce budou dokumenty, v nichž se nachází citlivé údaje, na druhé pak ty bez nich. Vsadím se, že třídit ručně by se vám je nechtělo.

NER odhalí citlivé údaje

NER, Named Entity Recognition neboli rozpoznávání pojmenovaných entit, vyřeší zmíněný úkol za vás. Pokud byste si o této podmnožině strojového učení chtěli přečíst víc, doporučujeme tento článek. V zásadě se jedná o to, že se algoritmus naučí na velkém množství dat rozpoznávat, jaké údaje v textu patří mezi ty citlivé. Jakkoli to zní jednoduše, zase tak snadné to není.

Úskalí se nachází třeba mezi rozlišením měst a vlastních jmen osob, což jsme poznali například u „problémového“ města Jindřichův Hradec. Vezměme si dále samotná vlastní jména osob, s nimiž mají často problém i lidé. V češtině bychom si ještě nějak poradili, ale co taková asijská jména?

NER nespočívá v prostém vyhledávání podle specifických znaků, třeba znaku zavináče (@), pro rozlišení e-mailu, protože potom byste označili za citlivý dokument i ten, který obsahuje: Zde uveďte e-mail ve formátu jmeno@adresa.cz. Na těchto příkladech vidíme, že je důležitý také kontext.

Čekají na vás gigabajty nebo snad terabajty neroztříděných dokumentů? Nemusíte to být vy, kdo se jimi probere, dokonce to nemusí být ani nikdo z vašich kolegů. Ozvěte se nám a najdeme pro vás řešení.

---------------------------------------------------------------------------------------------------------------------------------

Autor článku: Jiří Pešák

Zdroj: https://www.gaussalgo.com/learn-with-me/rozpoznavani-citlivych-udaju-v-textu-ner-pro-laiky

 

Další novinky z kategorie - Digitalizace a automatizace

Na tomto webu používáme soubory cookies, abychom mohli zajistit jeho plnou funkčnost, analyzovat návštěvnost a případně přizpůsobit vhodně obsah a reklamu konkrétním uživatelům. Veškeré takto získané informace zpracováváme v souladu s dokumentem Prohlášení o ochraně osobních údajů.