Przejdź do treści
[PREMIERA]

Nie własne, ale swoje. Znajdź swoje m.

Publikacje Data publikacji: 26 czerwca 2026

Start z polskim AI. Od pomysłu do wdrożenia #Radlab

Autor Patryk Bitner Młodszy Specjalista ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Autor Magdalena Bryś Ekspertka ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Polski Fundusz Rozwoju S.A.

Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań. Zapraszamy do rozmowy z Pawłem Kędzią z firmy Radlab - Research and Development Laborator.

W firmowych dokumentach często znajdują się dane osobowe, finansowe i inne informacje wrażliwe. Jak można je bezpiecznie chronić, nie rezygnując z efektywnej pracy na dokumentacji? I jak AI w tym pomoże?

Bezpieczeństwo danych trudno zdefiniować jedną, uniwersalną regułą. W praktyce jego zakres zależy od konkretnego wdrożenia, rodzaju przetwarzanych informacji oraz wymagań organizacji. Istotną rolę odgrywa tu inspektor ochrony danych, który określa granice i warunki niezbędne do zgodnego z prawem przetwarzania danych, zwłaszcza w kontekście RODO.

Nie chodzi wyłącznie o bezpieczeństwo techniczne czy programistyczne. Kluczowe jest również ograniczenie możliwości jednoznacznej identyfikacji osoby oraz ochrona całego kontekstu informacji, które mogą pozwolić na jej rozpoznanie. Zakres danych wymagających ochrony może być różny w zależności od branży. Inne wymagania będą miały szpitale, inne kancelarie prawne, a jeszcze inne banki.

Dziś wiele organizacji korzysta z rozwiązań chmurowych, w tym z modeli generatywnych i agentów AI. Wiąże się to z ryzykiem, że dane wpisywane przez użytkowników lub wykorzystywane przez systemy mogą zostać przesłane do zewnętrznego dostawcy. Dotyczy to nie tylko dokumentów, ale również kodu tworzonego przez programistów, danych zapisywanych w bazach czy treści rozmów prowadzonych z chatbotami.

Naszym celem było stworzenie warstwy komunikacyjnej, która pozwala ograniczać to ryzyko. Anonimizacja dokumentów jest jednym z możliwych zastosowań, ale sama metoda ma znacznie szerszy charakter. Może działać na poziomie dokumentów, pojedynczych zapytań, danych przesyłanych do bazy danych czy komunikacji z zewnętrznym modelem generatywnym.

Anonimizację rozumiemy tutaj jako proces wykrywania i ochrony określonych informacji, nie tylko danych osobowych, ale również innych danych wrażliwych lub biznesowo istotnych. Mogą to być między innymi numery PESEL, imiona i nazwiska, adresy, adresy e mail czy dane charakterystyczne dla konkretnej organizacji. To, jakie elementy należy chronić, powinno być definiowane indywidualnie, zgodnie z polityką bezpieczeństwa firmy i wymaganiami inspektora ochrony danych.

Technicznie rozwiązanie wykorzystuje podejście hybrydowe. Łączy mechanizmy oparte na wyrażeniach regularnych z semantycznym, kontekstowym wykrywaniem nazwanych encji. Dzięki temu może identyfikować dane zarówno według ich struktury, jak i znaczenia w konkretnym kontekście.

Istotne jest również to, że rozwiązanie działa niezależnie od formatu danych i sposobu jego wykorzystania. Udostępniamy je przez API REST, dzięki czemu może zostać zintegrowane z różnymi systemami, obsługą plików, tekstem wpisywanym przez użytkownika, bazami danych czy komunikacją z modelami generatywnymi. Nie ograniczamy się więc do jednego scenariusza, takiego jak anonimizacja dokumentów, lecz oferujemy uniwersalną warstwę ochrony danych w procesach wykorzystujących AI i usługi chmurowe.

Jak działa automatyczna anonimizacja dokumentów – i rozwiązanie, które proponujcie na rynku, jakim jest OMNI-MASK?

W praktyce rozwiązanie działa na dwóch poziomach. Na poziomie niskim jest to biblioteka obsługująca cały proces anonimizacji danych. Zawiera mechanizmy odpowiedzialne za wykrywanie, klasyfikowanie i anonimizowanie wskazanych informacji.

Na poziomie wysokim dostępne są gotowe interfejsy, które umożliwiają testowanie procesu anonimizacji. Jednym z nich jest interfejs webowy, pozwalający sprawdzić działanie rozwiązania bez konieczności wdrażania go w istniejącym systemie.

Drugim rozwiązaniem jest OMNI-MASK, czyli dedykowana aplikacja desktopowa uruchamiana bezpośrednio na komputerze użytkownika. W tym przypadku mechanizm anonimizacji jest wbudowany w aplikację. Metoda, która w innych zastosowaniach może być wywoływana przez API REST, tutaj działa lokalnie, bezpośrednio w środowisku aplikacji.

Dzięki temu OMNI-MASK można uruchomić na praktycznie dowolnym komputerze poprzez otwarcie skompilowanego programu. Aplikacja ładuje model anonimizujący oraz wszystkie niskopoziomowe mechanizmy niezbędne do przetwarzania danych. Użytkownik korzysta z gotowego narzędzia, bez potrzeby samodzielnej integracji biblioteki lub budowania połączenia z API.

Dla jakich firm, działów i branż OMNI-MASK będzie najbardziej przydatny? 

Proponowane przez nas rozwiązanie nie jest ukierunkowane na jedną konkretną branżę ani domenę. Zostało zaprojektowane jako uniwersalna warstwa anonimizacji danych, którą można wykorzystać w wielu różnych procesach i środowiskach.

Oczywiście w bardziej wyspecjalizowanych zastosowaniach może wymagać dostosowania do konkretnego przypadku. Przykładem są dokumenty prawne, w których za dane osobowe mogą być uznawane również wypowiedzi konkretnych osób lub informacje pozwalające na ich pośrednią identyfikację. W takich sytuacjach rozwiązanie należy skonfigurować zgodnie ze specyfiką dokumentów, procesów oraz wymagań organizacji.

Punktem wyjścia jest jednak szeroko rozumiana ochrona danych osobowych i zgodność z RODO. Są to zasady, które w podstawowym zakresie są podobnie rozumiane niezależnie od branży. Dlatego rozwiązanie może być stosowane wszędzie tam, gdzie organizacja przetwarza dane osobowe i chce ograniczyć ryzyko ich ujawnienia.

Może wspierać automatyzację procesów działających wewnątrz istniejących systemów, a także być wykorzystywane jako samodzielna aplikacja. Przykładowo może służyć w administracji publicznej do anonimizacji dokumentów krążących wewnątrz organizacji. Jeżeli dany proces wymaga spełnienia standardowych wymagań RODO, proponowane rozwiązanie może stanowić odpowiednią warstwę ochrony danych.

Jakie są najważniejsze korzyści biznesowe z wdrożenia — oszczędność czasu, bezpieczeństwo czy zgodność?

Jedną z najważniejszych korzyści jest przełamanie bariery związanej z wdrażaniem do środowiska produkcyjnego systemów, które muszą spełniać wymagania RODO. Rozwiązanie pozwala ograniczyć ryzyko związane z przetwarzaniem danych osobowych i ułatwia bezpieczne wykorzystanie technologii, w tym usług chmurowych oraz modeli generatywnych.

Trudno przeliczyć tę wartość bezpośrednio na konkretną korzyść finansową. Jej znaczenie wynika przede wszystkim z ograniczenia ryzyka wycieku danych, nieuprawnionego dostępu do informacji oraz wykorzystania danych w celach innych niż zakładane przez organizację.

W praktyce rozwiązanie wspiera firmy i instytucje w bezpieczniejszym uruchamianiu systemów, które przetwarzają dane osobowe. Dzięki temu organizacja może szybciej wdrażać nowe narzędzia, zachowując większą kontrolę nad informacjami i zgodnością procesów z wymaganiami RODO.

Jak wygląda wdrożenie i czy można przetestować narzędzie na własnych dokumentach?

Rozwiązanie udostępniamy w modelu open source i cały czas je rozwijamy. Anonimizator jest częścią szerszego projektu o nazwie LLM Router.

LLM Router działa jako bramka pośrednicząca w komunikacji z modelami generatywnymi. Jeżeli aplikacja wysyła zapytania do zewnętrznego modelu, można skonfigurować LLM Router jako docelowy host, do którego trafiają te zapytania. Bramka może następnie realizować proces anonimizacji przed przekazaniem danych do modelu generatywnego.

Projekt jest dostępny na licencji Apache 2.0 w serwisie GitHub, co umożliwia jego wykorzystanie zarówno komercyjne, jak i niekomercyjne. Oprócz kodu źródłowego udostępniamy również gotowe obrazy, które można uruchomić we własnym środowisku. Do korzystania z pełnej funkcjonalności LLM Routera wystarczy podłączyć własny model generatywny.

Jeżeli użytkownik chce korzystać wyłącznie z anonimizatora, może pobrać i uruchomić obraz rozwiązania. Po uruchomieniu dostępne są wszystkie funkcje związane z anonimizacją danych.

Osobnym narzędziem jest aplikacja desktopowa przeznaczona do anonimizacji dokumentów. Jej kod również został udostępniony w serwisie GitHub. Obecnie aplikacja wymaga uruchomienia z poziomu kodu, natomiast pracujemy nad przygotowaniem wersji skompilowanej, gotowej do bezpośredniego uruchomienia na komputerze.

Dostępna jest także publiczna usługa testowa, która pozwala sprawdzić działanie anonimizatora bez instalowania rozwiązania we własnym środowisku. Użytkownik może wkleić tekst do formularza lub przetestować proces anonimizacji w rozmowie z czatem. Niezależnie od wybranego interfejsu, czy jest to aplikacja desktopowa, interfejs webowy czy integracja z LLM Routerem, proces opiera się na tym samym algorytmie, dlatego rezultat anonimizacji pozostaje spójny.

Co Twoim zdaniem najbardziej przyspieszyłoby adopcję polskich modeli językowych w biznesie?

Wśród najważniejszych czynników, które mogą przyspieszyć wdrażanie takich rozwiązań, znajdują się regulacje, sprawdzone praktyki oraz dostępność technologii.

Jeszcze kilka lat temu kwestie ochrony danych i bezpieczeństwa w kontekście sztucznej inteligencji były często traktowane jako temat przyszłości. Dziś, między innymi ze względu na rosnącą liczbę incydentów związanych z wyciekami danych, organizacje coraz wyraźniej dostrzegają konieczność odpowiedzialnego zarządzania informacjami.

Duże znaczenie mają regulacje, ale równie ważne są praktyczne wskazówki pokazujące, jak spełniać wymagania w konkretnych procesach. Organizacje potrzebują nie tylko zasad, lecz także sprawdzonych ścieżek wdrożenia, wzorców postępowania i narzędzi, które upraszczają ocenę zgodności. Dzięki temu zarządom łatwiej podjąć decyzję o wdrożeniu rozwiązania, ponieważ mogą lepiej ocenić jego bezpieczeństwo, zakres ryzyka oraz zgodność z wymaganiami prawnymi.

Drugim istotnym obszarem jest bariera technologiczna. Nie każda organizacja dysponuje sprzętem umożliwiającym lokalne uruchamianie dużych modeli generatywnych. W przypadku naszego rozwiązania wykorzystujemy jednak modele językowe innego typu niż modele generatywne. Zostały one dobrane tak, aby mogły działać również na standardowym sprzęcie, bez konieczności korzystania z karty graficznej.

Rozwiązanie może być uruchamiane na dwa sposoby. Pierwszy polega na wykorzystaniu API wewnątrz infrastruktury organizacji. W takim modelu system działa na jednej, odpowiednio przygotowanej maszynie, a pozostałe aplikacje wysyłają do niego żądania przez wewnętrzne API. Pozwala to ograniczyć koszty infrastruktury, ponieważ każda aplikacja lub każde stanowisko nie musi dysponować wydajnym sprzętem. Jednocześnie dane pozostają w zaufanym środowisku organizacji.

Drugą opcją jest uruchomienie rozwiązania lokalnie, bezpośrednio na komputerze użytkownika. Taki model może być szczególnie przydatny w sytuacjach, w których dane nie powinny opuszczać konkretnego stanowiska pracy.

W przypadku szeroko rozumianej sztucznej inteligencji część barier technologicznych można ograniczać poprzez wykorzystanie mniejszych, wyspecjalizowanych modeli. Nadal jednak lokalne uruchamianie dużych modeli generatywnych, zwłaszcza wykorzystywanych do tworzenia tekstu, może stanowić wyzwanie sprzętowe dla wielu organizacji.

Dziękujemy za rozmowę.

Cykl rozmów „Start z polskim AI – od pomysłu do wdrożenia” jest realizowany w ramach programu Centrum Kompetencji AI.