Przejdź do treści
[PREMIERA]

Nie własne, ale swoje. Znajdź swoje m.

Publikacje Data publikacji: 24 czerwca 2026

Start z polskim AI. Od pomysłu do wdrożenia # Instytut Podstaw Informatyki PAN

centrum kompetencji AI PAN
centrum kompetencji AI PAN
Autor Patryk Bitner Młodszy Specjalista ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Autor Magdalena Bryś Ekspertka ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Polski Fundusz Rozwoju S.A.

Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań. Zapraszamy do rozmowy z dr inż. Łukaszem Kobylińskim Instytutu Podstaw Informatyki PAN.

Na początek proszę opowiedzieć, czym zajmuje się Zespół Inżynierii Lingwistycznej w IPI PAN?

Zespół Inżynierii Lingwistycznej, zgodnie ze swoją nazwą, od wielu lat zajmuje się przetwarzaniem języka naturalnego (Natural Language Processing, NLP). W ramach tej działalności rozwijamy metody, tworzymy zasoby językowe oraz budujemy narzędzia, które pozwalają komputerom analizować, rozumieć i generować język w sposób możliwie najbardziej zbliżony do ludzkiego.

Jako część Instytutu Podstaw Informatyki PAN prowadzimy również badania podstawowe, koncentrując się na opracowywaniu nowych metod i algorytmów. Jednocześnie tworzymy praktyczne rozwiązania, które znajdują zastosowanie w biznesie, administracji, środowisku naukowym oraz wśród użytkowników indywidualnych. Istotnym obszarem naszej działalności jest także tworzenie zasobów językowych. Są to między innymi korpusy tekstowe, słowniki oraz różnego rodzaju bazy wiedzy lingwistycznej. Takie zasoby służą zarówno badaczom, jak i systemom komputerowym uczącym się przetwarzania języka. Dzięki nim możliwe jest rozwijanie coraz bardziej zaawansowanych technologii językowych.

Zakres naszych prac jest bardzo szeroki. Kiedy mówimy o analizie tekstu przez komputer, może chodzić zarówno o automatyczne wydobywanie informacji, jak i o analizę gramatyczną czy składniową zdań. Zajmujemy się więc m.in. ekstrakcją informacji, przetwarzaniem semantycznym tekstów oraz lingwistyką korpusową, czyli badaniem języka na podstawie dużych zbiorów tekstów. Takie korpusy można przeszukiwać i analizować, co pozwala lepiej zrozumieć sposób funkcjonowania języka.

Jednym z naszych najbardziej rozpoznawalnych projektów jest Narodowy Korpus Języka Polskiego, który przez wiele lat stanowił podstawowe źródło danych wykorzystywane przez językoznawców i badaczy języka polskiego. To obszerny, przeszukiwalny zbiór tekstów reprezentujących współczesną polszczyznę z XX i pierwszej dekady XXI wieku. Niedawno powstał również Korpus Współczesnego Języka Polskiego obejmujący najnowsze teksty stworzone po roku 2010 i stanowiący aktualne źródło wiedzy o języku używanym współcześnie.

Jakie są najważniejsze obszary badań i projektów realizowanych obecnie przez Państwa zespół? 

Nasz zespół współpracuje zarówno z partnerami krajowymi, jak i międzynarodowymi. Jeśli chodzi o główne obszary badań, to obecnie jednym z najważniejszych tematów są duże modele językowe oraz sztuczna inteligencja. Warto jednak pamiętać, że współczesna sztuczna inteligencja w dużej mierze wyrosła z przetwarzania języka naturalnego. To właśnie od NLP zaczęły się prace nad modelami językowymi, które z czasem ewoluowały od mniejszych rozwiązań do dużych modeli generatywnych. Dlatego jest to obszar, którym również się zajmujemy i który naturalnie wpisuje się w nasze kompetencje.

W ramach współpracy z partnerami komercyjnymi uczestniczyliśmy między innymi w tworzeniu modelu HerBERT, rozwijanego wspólnie z firmą Allegro. Jest to jeden z ważniejszych kamieni milowych w procesie rozwoju modeli służących do analizy i przetwarzania języka polskiego. Braliśmy również udział w projekcie PLLuM, którego celem jest rozwój dużych modeli językowych dla języka polskiego.

Kolejnym ważnym obszarem naszej działalności jest tworzenie zasobów językowych i narzędzi do ich przetwarzania. Obejmuje to projekty takie jak Narodowy Korpus Języka Polskiego, Korpus Współczesnego Języka Polskiego, Składnica, Polski Bank Drzew Zależnościowych, czy Korpus Dyskursu Parlamentarnego, włączony w europejski korpus ParlaMint. Rozwijamy także parsery i analizatory gramatyczne, takie jak COMBO czy Hydra, oraz narzędzia do automatycznej ekstrakcji terminów, między innymi TermoPL.

Istotnym kierunkiem badań jest również analiza dyskursu oraz cyfrowa humanistyka. W tym zakresie współpracujemy w ramach dużych konsorcjów naukowych, takich jak CLARIN i DARIAH. Są to międzynarodowe europejskie inicjatywy skupiające wiele jednostek badawczych, których celem jest tworzenie narzędzi informatycznych wspierających badania humanistyczne i społeczne. Dostarczamy rozwiązania pomagające językoznawcom i badaczom innych dyscyplin w prowadzeniu analiz na dużą skalę.

Współpracujemy także z Instytutem Języka Polskiego PAN oraz Instytutem Slawistyki PAN, szczególnie w obszarze przetwarzania tekstów historycznych. Współpracowaliśmy również przy tworzeniu Elektronicznego Korpusu Tekstów Polskich z XVII i XVIII w. Instytutu Języka Polskiego PAN. Jedną z mocnych stron zespołu jest doświadczenie w pracy z dawnymi odmianami języka oraz rozwijanie narzędzi dostosowanych do ich analizy. Jest to szczególnie ważne, ponieważ język historyczny znacząco różni się od współczesnej polszczyzny i wymaga zastosowania specjalistycznych metod przetwarzania.

Jakie rozwiązania stworzone przez IPI PAN są dziś najczęściej wykorzystywane przez naukowców, firmy lub instytucje publiczne? 

Naszymi najbliższymi odbiorcami są przede wszystkim instytucje naukowe oraz organizacje i firmy korzystające z rozwijanych przez nas narzędzi. Wiele z nich udostępniamy w modelu open source, dlatego często są wykorzystywane także przez podmioty, o których nawet nie wiemy, ponieważ ich użycie nie jest w żaden sposób rejestrowane. Wśród najważniejszych narzędzi rozwijanych przez nasz zespół znajduje się Morfeusz, analizator morfologiczny i fleksyjny języka polskiego. Jest on wykorzystywany jako fundament wielu innych rozwiązań językowych, umożliwiając rozpoznawanie form wyrazowych, ich części mowy oraz form podstawowych.

Jednym z narzędzi szczególnie popularnych w środowisku akademickim jest Korpusomat. To aplikacja internetowa służąca do tworzenia korpusów językowych, czyli dużych zbiorów tekstów przeznaczonych do badań językowych. Narzędzie umożliwia nie tylko gromadzenie tekstów, ale także ich automatyczne wzbogacanie o dodatkowe warstwy informacji. Obejmuje to między innymi rozpoznawanie części mowy, analizę składniową zdań, identyfikację nazw własnych, takich jak nazwy osób czy miejsc, a także analizę wydźwięku emocjonalnego tekstu.

Dzięki temu użytkownik może nie tylko przeszukiwać samą treść dokumentów, ale również prowadzić zaawansowane analizy językowe. Możliwe jest na przykład wyszukiwanie wszystkich rzeczowników, określonych konstrukcji gramatycznych, nazw własnych spełniających konkretne kryteria czy fragmentów o określonym charakterze emocjonalnym. Takie analizy byłyby praktycznie niemożliwe bez wcześniejszego automatycznego wzbogacenia tekstów o dodatkowe informacje językowe.

Korpusomat jest szeroko wykorzystywany na uczelniach i w projektach badawczych związanych z lingwistyką korpusową. Podobnie dużą rolę odgrywają tworzone przez nas zasoby językowe, takie jak Narodowy Korpus Języka Polskiego oraz jego następca, Korpus Współczesnego Języka Polskiego. Są to reprezentatywne zbiory tekstów, które pozwalają badać współczesne użycie języka, analizować częstotliwość występowania słów, fraz czy konstrukcji gramatycznych, a także obserwować zmiany zachodzące w polszczyźnie.

Kolejnym istotnym narzędziem jest COMBO, system służący do analizy zależności składniowych w zdaniach. Pozwala on określać relacje między poszczególnymi elementami wypowiedzi, co jest niezbędne w bardziej zaawansowanym przetwarzaniu języka naturalnego.

Współpracowaliśmy także przy rozwoju projektu Jasnopis, aplikacji oceniającej stopień zrozumiałości tekstu. Narzędzie analizuje treść pod kątem jej przystępności i wskazuje, czy dany tekst jest łatwy, czy trudny w odbiorze dla przeciętnego czytelnika. Dzięki temu znajduje zastosowanie między innymi w administracji publicznej, edukacji oraz komunikacji biznesowej, gdzie coraz większe znaczenie ma tworzenie prostych i zrozumiałych treści.

IPI PAN współtworzył model PLLuM. Czym jest ten projekt i jakie znaczenie ma dla rozwoju polskiej sztucznej inteligencji? 

PLLuM ma duże znaczenie przede wszystkim dlatego, że został stworzony z myślą o języku polskim. Od początku celem projektu było opracowanie modelu, który będzie jak najlepiej rozumiał specyfikę polszczyzny oraz polskiego kontekstu kulturowego. Wymagało to przygotowania odpowiednich danych treningowych i takiego procesu uczenia modelu, aby uwzględniał charakterystyczne cechy języka, jego złożoność oraz kontekst społeczny i kulturowy.

W tym celu wykorzystano szeroki zbiór polskojęzycznych materiałów, obejmujących między innymi literaturę, prasę oraz inne źródła tekstowe. Konieczne było również nawiązanie współpracy z wydawcami i pozyskanie odpowiednich licencji, aby zgromadzić jak największą liczbę wartościowych danych. Dzięki temu model mógł zostać wytrenowany na zasobach odzwierciedlających rzeczywiste użycie języka polskiego.

Znaczenie projektu wykracza jednak poza sam aspekt językowy. PLLuM jest także istotny z punktu widzenia suwerenności cyfrowej. To niezależny model rozwijany w Polsce, co oznacza mniejsze uzależnienie od zagranicznych i komercyjnych rozwiązań. Daje to większą kontrolę nad technologią, zapewnia ciągłość dostępu oraz możliwość dalszego rozwijania modelu zgodnie z krajowymi potrzebami. Organizacje korzystające z takiego rozwiązania zyskują większe bezpieczeństwo oraz stabilność, nie będąc całkowicie zależnymi od decyzji zewnętrznych dostawców technologii.

Jednym z założeń projektu było również stworzenie narzędzia wspierającego administrację publiczną, naukę i biznes. Szczególny nacisk położono na potrzeby sektora publicznego. Pierwsze prace wdrożeniowe i proces dostosowywania modelu koncentrowały się między innymi na obsłudze spraw urzędowych oraz odpowiadaniu na pytania obywateli. Celem było usprawnienie działania instytucji publicznych i wsparcie ich w realizacji codziennych zadań.

Nie bez znaczenia jest także fakt, że projekt był finansowany ze środków publicznych. Naturalną konsekwencją było więc dążenie do tego, aby efekty prac służyły jak najszerszemu gronu odbiorców i wspierały rozwój polskiego ekosystemu sztucznej inteligencji w administracji, nauce oraz gospodarce.

Dlaczego budowa modeli językowych dla języka polskiego jest ważna z perspektywy gospodarki i administracji?

Największą zaletą modelu PLLuM jest to, że został zaprojektowany jako rozwiązanie otwarte, bezpłatne i transparentne. Duży nacisk położono na bezpieczeństwo oraz jakość danych wykorzystywanych do jego trenowania. W ramach projektu świadomie unikano źródeł niepewnych lub budzących wątpliwości pod względem prawnym i jakościowym. Szczególną uwagę zwracano na to, aby wykorzystywane materiały były pozyskane legalnie, a jednocześnie nie zawierały treści niepożądanych czy mogących negatywnie wpływać na działanie modelu.

Ma to szczególne znaczenie w przypadku zastosowań w administracji publicznej. Korzystanie z modelu, którego pochodzenie danych i sposób trenowania są dobrze udokumentowane, ogranicza ryzyko związane z bezpieczeństwem, wiarygodnością odpowiedzi oraz generowaniem nieodpowiednich treści. W środowisku instytucji publicznych, gdzie kwestie zaufania i odpowiedzialności są kluczowe, jest to bardzo istotna przewaga.

Drugim ważnym atutem jest otwartość modelu. Oznacza ona nie tylko przejrzystość procesu jego tworzenia, ale także brak opłat licencyjnych za korzystanie z rozwiązania. Dzięki temu organizacje mogą wdrażać model bez ponoszenia dodatkowych kosztów związanych z dostępem do technologii oraz bez ryzyka uzależnienia od komercyjnych dostawców.

Istotną korzyścią jest również dostosowanie modelu do potrzeb administracji publicznej. PLLuM był trenowany między innymi na dokumentach urzędowych, aktach prawnych, uchwałach, rozporządzeniach oraz innych materiałach związanych z funkcjonowaniem instytucji publicznych. Dzięki temu lepiej rozumie język administracyjny i prawny oraz skuteczniej radzi sobie z zadaniami charakterystycznymi dla tego sektora.

Połączenie bezpieczeństwa, transparentności, bezpłatnego dostępu oraz specjalizacji w zakresie języka urzędowego sprawia, że PLLuM stanowi wartościowe narzędzie dla administracji publicznej, a także dla innych organizacji poszukujących wiarygodnych i niezależnych rozwiązań opartych na sztucznej inteligencji.

Co Państwa zdaniem najbardziej przyspieszyłoby adopcję polskich modeli językowych w biznesie?

W biznesie kluczowe znaczenie mają łatwość wdrożenia, szybkość integracji oraz niski próg wejścia. Z tego powodu obecnie przewagę mają przede wszystkim modele komercyjne. Oferują one łatwo dostępne interfejsy programistyczne (API), które umożliwiają szybkie rozpoczęcie pracy bez konieczności budowania własnej infrastruktury. Firmy mogą korzystać z takich rozwiązań niemal od razu, ponosząc początkowo stosunkowo niewielkie koszty.

Dodatkowym atutem jest rozbudowana dokumentacja, liczne przykłady zastosowań oraz szeroka społeczność użytkowników. Dzięki temu przedsiębiorstwa mogą łatwo znaleźć gotowe rozwiązania, sprawdzone praktyki i inspiracje do własnych wdrożeń. Wokół najpopularniejszych modeli komercyjnych powstał już rozbudowany ekosystem wiedzy, który znacząco ułatwia ich wykorzystanie.

W przypadku polskich modeli językowych sytuacja wygląda nieco inaczej. Ich największymi zaletami są otwartość, transparentność i brak opłat licencyjnych. Nadal jednak wyzwaniem pozostaje dostępność gotowych usług umożliwiających łatwe korzystanie z modeli za pośrednictwem API. W wielu przypadkach konieczne jest posiadanie własnej infrastruktury obliczeniowej, co stanowi dodatkową barierę dla części organizacji.

Istnieje również potrzeba dalszego rozwijania dokumentacji, materiałów edukacyjnych, przykładów wdrożeń oraz działań popularyzujących wykorzystanie tych technologii. Globalni dostawcy komercyjni dysponują znacznie większymi zasobami finansowymi i ogromną bazą użytkowników, którzy sami tworzą poradniki, publikują studia przypadków i dzielą się doświadczeniami. W przypadku polskich modeli skala jest mniejsza, dlatego budowanie podobnego zaplecza wymaga dodatkowego wysiłku.

Brakuje także elementów typowych dla komercyjnych produktów, takich jak rozbudowane wsparcie techniczne czy dedykowana obsługa klienta. Z jednej strony polskie modele oferują większą niezależność i kontrolę nad technologią, z drugiej wymagają jeszcze rozwoju całego otoczenia wspierającego ich praktyczne wykorzystanie.

Jednym z działań, które mogą przyspieszyć popularyzację krajowych modeli językowych, jest budowanie ekosystemu ich oceny i porównywania. W naszym zespole pracujemy między innymi nad benchmarkami oraz metodami ewaluacji modeli, ze szczególnym uwzględnieniem języka polskiego. Pozwala to sprawdzać, które rozwiązania najlepiej radzą sobie w konkretnych zastosowaniach.

Takie porównania mogą obejmować zarówno ogólne kompetencje językowe modeli, jak i wyspecjalizowane zadania, na przykład wyszukiwanie informacji, obsługę chatbotów czy zastosowania w określonych branżach, takich jak medycyna, turystyka, administracja czy prawo. Dzięki temu firmy i instytucje otrzymują wiarygodne dane pozwalające dobrać rozwiązanie najlepiej odpowiadające ich potrzebom.

W praktyce benchmarki i wyniki ewaluacji pełnią rolę podobną do studiów przypadków oraz materiałów promocyjnych tworzonych przez dostawców komercyjnych. Ułatwiają podejmowanie decyzji technologicznych i pokazują, w jakich scenariuszach konkretne modele sprawdzają się najlepiej. Dzięki temu organizacje mogą wdrażać sztuczną inteligencję w sposób bardziej świadomy i efektywny.

Dziękujemy za rozmowę!

Cykl rozmów „Start z polskim AI – od pomysłu do wdrożenia” jest realizowany w ramach programu Centrum Kompetencji AI.