Przejdź do treści
NOWOŚĆ

Rusza program Innovate Poland – 4 mld PLN na wsparcie dla firm! Sprawdź szczegóły.

Publikacje Data publikacji: 06 lutego 2026

Start z polskim AI – od pomysłu do wdrożenia # RASP

Start z polskim AI - Rozmowa w ramach programu Centrum Kompetencji AI
Start z polskim AI - Rozmowa w ramach programu Centrum Kompetencji AI
Autor Magdalena Bryś Ekspertka ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Autor Patryk Bitner Młodszy Specjalista ds. rozwoju innowacji, Departament Rozwoju Innowacji | Polski Fundusz Rozwoju S.A.
Polski Fundusz Rozwoju S.A.

Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań. Zapraszamy do rozmowy z Mateuszem Buczyńskim, Head of Data Science w Ringier Axel Springer Polska.

Co skłoniło RASP do wyboru i wykorzystania polskiego modelu językowego Bielik.AI w Waszych rozwiązaniach technologicznych?

Tak naprawdę w tym konkretnym projekcie do Bielika bezpośrednio namówił nas Paweł Gołąb. Poznaliśmy się na jednej z konferencji, podczas której Paweł prezentował narzędzie, które stworzył, czyli Networks Notebook. Bardzo mnie ono wtedy zainteresowało, bo mocno skojarzyło się z tym, jak pracują dziennikarze śledczy w redakcjach, czyli z łączeniem wątków i informacji pochodzących z wielu różnych źródeł.

Dziś taka praca w dużej mierze nadal odbywa się ręcznie. Oczywiście modele językowe już ją przyspieszyły. Dziennikarze korzystają chociażby z NotebookLM czy z google’owego Pinpointa, ale działamy na polskim poletku. A polskich dokumentów i treści w języku polskim jest bardzo dużo, co wciąż stanowi spore wyzwanie.

Wspólnie z Pawłem doszliśmy do wniosku, że warto spróbować nawiązać współpracę i wypracować rozwiązanie oparte na polskim modelu językowym. Ponieważ Paweł był blisko związany ze środowiskiem Bielika, to naturalnie ten kierunek został zaproponowany.

Naszym celem było realne uproszczenie pracy dziennikarzy. Nie chodziło jednak o tę część pracy, którą już dziś mogą wspierać dostępne narzędzia. Chodziło nam nie tylko o streszczanie dokumentów, OCR czy transkrypcję, bo takie rozwiązania już istnieją, ale przede wszystkim o coś więcej, czyli automatyczne wyciąganie encji z dokumentów i łączenie ich w graf zależności.

Na rynku nie było wtedy i w zasadzie nadal nie ma narzędzia, które robiłoby to tak dobrze jak rozwiązanie Pawła. I właśnie ta innowacyjność była dla nas kluczowym impulsem do rozpoczęcia pracy w tym kierunku.

To brzmi bardzo ciekawie, zwłaszcza że mówimy o obszarze dziennikarskim i pracy mediów. Czy mógłby Pan opowiedzieć, jaką konkretnie potrzebę w zakresie researchu i łączenia informacji udało się rozwiązać dzięki temu rozwiązaniu? Z jakimi problemami dziennikarze mierzyli się wcześniej i co realnie się zmieniło?

Obszar dziennikarski jest dla nas jednym z największych źródeł pomysłów, jeśli chodzi o projekty, które można rozwiązywać metodami data science. Narzędzie, o którym mówimy, czyli narzędzie do tworzenia grafów, odpowiada na bardzo konkretny problem. Jest nim identyfikacja osób, zdarzeń i miejsc w różnych typach treści, nie tylko w tekstach pisanych, ale także w materiałach graficznych czy w treściach pochodzących z mediów społecznościowych, takich jak Twitter czy Facebook.

Z takich źródeł możemy bezpośrednio pobierać treści i automatycznie rozpoznawać, że w danym materiale pojawiają się konkretne osoby, miejsca lub inne istotne elementy. Te encje definiujemy za pomocą promptów, a zadaniem Bielika jest przeanalizowanie całego dostarczonego materiału i wskazanie, gdzie dokładnie w tekście czy treści te encje się pojawiają. To jest ta część, którą realnie rozwiązuje model językowy.

Do tego dołożyliśmy warstwę grafową. Jeżeli ta sama encja występuje w różnych dokumentach, oznacza to, że można je ze sobą połączyć. W bardzo podobny sposób działają grafowe RAG-i, gdzie nie korzystamy z płaskiej bazy dokumentów, ale z grafu relacji, który w bardziej inteligentny sposób łączy informacje między sobą.

Dzięki temu dziennikarz może zamienić swoje notatki, materiały źródłowe czy wywiady w jeden spójny graf wiedzy. I to jest moment, w którym zaczyna się najciekawsza część. Taki graf może być dalej wykorzystany jako grafowy RAG, a dziennikarz może komunikować się z modelem językowym, z Bielikiem, zadając pytania dotyczące zgromadzonych materiałów. Może zapytać, co się wydarzyło, jakie relacje łączyły konkretne osoby, albo czy w tych danych widać potencjalne nowe poszlaki, których wcześniej nie zauważył.

W praktyce bardzo upraszcza to etap porządkowania i kondensacji informacji. Dziennikarz nie musi już trzymać całego researchu w głowie. Ma go uporządkowanego w formie grafu, który pomaga mu kontynuować śledztwo, a na końcu znacznie ułatwia przełożenie tej pracy na tekst, artykuł czy raport.

Mówił Pan o dopasowaniu Bielika do docelowego języka pracy. A na co jeszcze zwracaliście uwagę przy tej decyzji? Mam na myśli nie tylko jakość języka, ale też kwestie takie jak bezpieczeństwo, zgodność czy inne argumenty, które przemawiały za polskim modelem.

Kierujemy się zasadą wyboru najlepszego narzędzia do rozwiązania konkretnego problemu. Jeśli tworzymy rozwiązania dedykowane całej, międzynarodowej grupie, wtedy korzystamy z rozwiązań opartych o wielojęzyczne modele LLM. One dobrze radzą sobie z inputem w różnych językach i wykorzystujemy je między innymi do automatycznego tagowania treści, wykrywania kategorii semantycznych czy wspierania redaktorów w doborze zdjęć do tekstów. Natomiast w tym konkretnym przypadku zdecydowaliśmy się na Bielika, ponieważ projekt był tworzony dla polskich redakcji  i miał realizować ich konkretne cele. W tym kontekście kluczowy był język, którym na co dzień posługują się nasze redakcje. Mamy ich w Polsce kilkanaście, a łącznie zatrudniamy około pięciuset redaktorów i redaktorek, więc skala pracy z językiem polskim jest bardzo duża. W takiej sytuacji naturalnym wyborem jest taki model jak Bielik, który ten język naprawdę dobrze rozumie, a jednocześnie ma bardzo dobre wyniki. Dodatkowym atutem była łatwość i szybkość wdrożenia. Model był gotowy do pobrania z Hugging Face’a, co pozwoliło nam bardzo sprawnie rozpocząć testy.

Czyli korzystaliście z modelu dostępnego na Hugging Face.

Każdy deweloper może tak naprawdę skorzystać z wersji modelu dostępnej na Hugging Face. My wykorzystaliśmy go w ten sposób, że zintegrowaliśmy go z edytorem tekstowym w naszym CMS-ie, w ramach platformy Ring Publishing. Dzięki temu redaktorzy automatycznie otrzymali ulepszoną autokorektę.

Nie chodziło nam jednak tylko o poprawianie błędów, a na poprawie zrozumiałości tekstu, jego jakości lingwistycznej i semantycznej, tak aby treści były prostsze, bardziej klarowne i lepiej dopasowane do odbiorcy.

W efekcie redaktorzy dostali narzędzie, które realnie pomaga pisać lepsze i bardziej przystępne teksty.

A czy pojawiły się jakieś wyzwania przy wdrażaniu tych rozwiązań, w tym także tego opartego na Bieliku?

Wyzwania możemy podzielić w zależności od tego, kto jest odbiorcą naszych produktów. Jeżeli mówimy o rozwiązaniach wewnętrznych, przeznaczonych dla naszych pracowników,to z perspektywy technologicznej jest to relatywnie mniejsza skala. W takich przypadkach nie musimy aż tak bardzo martwić się infrastrukturą. Możemy pozwolić sobie na uruchamianie modeli na żądanie, korzystać z kart GPU albo wystawiać proste wywołania funkcji, bo koszty pozostają pod kontrolą.

Sytuacja komplikuje się w momencie, gdy chcemy wystawić rozwiązanie dla odbiorców zewnętrznych, czyli dla naszych klientów i czytelników. Mam tu na myśli użytkowników i użytkowniczki Onetu czy innych marek mediowych RASP. Wtedy skala ruchu jest zupełnie inna i pojawiają się dwa kluczowe wyzwania. Po pierwsze, czy model poradzi sobie z tak dużym ruchem. Po drugie, czy potencjalne zyski wynikające ze zmiany produktu mediowego i wprowadzenia nowych rozwiązań będą wyższe niż koszty ich utrzymania.

Jak wyglądał proces wdrożenia Waszego większego rozwiązania, Onet Chat z AI?

W przypadku Onet Czatu z AI, to jeśli chodzi o sam proces wdrożenia, to pomysł pojawił się w 2023 roku, a zasadniczy development trwał przez około pół roku w 2024 roku. Był to etap intensywnych prac koncepcyjnych, w trakcie których sprawdzaliśmy, czy takie rozwiązanie w ogóle ma sens, na jakiej architekturze je postawić i co powinno oferować od strony produktowej. Po tym etapie uruchomiliśmy pierwsze testy na bardzo ograniczonym ruchu. Dostęp do rozwiązania miała niewielka grupa wybranych czytelników, którzy mogli je przetestować i przekazać feedback. Po kolejnych dwóch lub trzech miesiącach przeszliśmy do testów na większą skalę. Na początku 2025 roku rozwiązanie zostało udostępnione wszystkim użytkownikom, zrobiliśmy to jako pierwsi w Polsce. Cały proces, od pomysłu do pełnego wdrożenia, zajął więc około roku. Co istotne, największą część tego czasu poświęciliśmy nie na samą technologię, ale na znalezienie odpowiedzi na pytanie, jak dostarczyć użytkownikowi realną wartość i sprawić, żeby faktycznie chciał z tego rozwiązania korzystać.

Jakie funkcjonalności finalnie znalazły się w ofercie i w jaki sposób realnie wspierają użytkownika w odbiorze treści? I jak przy tym podeszliście do kwestii bezpieczeństwa oraz jakości generowanych odpowiedzi?

W ofercie znalazły się dwie kluczowe funkcjonalności. Pierwsza to streszczenie artykułu, czyli skondensowanie zawartych w nim informacji do bardzo krótkiej, łatwej do szybkiego przyswojenia formy. Z tego rozwiązania korzystamy dziś nie tylko w jednym miejscu, ale również w innych częściach serwisu. Druga funkcjonalność to pogłębianie informacji. Jeżeli użytkownik czyta artykuł na przykład o konfliktach na Bliskim Wschodzie i pojawia się kolejna odsłona takiego konfliktu, to dużą wartością dodaną jest możliwość zadania pytania w stylu: dlaczego ten konflikt trwa tak długo albo jakie były jego historyczne przyczyny i dlaczego ponownie doszło do eskalacji. Dzięki temu użytkownik nie musi samodzielnie szukać kontekstu w wielu źródłach. Warto też podkreślić, że poza warstwą stricte produktową i data science’ową, bardzo istotnym elementem była architektura i bezpieczeństwo całego rozwiązania. Korzystaliśmy z modeli dostarczanych przez zewnętrznego dostawcę, których nie hostowaliśmy u siebie, więc nie mieliśmy pełnej kontroli nad modelem jako takim. Musieliśmy więc zaprojektować architekturę zapytań w taki sposób, aby minimalizować ryzyko halucynacji i niepożądanych odpowiedzi. Nie możemy sobie pozwolić na sytuacje, w których generowane odpowiedzi byłyby nieprecyzyjne, wprowadzające w błąd albo po prostu nieakceptowalne z punktu widzenia odpowiedzialności redakcyjnej.

Jak mierzycie efektywność tego wdrożenia? Jakie wskaźniki dla Was są najważniejsze?

Dla nas kluczowym wskaźnikiem jest faktyczne użycie nowych funkcji – czy mowa o Onet Czat z AI czy narzędziach dla redakcji. Przede wszystkim mierzymy więc adopcję w czasie, czyli to, czy użytkownicy, wchodząc na stronę, w ogóle są zainteresowani korzystaniem z takiego rozwiązania i czy wracają do niego regularnie.

Prowadzimy też bardziej pogłębione analizy dotyczące kontekstu użycia. Sprawdzamy, w jakich kategoriach treści użytkownicy najczęściej sięgają po wsparcie AI, czy są to teksty lifestylowe, polityczne czy inne obszary tematyczne. Analizujemy również same pytania zadawane przez użytkowników. Poza gotowymi interakcjami mogą oni wpisywać własne zapytania bezpośrednio do artykułów i to daje nam bardzo cenną wiedzę o tym, czego im brakuje albo co jest dla nich niejasne.

Te dane są dla nas ważnym źródłem informacji zwrotnej. Dzięki nim widzimy luki w treściach, które publikujemy, i możemy lepiej dopasowywać je do realnych potrzeb odbiorców. W praktyce pozwala nam to nie tylko rozwijać produkt, ale też poprawiać samą jakość pracy dziennikarskiej.

Jeśli chodzi o sposób zbierania danych, to główną bazą są eventy z realnego wykorzystania narzędzia. Uzupełniamy je o prostą ankietę satysfakcji, w której użytkownicy mogą po zakończeniu interakcji ocenić swoje doświadczenie za pomocą systemu gwiazdek. Wiemy, że tylko niewielki procent użytkowników wypełnia ankiety, dlatego traktujemy je raczej jako dodatkowe źródło sygnału niż główny miernik.

A na koniec chciałbym zapytać o dalsze plany. Jakie są kolejne kierunki rozwoju wykorzystania modeli językowych w obszarze dziennikarskim u Was? Czy rozważacie kolejne obszary, gdzie użyjecie LLM-u lub też może nowe funkcjonalności w tym obszarze, w którym już używacie go?

Na rynku wciąż brakuje narzędzi, które umożliwiałyby zaawansowany fact checking w czasie rzeczywistym. Owszem, istnieją rozwiązania wykrywające treści generowane przez modele językowe, ale znacznie trudniej jest automatycznie sprawdzić, czy informacje pojawiające się w mediach społecznościowych albo w wypowiedziach polityków mają faktyczne potwierdzenie w danych źródłowych.

Naszym celem jest to, aby dostarczać informacje możliwie najbardziej rzetelne i potwierdzone, a jednocześnie robić to jak najszybciej. Chcemy być pierwsi, ale nie kosztem wiarygodności. Połączenie szybkiej publikacji z solidnym fact checkingiem to bardzo złożony proces, jednak właśnie w tym obszarze widzimy jeden z najważniejszych kierunków dalszego wykorzystania AI i modeli językowych w mediach.

Warto też na chwilę wrócić do tematu mierzenia efektywności, bo interesuje nas nie tylko adopcja po stronie użytkowników zewnętrznych, ale również to, jak narzędzia AI są wykorzystywane wewnątrz organizacji. Analizujemy, w jaki sposób redaktorzy korzystają z udostępnionych im rozwiązań, jaka część artykułów była wspierana przez modele językowe, czy LLM-y były wykorzystywane do pozyskiwania informacji z internetu oraz jak ta adopcja zmienia się w czasie. Podobnie patrzymy na inne działy w firmie.

W obszarze technologicznym również obserwujemy bardzo wyraźny wzrost wykorzystania narzędzi AI. Monitorujemy jak wiele osób korzysta z rozwiązań takich jak Copilot czy narzędzia do pisania kodu w chmurze i widzimy wyraźny zwrot w stronę bardziej agentowego podejścia do programowania.

A co Pana zdaniem najbardziej przyspieszyłoby adopcję polskich modeli językowych w biznesie? Czy to jest być może kwestia edukacji, dostępności rozwiązań, czy też być może regulacji?

Z mojej perspektywy dostępność polskich modeli językowych jest dziś całkiem dobra, a świadomość ich istnienia, przynajmniej w środowisku data science i AI, jest naprawdę wysoka. Bielik czy PLLuM są mocno obecne na konferencjach, pojawiają się na uczelniach i funkcjonują w dyskusjach branżowych.

Wydaje mi się jednak, że adopcję polskich modeli najbardziej przyspieszyłoby dalsze, bardzo konkretne pokazywanie obszarów, w których mają one realną przewagę. Trzeba uczciwie powiedzieć, że w najbliższym czasie nie będą konkurować z największymi modelami pod względem skali inwestycji, liczby parametrów czy wyników w ogólnych benchmarkach. Tam nakłady finansowe i tempo rozwoju są po prostu ogromne i trudno będzie je dogonić.

Są jednak takie obszary, w których polskie modele już dziś wygrywają. Mam na myśli przede wszystkim polszczyznę i bardzo specyficzne, lokalne problemy językowe. W miejscach, gdzie kluczowa jest naprawdę dobra, a czasem wręcz perfekcyjna obsługa języka polskiego, takie modele jak Bielik czy PLLuM mają realną przewagę i to właśnie , moim zdaniem, powinno być najmocniej eksponowane, jeśli chcemy przyspieszyć ich adopcję w biznesie.

Dziękujemy za rozmowę!

Cykl rozmów „Start z polskim AI – od pomysłu do wdrożenia” jest realizowany w ramach programu Centrum Kompetencji AI.