Start z polskim AI. Od pomysłu do wdrożenia #Vstorm
Start z polskim AI to cykl rozmów, którego celem jest przedstawienie doświadczeń związanych z polskimi modelami językowymi AI oraz praktykami firm i instytucji we wdrażaniu tych rozwiązań. Zapraszamy do rozmowy z przedstawicielami zespołu Vstorm, w skład którego wchodzą: Wojciech Achtelik, Paweł Kiszczak oraz Kacper Włodarczyk.
Jak wyglądała geneza współpracy z Bielikiem – w jaki sposób doszło do jej nawiązania i jakie były główne motywacje towarzyszące jej rozpoczęciu?
Wojciech: Mogę zacząć od genezy tej współpracy. Jej początki sięgają momentu, w którym jeden z founderów Vstormu, Bartosz Gonczarek, przebywał w Stanach Zjednoczonych na konferencji, gdzie promował swoją książkę poświęconą sztucznej inteligencji oraz filozoficznym rozważaniom wokół tego obszaru. To właśnie tam nawiązał kontakt z przedstawicielami zespołu Bielika.
W kolejnym kroku doszło do spotkania - zespół Bielika odwiedził nas, a rozmowy dotyczyły realizowanych projektów oraz najczęstszych wyzwań, z jakimi mierzą się nasze zespoły. Krok po kroku staraliśmy się wspólnie określić, w jakich obszarach możemy realnie kontrybuować do rozwoju Bielika.
Ze strony zespołu Bielika szczególny nacisk położony był na dane, instrukcje co stało się dla nas głównym obszarem zaangażowania. Warto jednocześnie podkreślić, że współpraca znajduje się na wczesnym etapie - jest to inicjatywa rozpoczęta stosunkowo niedawno, co stanowi istotny kontekst dla dalszych działań.
Na czym konkretnie polega Państwa współpraca i jak wygląda ona w praktyce?
Paweł: Jeśli chodzi o praktyczny wymiar tej współpracy, warto zacząć od tego, że Bielik jest modelem otwartym. Jest to szczególnie istotne w sytuacjach, gdy pracujemy z klientami posiadającymi use case’y wymagające obsługi języka polskiego na bardzo wysokim poziomie. W takich scenariuszach Bielik sprawdza się doskonale. Współpracujemy z klientami polskimi oraz polskojęzycznymi, dlatego jest to dla nas rozwiązanie wyjątkowo naturalne.
Dodatkowo warto podkreślić, że model jest relatywnie niewielki, a jednocześnie oferuje bardzo wysoką jakość w stosunku do swojego rozmiaru. Istotnym atutem jest również wysoki poziom bezpieczeństwa, zwłaszcza w przypadku uruchamiania go w ramach naszej własnej infrastruktury.
Równolegle, zgodnie z tym, o czym wcześniej wspomniał Wojtek, staramy się aktywnie kontrybuować do samego projektu. Obejmuje to zarówno wsparcie inżynieryjne, jak i działania związane ze zbieraniem oraz przygotowywaniem wysokiej jakości danych. Następnie mogą one zostać przekazane do projektu i wykorzystane do dalszego doszkalania modelu, tak aby w kolejnych iteracjach osiągał jeszcze lepsze rezultaty.
Czy podczas tej współpracy napotkali Państwo jakiekolwiek wyzwania?
Paweł: My skupiliśmy się przede wszystkim na obszarze danych związanych z function callingiem. Wynika to z faktu, że bardzo intensywnie korzystamy z dostępnych narzędzi AI wspierających pracę inżynierską, takich jak Codex, Claude Code oraz innych rozwiązań, które wykorzystujemy na co dzień. Jak doskonale wiemy, tego typu narzędzia w dużej mierze opierają się na wykorzystaniu agentów.
Dialogi prowadzone pomiędzy użytkownikiem lub inżynierem a takim narzędziem stanowią ogromną skarbnicę wiedzy, którą można wykorzystać do przygotowania wysokiej jakości danych. Dlatego prowadzimy rozmowy dotyczące możliwości wykorzystania właśnie danych z obszaru function callingu i przekazania ich do projektu Bielik.AI.
Naszym celem jest to, aby na ich podstawie model mógł lepiej obsługiwać tego typu funkcjonalności, skuteczniej integrować się z narzędziami i w kolejnych iteracjach stawać się coraz lepszym agentem. Innymi słowy takim, który jeszcze sprawniej odnajduje się w agentowych frameworkach, przepływach i bardziej złożonych scenariuszach użycia niż ma to miejsce obecnie.
Jakie kompetencje są Państwa zdaniem kluczowe we współpracy przy rozwoju takiego modelu językowego?
Z mojej perspektywy kluczowa jest przede wszystkim świadomość tego, jak taki model w ogóle powstaje - jakie elementy są niezbędne do jego zbudowania i co decyduje o jego wysokiej jakości. Nie jest to żadna odkrywcza teza, bo powszechnie wiadomo, że dzisiejszym „złotem” są dane: im wyższa ich jakość, tym lepszy model.
Obserwując sposób, w jaki rozwijany jest Bielik, a także to, jak pracuje zespół odpowiedzialny za jego tworzenie, wyraźnie widać, że sam rozmiar modelu nie musi stanowić ograniczenia. Mimo utrzymywania stałej liczby parametrów model jest w stanie systematycznie się poprawiać - głównie dzięki coraz lepszym danym oraz stosowaniu nowszych pipeline’ów i metod treningowych.
Niewielki rozmiar Bielika jest więc jednocześnie jego atutem i pewnym wyzwaniem. Z jednej strony to ogromna zaleta. Model jest łatwy do wdrożenia, prosty w utrzymaniu, relatywnie tani w hostingu, a przy tym w większości przypadków, które trzeba obsłużyć, takie „mniejsze” rozwiązanie w zupełności wystarcza. Szacunkowo w około 80% zastosowań nie ma potrzeby sięgania po znacznie większe modele.
Z drugiej strony, mniejszy rozmiar oznacza również pewne ograniczenia - szczególnie jeśli chodzi o zakres wiedzy ogólnej czy niektóre kompetencje, które czasami są potrzebne, a których model może jeszcze nie posiadać. Właśnie dlatego staramy się aktywnie wspierać jego rozwój, dokładając od siebie to, co możemy, tak aby w przyszłości Bielik był jeszcze bardziej kompetentny - czy to poprzez dalszy rozwój swoich możliwości, czy poprzez stopniowe zwiększanie skali.
Tworzą Państwo także własne rozwiązania oparte na sztucznej inteligencji. Chciałbym dopytać, jakie konkretne potrzeby ono adresuje, do jakich zastosowań zostało zaprojektowane oraz jaką rolę pełni w praktyce.
Kacper: W ramach naszej działalności rozwijamy także dwa projekty opensource’owe, które powstają w Vstormie we współpracy ze społecznością, jaką wokół nich budujemy. Chętnie opowiem o nich w kilku zdaniach.
Pierwszy projekt nosi nazwę „FullStack AI Agent Template”. Jego powstanie było efektem obserwacji tego, jak w praktyce realizujemy nasze projekty i ile czasu pochłaniają elementy niezwiązane bezpośrednio z samą sztuczną inteligencją. Mam tu na myśli przygotowanie infrastruktury, aplikacji backendowych, frontendów pełniących rolę interfejsu dla użytkowników, systemów logowania czy baz danych. Tych komponentów jest naprawdę sporo i ich budowa zajmuje znaczną część czasu, mimo że kluczowym celem pozostaje jak najszybsze przejście do tworzenia właściwych systemów AI.
Z tego względu stworzyliśmy rozwiązanie, które pozwala wygenerować kompletny szkielet projektu. Dzięki temu już w kilka minut możemy skupić się na zasadniczej części - logice opartej na sztucznej inteligencji, zamiast każdorazowo zaczynać od podstaw.
Drugi projekt to „pydantic-deepagents”. W tym przypadku odpowiedzieliśmy na rosnący trend rozwiązań agentowych, w których agenci mają dostęp do pełnego środowiska pracy - mogą operować na komputerze, korzystać z plików, dysponować rozbudowanym kontekstem oraz zapamiętywać i przeszukiwać informacje.
Chcieliśmy stworzyć własne rozwiązanie tego typu, które nie tylko odpowiadałoby na te potrzeby, ale również mogło być bezpośrednio wdrażane w projektach realizowanych dla naszych klientów.
Czy mógłby Pan wskazać konkretne przykłady praktycznych zastosowań takich rozwiązań?
Kacper: W przypadku pierwszego z naszych rozwiązań, czyli „FullStack AI Agent Template”, jest to narzędzie, które wykorzystujemy przy każdym nowym przedsięwzięciu realizowanym w Vstormie. Pozwala nam to znacząco przyspieszyć start prac i szybciej przejść do etapu właściwej realizacji, koncentrując się na kluczowej logice opartej na sztucznej inteligencji, zamiast na budowaniu podstawowej infrastruktury od zera.
Jeśli chodzi natomiast o „pydantic-deepagents”, tutaj praktycznym zastosowaniem jest aplikacja, którą stworzyliśmy. Działa ona w terminalu, a jej instalacja jest bardzo prosta i sprowadza się do wykonania jednej komendy. Taki asystent ma bardzo uniwersalne zastosowanie - możemy wykorzystywać go do pisania kodu w naszych aplikacjach, ale też integrować z innymi narzędziami, na przykład z aplikacjami do tworzenia notatek, aby wspólnie z agentem je analizować i porządkować.
Co więcej, zgłosiła się do nas firma zainteresowana integracją tego rozwiązania ze swoim systemem - w tym przypadku możemy już nawet mówić o relacji klienckiej. Równolegle otrzymujemy również bardzo pozytywny odzew ze strony społeczności, który nie zawsze musi wiązać się bezpośrednio z formalną współpracą.
Takie kontakty otwierają jednak przed nami wiele dodatkowych możliwości zarówno rozwojowych, jak i biznesowych.
W kontekście obu omawianych rozwiązań chciałbym zapytać, jak wygląda proces ich wdrożenia - ile zwykle trwa i jakie etapy są w nim kluczowe?
Kacper: W dużej mierze zależy to od konkretnego use case’u oraz od tego, jaki cel chcemy osiągnąć. Każde rozwiązanie ma swoją specyfikę, dlatego do wdrożeń podchodzimy raczej indywidualnie. Trudno jest zamknąć ten proces w sztywne ramy czasowe, ponieważ każdy projekt różni się zakresem i poziomem złożoności.
Czy podczas realizacji takich wdrożeń napotykają Państwo istotne wyzwania?
Kacper: Tak, wyzwania zdecydowanie pojawiają się na styku wymagań technologicznych i biznesowych. Często można usłyszeć, również w mediach społecznościowych że wystarczy „podpiąć kilka plików PDF” i agent jest gotowy. W praktyce jednak dochodzi do zderzenia tych dwóch światów i szybko okazuje się, że proces jest znacznie bardziej złożony.
Dane dostarczane przez klientów rzadko mają postać prostego tekstu. Bardzo często są to rozbudowane tabele, diagramy czy dokumenty o skomplikowanej strukturze. Z tego względu niemal zawsze musimy podchodzić do wdrożeń indywidualnie - każdy przypadek jest inny i wymaga dopasowanego podejścia.
To właśnie ta konieczność głębokiego zrozumienia warstwy biznesowej stanowi jedno z największych wyzwań. Kluczowe jest nie tylko przetworzenie danych, ale przede wszystkim jasne określenie, jaki problem chcemy rozwiązać oraz jaki efekt końcowy ma przynieść dane rozwiązanie.
Drugim istotnym obszarem jest ewaluacja, czyli testowanie tworzonych rozwiązań. Pojawia się pytanie: jak jednoznacznie ocenić, czy agent działa poprawnie? Odpowiedzią są realne przypadki użycia, na podstawie których testujemy i porównujemy kolejne wersje rozwiązania.
Jest to proces iteracyjny, wymagający dobrego zrozumienia projektu i konsekwentnej pracy nad jego kolejnymi odsłonami. Dopiero w trakcie tych iteracji możliwe jest systematyczne podnoszenie jakości i skuteczności całego rozwiązania.
Wojciech: Z naszej perspektywy można powiedzieć, że na obecnym etapie ta technologia osiągnęła już pewien poziom dojrzałości. Dotyczy to zarówno samych modeli językowych takich jak te rozwijane przez zespół Bielika, które stają się coraz bardziej efektywne, precyzyjne i niezawodne, jak i całego ekosystemu opensource: narzędzi, agentów AI oraz frameworków wykorzystywanych do budowy rozwiązań opartych o LLMy. Te komponenty również ewoluowały, są lepiej zaprojektowane, stabilniejsze i znacznie łatwiejsze do wykorzystania w praktyce.
Jednocześnie największym wyzwaniem pozostaje dziś nie sama technologia, lecz jej realne zastosowanie w konkretnych kontekstach biznesowych. Kluczowe trudności pojawiają się na etapie przełożenia dobrze działających narzędzi na rzeczywiste potrzeby organizacji, czyli zrozumienia procesów, sposobu pracy oraz często „ukrytej” wiedzy funkcjonującej wewnątrz firm.
Dopiero umiejętne wydobycie tej wiedzy, jej uporządkowanie i przełożenie na logiczny, dobrze zaprojektowany system oparty na agentach AI pozwala osiągnąć realną wartość biznesową. To właśnie etap komunikacji z klientem i transformacji wiedzy domenowej w skutecznie wdrożone rozwiązanie pozostaje dziś największym wyzwaniem, ale jednocześnie największą szansą.
Czy mierzą Państwo efektywność takich wdrożeń, a jeśli tak - w jaki sposób?
Wojciech: To bardzo ciekawe pytanie. W praktyce sposób mierzenia efektywności zależy od konkretnego wdrożenia i modelu współpracy z klientem. W części projektów klienci dostarczają nam zestaw referencyjnych przykładów - konkretnych zadań, pytań lub plików, wraz z tzw. „złotymi odpowiedziami”. Dzięki temu możemy w stosunkowo prosty i obiektywny sposób zweryfikować, czy system działa zgodnie z oczekiwaniami.
W dalszym etapie ocena wdrożenia często pozostaje już po stronie klienta. Nie zawsze mamy bezpośredni wgląd w końcowe wyniki, choć jednocześnie współpracujemy też z firmami, które regularnie konsultują z nami sposób mierzenia skuteczności i wspólnie wypracowujemy odpowiednie metryki.
Dobrym przykładem takiego podejścia jest projekt realizowany dla firmy Mixam, działającej w branży druku treści. Mixam umożliwia użytkownikom druk własnych książek, nawet przy niewielkiej liczbie odbiorców. W ich przypadku efektywność rozwiązania była mierzona przede wszystkim poprzez testy A/B - porównywane były dwie wersje strony: jedna z wdrożonym agentem chatbotowym i druga bez niego. Analizowano wpływ obecności chatbota na przychody oraz liczbę wydrukowanych książek.
Szczegóły tego wdrożenia opisaliśmy w jednym z naszych artykułów, więc w razie potrzeby możemy wejść w ten temat znacznie głębiej. Natomiast na wysokim poziomie skuteczność takich systemów oceniamy przede wszystkim przez pryzmat realnego wpływu na biznes — wzrostu konwersji, poprawy zaangażowania użytkowników czy zwiększenia liczby realizowanych transakcji.
Istnieją również metryki bardziej specyficzne dla aplikacji opartych o agentów AI, na przykład to, jak często użytkownicy proszą o przekierowanie rozmowy do prawdziwego człowieka. Najlepszym scenariuszem jest sytuacja, w której potrzeba takiego przełączenia praktycznie zanika. Jeśli w ponad 95% przypadków system oparty na agencie AI poprawnie realizuje intencje użytkownika i udziela satysfakcjonujących odpowiedzi, oznacza to, że osiągnęliśmy bardzo wysoki poziom jakości rozwiązania.
Paweł: Mixam to w ogóle bardzo interesujący przykład, ponieważ dobrze pokazuje skalę złożoności, z jaką mierzą się ich klienci. Warto wspomnieć, że specjaliści firmy wyliczyli, iż biorąc pod uwagę wszystkie dostępne formaty książek, rodzaje papieru, opcje kolorystyczne oraz możliwe konfiguracje, użytkownik ma do wyboru około miliarda różnych kombinacji. W takiej rzeczywistości znalezienie odpowiedniego wariantu samodzielnie byłoby niezwykle trudne.
I właśnie w tym miejscu kluczową rolę odgrywa asystent AI. Jego zadaniem jest poprowadzenie użytkownika przez tę ogromną przestrzeń możliwości i pomoc w wyborze najlepszej opcji, dostosowanej do konkretnych potrzeb. Jak wspomniał Wojtek, dobrą miarą skuteczności takiego rozwiązania jest to, czy asystent potrafi spośród tego miliarda kombinacji zaproponować właściwą konfigurację bez konieczności angażowania człowieka.
Jeśli system jest w stanie zrobić to samodzielnie i trafnie, oznacza to realną wartość zarówno dla użytkownika, jak i dla samego biznesu.
Jak planują Państwo dalszy rozwój wykorzystania sztucznej inteligencji? Czy pracują już Państwo nad nowymi rozwiązaniami w tym obszarze?
Kacper: Z mojej strony mogę opowiedzieć o kierunkach rozwoju naszego projektu opensource’owego „pydantic-deepagents”. Jednym z kluczowych obszarów, na których chcemy się skupić, jest zwiększenie autonomii agentów. Zależy nam na odejściu od modelu, w którym system reaguje wyłącznie na zapytania użytkownika, na rzecz rozwiązania działającego w sposób ciągły.
Docelowo chcielibyśmy stworzyć system, który samodzielnie monitoruje środowisko i kontekst, podejmuje działania bez konieczności stałej interwencji człowieka i w pewnym sensie rozwija się autonomicznie. Taki kierunek pozwalałby użytkownikom jeszcze bardziej odciążyć się od bieżącej obsługi, a same rozwiązania uczynić bardziej proaktywnymi.
To jeden z głównych kierunków, który obecnie wyznacza rozwój tego projektu i w którym widzimy duży potencjał na przyszłość.
Co Państwa zdaniem najbardziej przyspieszyłoby adopcję polskich modeli językowych w biznesie?
Paweł: Myślę, że kluczowa jest przede wszystkim większa świadomość tego, co tego typu rozwiązania są w stanie realnie zaoferować, a także jakie mają ograniczenia. Dziś bardzo często sztuczna inteligencja postrzegana jest głównie jako narzędzie do rozrywki: generowania zabawnych obrazków, lekkich treści czy zastosowań mało istotnych z punktu widzenia biznesu.
Tymczasem, jak pokazują konkretne przykłady, chociażby projekt Mixam, o którym wcześniej wspominał Wojtek - odpowiednio wykorzystana technologia oparta na modelach językowych potrafi bardzo efektywnie realizować jasno zdefiniowane zadania biznesowe. Nie jest to oczywiście zapowiadany przez niektórych „koniec pracy ludzi w białych kołnierzykach”, ale są to rozwiązania, które już dziś znajdują realne zastosowanie w praktyce.
Nawet w mniej oczywistych scenariuszach, takich jak wsparcie procesów związanych z przygotowaniem materiałów do druku, dobrze zaprojektowany, wyspecjalizowany system potrafi skutecznie radzić sobie z dużą złożonością i skalą problemu, dostarczając wymierną wartość zarówno użytkownikom, jak i firmie.
Kluczowe jest jednak to, aby nauczyć się świadomie korzystać z potencjału tej technologii i budować wokół niej realistyczne oczekiwania. Sztuczna inteligencja nie jest magiczną „czarną skrzynką”, która w tle rozwiąże każdy problem. W praktyce bardzo często stanowi ona jedynie część większego rozwiązania, które nadal musi zostać obudowane solidnym produktem software’owym, procesami oraz dobrą znajomością domeny biznesowej.
Jednocześnie AI daje dziś znacznie większe możliwości niż klasyczna, zerojedynkowa informatyka. Dlatego tak ważne jest budowanie świadomości - zarówno po stronie biznesu, jak i szerzej, w społeczeństwie, że takie rozwiązania są możliwe, dostępne i użyteczne. Im lepsze będzie zrozumienie realnych możliwości i ograniczeń sztucznej inteligencji, tym łatwiejsza stanie się jej adopcja w firmach i codzienne wykorzystanie w praktyce.
Dziękujemy za rozmowę!
Cykl rozmów „Start z polskim AI – od pomysłu do wdrożenia” jest realizowany w ramach programu Centrum Kompetencji AI.