Jak wdrożyć AI w firmie — praktyczny przewodnik dla decydentów

01 · Dlaczego 85% projektów AI nie trafia na produkcję

Według Gartnera 85% projektów AI/ML kończy się porażką — nie w sensie "model nie działa technicznie", tylko "nigdy nie został użyty na produkcji w sposób, który generuje wartość biznesową". Po kilkudziesięciu rozmowach z firmami w Polsce mogę powiedzieć, że przyczyny są zaskakująco powtarzalne.

Najczęstsze powody, dla których wdrożenie AI rozbija się o ścianę:

Zaczynają od narzędzia, a nie problemu. "Chcemy mieć ChatGPT w firmie" to nie projekt, to życzenie. Bez konkretnego procesu do zoptymalizowania nie da się zmierzyć efektu.
Demo działa na 5 przykładach, produkcja musi działać na 50 000. Edge cases, brudne dane, formaty których nikt nie przewidział — to wszystko wychodzi dopiero po skali.
Dane są w stanie, w którym żaden model nie da rady. Brak struktury, duplikaty, dane w PDF-ach z 2008 roku, sprzeczne wersje w różnych systemach.
Konsultant zrobił prezentację, nikt nie kodował. Strategia bez execution to koszt bez efektu. Slajdy nie wdrażają systemów.
Brak owner-a po stronie biznesu. Jeśli projekt jest "IT-shu", a biznes nie czuje się właścicielem, adopcja zerowa.
Wdrożyli model, ale nie zmienili procesu. System AI wymaga zmiany sposobu pracy — sam "doklejony" do starego procesu nic nie zmieni.
Brak planu utrzymania. Model za 6 miesięcy zaczyna degradować się (data drift), nikt tego nie monitoruje, system po cichu staje się gorszy niż przed wdrożeniem.

💡

Kluczowa zasada

AI nie jest celem — jest narzędziem. Najlepsze wdrożenia zaczynają się od pytania "jaki konkretny proces zajmuje nam za dużo czasu lub kosztuje za dużo pieniędzy", a dopiero potem dobierają technologię.

02 · Wybór pierwszego use case — gdzie zacząć

Pierwszy projekt AI w firmie to nie jest moment na ambicje. To moment na szybką, mierzalną wygraną, która zbuduje wewnętrzne zaufanie do technologii i da fundament pod kolejne, większe wdrożenia.

Macierz wyboru: wpływ × wykonalność

Dobry pierwszy use case spełnia trzy warunki jednocześnie: ma wysoki potencjalny zwrot, jest technicznie wykonalny w 8–12 tygodni, i ma jasnego ownera po stronie biznesu, który mocno tego chce.

Typ procesu	Wpływ na biznes	Wykonalność	Czas do wdrożenia	Werdykt
Analiza dokumentów (przetargi, kontrakty, oferty)	Wysoki	Wysoka	8–12 tyg	Idealne na start
Obsługa zapytań klientów (czat, e-mail)	Wysoki	Wysoka	6–10 tyg	Idealne na start
Wewnętrzna baza wiedzy z RAG	Średni	Bardzo wysoka	4–8 tyg	Świetny pierwszy krok
Klasyfikacja obrazów (defekty, produkty)	Wysoki	Średnia	12–20 tyg	Drugi projekt
Predykcja sprzedaży / cen	Wysoki	Średnia	10–16 tyg	Drugi projekt
Asystent kodowania dla zespołu	Średni	Bardzo wysoka	2–4 tyg	Quick win
Pełna automatyzacja procesu end-to-end	Bardzo wysoki	Niska	20–40 tyg	Nie na start
Generowanie raportów na wejście strategiczne	Niski	Wysoka	4–6 tyg	Mało impactu

Trzy pytania, na które musisz odpowiedzieć przed startem

Czy ten proces wykonujemy często? Jeśli coś robi się 3 razy do roku, automatyzacja AI prawie nigdy się nie opłaca. Jeśli 30 razy dziennie — opłaca się prawie zawsze.
Czy mamy dane, na których można to oprzeć? Brak danych = brak projektu. Mało danych = projekt na własnym modelu odpada, zostaje RAG + foundation model.
Kto będzie używał tego systemu? Nie "który dział", tylko konkretni ludzie z imienia i nazwiska. Jeśli ich nie ma na pokładzie od początku, system stanie nieużywany.

✅

Konkretny przykład z naszego portfolio

Firma budowlana zaczęła nie od pełnej automatyzacji składania ofert, tylko od filtrowania bazy przetargów — sprowadzania 5 000 ogłoszeń tygodniowo do 50 trafnych. To było wykonalne w 6 tygodni, dało natychmiastową wartość i otworzyło drogę do dalszych modułów (analizy SIWZ i pre-fill ofert).

03 · Architektura: RAG, fine-tuning, prompt engineering, agenty

Najbardziej kosztowny błąd, jaki widzimy: firma decyduje się na "wytrenowanie własnego modelu" tam, gdzie wystarczyłby dobry prompt + RAG. Albo odwrotnie — próbuje wcisnąć 50-stronicowe regulacje do promptu, gdy trzeba było uderzyć w fine-tuning. Wybór architektury to najważniejsza decyzja techniczna w całym projekcie i robi się ją na podstawie kilku jasnych kryteriów.

Cztery podstawowe podejścia

Podejście	Co to jest	Kiedy używać	Koszt	Czas
Prompt engineering	Dobre instrukcje do modelu gotowego (Claude, GPT)	Zadania jednorazowe lub gdy regulamin/wiedza mieści się w 5–20 stronach	Bardzo niski	Dni
RAG (Retrieval-Augmented Generation)	Model + wyszukiwanie w bazie wiedzy firmy	Wiedza firmowa, dokumentacja, baza produktów, FAQ	Niski	4–10 tyg
Fine-tuning	Dotrenowanie modelu na własnych danych	Specyficzna domena, własny język/styl, klasyfikacja, ekstrakcja, gdy potrzebne deterministyczne zachowanie	Średni	8–16 tyg
Agenty / Claude Code	Model wykonujący akcje (kod, API, narzędzia)	Automatyzacja procesów wieloetapowych, integracje z systemami firmy	Średni	6–14 tyg

Drzewo decyzyjne: który wybrać

🌳 Jak wybrać architekturę — krok po kroku

Pytanie 1

Czy zadanie wymaga specyficznej wiedzy firmowej (dokumenty, baza produktów, regulacje)?
→ TAK: idź dalej. NIE: prompt engineering wystarczy.

Pytanie 2

Czy wiedza jest w miarę stabilna czy zmienia się codziennie?
→ STABILNA + można fine-tunować na danych: fine-tuning. ZMIENNA: RAG.

Pytanie 3

Czy system ma wykonywać akcje (wysyłać maile, modyfikować rekordy, generować raporty)?
→ TAK: dodaj warstwę agenta / Claude Code do podstawy. NIE: pomiń.

Pytanie 4

Czy dane są wrażliwe (medyczne, finansowe, klienckie)?
→ TAK: on-premise + własny fine-tuned model. NIE: chmura jest OK.

Wynik typowy dla 80% firm

RAG + Claude Sonnet 4.6 jako orchestrator + 1-2 narzędzia agentyczne — i tyle. Fine-tuning dochodzi, gdy domena jest naprawdę specyficzna.

Realne przykłady z naszych wdrożeń

E-commerce (bagażniki dachowe): prompt engineering + Claude Code z dostępem do bazy produktów przez MCP. Bez fine-tuningu, bo katalog się zmienia codziennie. Wystarczył dobry system prompt + 7 narzędzi (search_product, check_compatibility, get_price itd.).

Firma budowlana: hybryda — Claude do analizy semantycznej SIWZ + własna Llama 3.1 8B z LoRA do klasyfikacji typu przetargu. Model dotrenowany na 4 000 historycznych SIWZ-ów, które klient miał z ostatnich 8 lat.

Kosmetyki: RAG na 350 000 produktów + 30 000 składników INCI w Neo4j + własny fine-tuned model Llama 70B do generowania receptur. Tu fine-tuning był konieczny, bo zwykły model halucynował składniki, które nie istnieją.

Ceny warzyw/owoców UE: Claude Code jako self-healing ETL na ~180 źródeł + klasyczny ML (Prophet + LSTM + XGBoost) do predykcji. AI generatywny do orkiestracji, klasyczne ML do prognozowania — najlepsze z dwóch światów.

GunUpdate (sport/kolekcjonerstwo): dwa własne modele computer vision (YOLOv8 + CLIP fine-tunowany) + knowledge graph w Neo4j. Tu nie da się obejść bez własnych modeli, bo żaden gotowy model nie zna takich detali.

⚠️

Pułapka: "wytrenujmy własny model"

To pierwsza rzecz, którą firmy często chcą zrobić, bo "własny model brzmi profesjonalnie". W praktyce w 70% przypadków foundation model + RAG daje lepsze wyniki taniej. Własny model trenuje się dopiero gdy: (1) dane są bardzo specyficzne, (2) potrzebne jest deterministyczne zachowanie, (3) nie można wysyłać danych do zewnętrznego API, (4) skala uzasadnia koszt GPU.

04 · Chmura vs on-premise — bezpieczeństwo danych

Druga decyzja po architekturze: gdzie to wszystko ma działać. Tu nie ma jednej dobrej odpowiedzi — są kompromisy i każda firma musi je świadomie wybrać.

Trzy modele wdrożenia

Model	Czym jest	Plusy	Minusy	Dla kogo
Czysta chmura (Claude API, OpenAI)	Dane wysyłane do API dostawcy	Szybki start, najlepsze modele, brak infrastruktury	Dane wychodzą z firmy, vendor lock-in, koszty per request	Firmy bez wrażliwych danych, MVP, treści marketingowe
Chmura z gwarancjami (Azure OpenAI, Bedrock)	API w prywatnej tenancy z gwarancjami SLA/RODO	Najlepsze modele + zgodność z regulacjami	Droższe niż czysta chmura, dane nadal poza firmą	Średnie firmy z umiarkowaną wrażliwością
On-premise / własna infra	Modele open-source (Llama, Mistral, Qwen) na własnych GPU	Pełna kontrola, dane nie wychodzą, brak vendor lock-in, niskie koszty marginalne	Capex na GPU, trzeba utrzymywać, słabsze modele niż frontier	Pharma, finanse, sektor publiczny, dane B+R, IP

Hybryda — najczęściej najlepsza opcja

W praktyce 80% naszych wdrożeń to hybryda: wrażliwe dane przetwarza model lokalny, niewrażliwe rzeczy (np. konwersacja z klientem o produktach z katalogu) idą przez chmurowy frontier model. Klucz to warstwa anonimizacji: zanim cokolwiek pójdzie do chmury, dane osobowe / finansowe / poufne są maskowane.

hybryda · pseudokod warstwy bezpieczeństwa

# Pipeline: dane wrażliwe nigdy nie opuszczają firmy
def process_request(user_input, context_docs):
    # 1. Anonimizuj dane osobowe na własnym modelu (lokalnie)
    sanitized = local_pii_masker.mask(user_input)
    sanitized_docs = [local_pii_masker.mask(d) for d in context_docs]

    # 2. Klasyfikacja wrażliwości na lokalnym modelu
    sensitivity = local_classifier.classify(sanitized)

    if sensitivity == "HIGH":
        # 3a. Pełna obróbka lokalnie (Llama 70B on-premise)
        response = local_llm.complete(sanitized, sanitized_docs)
    else:
        # 3b. Frontier model w chmurze dla większej jakości
        response = claude_api.complete(sanitized, sanitized_docs)

    # 4. De-anonimizacja w drodze powrotnej (tylko po stronie firmy)
    final = local_pii_masker.unmask(response)

    # 5. Audit log (zawsze, dla compliance)
    audit_logger.log(user_id, sensitivity, response_hash)

    return final

Wymagania sprzętowe dla on-premise

Dla orientacji, co kosztuje własna infrastruktura AI w 2025/2026 (ceny netto, polski rynek):

Inferencja modeli 7-8B (Llama 8B, Mistral 7B): 1× RTX 4090 / 5090 (~12-15 tys. zł). Wystarczy na obsługę ~10-50 użytkowników jednocześnie z quantization.
Inferencja modeli 30-70B (Llama 70B, Qwen 72B): 2× RTX 5090 lub 1× H100 (od 30 tys. zł). Obsługa kilkuset użytkowników.
Trening / fine-tuning modeli 70B z LoRA: 4× RTX 5090 lub 2× H100 (od 60 tys. zł). Wystarczy do większości projektów.
Inferencja modeli computer vision (YOLOv8, CLIP): 1× RTX 4090 obsługuje 50-200 obrazów/s. Bardzo opłacalne.

🔒

Dla firm pod NIS2, RODO, GxP, ISO 27001

Jeśli wdrażasz AI w sektorze regulowanym (pharma, finanse, ochrona zdrowia, sektor publiczny), on-premise to często nie wybór, tylko wymóg. Dodatkowo trzeba mieć: audit log każdej decyzji modelu, możliwość wyjaśnienia (explainability), procedurę aktualizacji modelu, monitoring dryfu, plan ciągłości działania.

05 · Dane — najczęściej niedoceniany filar projektu

Po doświadczeniach z dziesiątkami projektów: 60-70% czasu w projekcie AI to praca z danymi, nie z modelami. Firmy, które tego nie wiedzą, są zdziwione, że "model już prawie działa" a wdrożenie ciągnie się trzy razy dłużej niż planowano.

Audyt danych przed startem

Zanim zaczniesz projekt, odpowiedz na te pytania:

Gdzie fizycznie są dane? Baza SQL, pliki w SharePoint, e-maile, PDF-y na dyskach, dane w systemie zewnętrznym (CRM, ERP)? Każde źródło wymaga osobnego konektora.
W jakim są stanie? Brakujące pola, duplikaty, sprzeczne wersje, archaiczne kodowania, zdjęcia bez opisów, dokumenty bez OCR.
Czy masz prawa do nich? Dane klientów wymagają zgody na przetwarzanie przez AI (RODO). Dane od dostawców mogą mieć klauzule poufności.
Czy są aktualne? Cennik z 2019 to gorzej niż brak cennika — model nauczy się błędnych informacji i z dużą pewnością je powtórzy.
Ile ich realnie jest? "Mamy tysiące dokumentów" znaczy często 200 plików, z czego 50 to skany niskiej jakości.

Przygotowanie danych — etapy

Etap 1

Tydzień 1–2

Zbieranie i konsolidacja

Wyciągnięcie danych ze wszystkich systemów do jednego miejsca. Dla dokumentów — OCR (Polish-aware, np. Tesseract z modelem PL albo Azure Document Intelligence). Dla baz — eksport, dla maili — IMAP / Exchange API.

Etap 2

Tydzień 2–4

Czyszczenie i deduplikacja

Usunięcie duplikatów (często 20-40% bazy), normalizacja formatów (daty, kwoty, adresy), oznaczenie sprzecznych rekordów, uzupełnienie krytycznych pól.

Etap 3

Tydzień 3–5

Strukturyzacja i wzbogacanie

Wyciągnięcie struktury z niestrukturalnych dokumentów (np. ekstrakcja sekcji z SIWZ, wyciąganie składu z opisu kosmetyku). Wzbogacenie o zewnętrzne dane (kursy walut, dane GUS, OpenWeather itp.).

Etap 4

Tydzień 4–6

Annotacja (dla fine-tuningu / computer vision)

Jeśli trenujesz własny model — potrzebujesz oznaczonych przykładów. Klasyfikacja tekstu: 500-2000 przykładów na klasę. Computer vision: 200-1000 obrazów na klasę. Annotację robi się z ekspertami domenowymi, nie zlecać firmom z Indii dla wrażliwej domeny.

Etap 5

Tydzień 5–7

Indeksowanie (dla RAG)

Chunkowanie dokumentów (zwykle 500-1500 tokenów na chunk z overlap), embedding (model np. bge-m3 dla polskiego), wrzucenie do bazy wektorowej (pgvector, Qdrant, Weaviate). Konfiguracja reranking — w RAG to >50% jakości wyników.

W kosmetykach baza 350 000 produktów wyglądała "gotowa" w Excelu. Po dwóch dniach analizy: 40% duplikatów (różne pisownie tej samej marki), 12% wierszy bez listy składników, składniki w 3 językach pomieszanych. Realne 350 000 to było 195 000 użytecznych rekordów — i to dopiero po 3 tygodniach czyszczenia. — SULI, retrospekcja po projekcie kosmetycznym

06 · Zespół, szkolenia, adopcja

Najlepszy system AI nieużywany przez zespół to projekt-zombie. Wdrożenie to nie tylko kod — to change management. Po naszych projektach: czas włożony w szkolenia i adopcję to 20-30% sukcesu wdrożenia, nie 5%.

Trzy poziomy szkoleń

Poziom 1

Wszyscy użytkownicy systemu · 2-4h

Jak używać systemu

Praktyczne ćwiczenia na realnych przykładach z firmy. Nie teoria, nie historia AI — konkretne zadania, które ten konkretny zespół robi codziennie. Mierzymy: ile osób potrafi po szkoleniu wykonać 5 typowych zadań bez pomocy.

Poziom 2

Power-userzy · 1-2 dni

Jak pisać dobre prompty + jak system działa "od środka"

Dla osób, które mają być wewnętrznymi ekspertami. Uczą się techniki promptowania, rozumieją granice systemu, wiedzą kiedy wynik jest podejrzany. Z każdego zespołu wybiera się 1-2 takie osoby — to oni będą rozwijać projekt po naszym odejściu.

Poziom 3

Decydenci · 2-3h

Jak interpretować wyniki + jak mierzyć ROI

Dla kierownictwa: dashboardy, metryki adopcji, sygnały degradacji modelu, decyzje o rozszerzeniu / wycofaniu. Bez tego nie ma feedback loop między biznesem a systemem.

Adopcja — co działa, a co nie

Co działa:

Pilot na małej grupie (5-10 osób), feedback co tydzień, iteracje przed roll-outem.
"Champion" w każdym zespole — osoba, do której można przyjść z pytaniem, nim zadzwoni się do IT.
Mierzenie czasu zaoszczędzonego per osoba i pokazywanie tego zespołowi (np. "AI zaoszczędził Ci w tym miesiącu 14h").
Reagowanie na zastrzeżenia ludzi — jeśli ktoś mówi "źle policzył", trzeba to sprawdzić i naprawić, nie zbywać.
Włączenie zespołu w projektowanie systemu na etapie discovery, nie pokazywanie gotowca.

Co nie działa:

Mailing "od dziś używamy AI" — nikt nie zacznie używać, bo "tak napisano".
Wymuszanie KPI typu "X% zapytań ma być obsłużone przez AI". Ludzie znajdą sposób na obejście metryki.
Pokazywanie strachu, że "AI zastąpi pracowników". Adopcja zerowa.
Wdrożenie bez ownerów po stronie biznesu — system "IT-shi" nie wchodzi w krwiobieg pracy.

🎯

Sprawdzona rama: 30-60-90 dni

Pierwsze 30 dni: pilot z 5-10 osobami, tygodniowe retrospekcje, iteracje promptów/UX.
30-60 dni: rozszerzenie na pełny dział, szkolenia, mierzenie czasu zaoszczędzonego.
60-90 dni: ewaluacja ROI, decyzja o roll-out na kolejne działy lub rozszerzenie funkcjonalności.

07 · Jak mierzyć ROI z AI

"Wdrożyliśmy AI" to nie jest wynik. Wynik to X godzin zaoszczędzonych miesięcznie, Y% wzrost konwersji albo Z PLN dodatkowej marży. Bez tego nie da się ocenić, czy projekt był wart pieniędzy, ani podjąć decyzji o jego rozszerzeniu.

Cztery kategorie metryk

Kategoria	Przykładowe metryki	Jak mierzyć
Oszczędność czasu	h/tydzień per użytkownik, % automatyzacji zadań, średni czas obsługi zapytania	Porównanie before/after, sampling, telemetria w systemie
Wzrost przychodów	konwersja, average order value, churn rate, retention	A/B test grupa z AI vs bez, analiza kohortowa
Redukcja błędów	% błędów ludzkich, % reklamacji, % poprawek po obróbce	Audyt próbki output-u przed i po wdrożeniu
Adopcja	DAU/MAU, retention użytkowników, NPS systemu, % zadań robionych z AI	Telemetria, ankiety, wywiady kwartalne

Formuła ROI dla projektu AI

Uproszczony wzór, który stosujemy w prezentacjach efektów wdrożenia:

ROI projektu AI · uproszczony model

# Zyski (rocznie)
oszczednosc_czasu = liczba_uzytkownikow × h_zaoszczedzone_tygodniowo × 52 × stawka_godzinowa
wzrost_przychodow = baseline_revenue × delta_konwersji
redukcja_bledow   = liczba_bledow_w_roku × koszt_jednego_bledu × delta_redukcji

zysk_roczny = oszczednosc_czasu + wzrost_przychodow + redukcja_bledow

# Koszty (rok 1)
capex = koszt_wdrozenia + sprzet_on_premise   # jednorazowy
opex  = koszty_infra + koszty_modeli_chmurowych + utrzymanie + szkolenia
koszt_roczny = capex + opex

# ROI
roi_pierwszy_rok = (zysk_roczny - koszt_roczny) / koszt_roczny × 100%
roi_drugi_rok    = (zysk_roczny - opex) / opex × 100%   # bez capex

Przykład realny z naszych wdrożeń (firma budowlana, ~80 osób):

Oszczędność czasu: 12 osób × 8h/tydzień × 52 × 95 zł/h = ~474 000 zł/rok
Wzrost wygranych przetargów (więcej startów, lepsza jakość): ~280 000 zł marży/rok
Koszt wdrożenia (capex): ~170 000 zł, koszty operacyjne ~36 000 zł/rok
ROI pierwszego roku: (754 000 − 206 000) / 206 000 = ~266%
ROI drugiego roku (bez capex): (754 000 − 36 000) / 36 000 = ~1 994%

08 · 10 typowych pułapek i jak ich uniknąć

Z naszego doświadczenia, oto pułapki, które kosztowały nas — albo klientów — najwięcej czasu i pieniędzy. Wszystkich da się uniknąć, jeśli się o nich wie.

1. "Zacznijmy od najtrudniejszego use case"

Ambicja jest dobra, ale pierwszy projekt powinien być łatwy do wygranej. Zaczynanie od "pełnej automatyzacji procesu sprzedażowego end-to-end" prawie zawsze kończy się porażką. Zacznij od pojedynczego kroku.

2. Brak mierzenia stanu wyjściowego

Jeśli nie wiesz, ile czasu zajmuje obsługa zapytania przed wdrożeniem, nie zmierzysz oszczędności. Tydzień przed startem projektu trzeba zmierzyć baseline.

3. Halucynacje traktowane jako "feature, nie bug"

"AI czasem zmyśla, ale to normalne" — nie. W systemach produkcyjnych halucynacja to defekt, który trzeba aktywnie minimalizować. Sposoby: RAG zamiast pure-generation, walidacja output-u, structured output, scoring pewności, fallback do człowieka przy niskiej pewności.

4. Wysyłanie wrażliwych danych do publicznego ChatGPT

Klasyk: pracownicy zaczynają wklejać tajemnice handlowe / dane klientów do ChatGPT, bo "tak jest szybciej". To zwykle łamie RODO i kontrakty. Rozwiązanie: wewnętrzny system AI dostępny równie wygodnie jak ChatGPT + polityka shadow AI.

5. Niedoszacowanie kosztów infrastruktury

Przy chmurze: koszty API rosną liniowo z użyciem. System obsługujący 1000 zapytań dziennie kosztuje ~10× więcej niż MVP na 100 zapytaniach. Przy on-premise: capex na GPU jest istotny, ale opex potem już bardzo niski.

6. Brak planu na regresje

Foundation models są aktualizowane przez dostawców. Twój system, który działał idealnie na Claude 3.5, może zachowywać się inaczej na Claude 4. Trzeba mieć: zestaw testów regresyjnych, możliwość pinowania wersji modelu, plan migracji przy zmianach.

7. Trenowanie modelu na danych z błędami

"Garbage in, garbage out" — w AI to brutalna prawda. Jeśli twoja baza historyczna ma 15% błędów, model nauczy się je powielać z dużą pewnością. Czyszczenie danych przed treningiem to nie luksus.

8. Ignorowanie data drift

Świat się zmienia: nowe produkty, nowe regulacje, nowy język klientów. Model wytrenowany pół roku temu na innym dystrybucie danych zaczyna się mylić. Trzeba monitorować dryf i mieć plan retrenu (kwartał, pół roku).

9. Brak audit logów

"Dlaczego AI podjął tę decyzję?" — bez audit logów nie odpowiesz na to ani sobie, ani klientowi, ani regulatorowi. Każde wywołanie modelu powinno mieć log: input, output, wersja modelu, użyte narzędzia, pewność.

10. Wdrożenie bez planu utrzymania

"Zrobimy projekt, oddamy klientowi, dalej radzi sobie sam" — w 90% przypadków źle się kończy. Albo trzeba zostawić zespół klienta z umiejętnościami do utrzymania (czego my robimy w trakcie projektu), albo zorganizować support po wdrożeniu (SLA + monitoring + okresowe retreny).

🚨

Najgorsza pułapka, jaką widzieliśmy

Firma wdrożyła "asystenta AI dla handlowców" na ChatGPT. Po 4 miesiącach okazało się, że jeden z handlowców wklejał tam pełne specyfikacje ofert konkurencyjnych, dostarczone przez prospekta pod NDA. Dane wyszły do OpenAI, kontrakt zerwany, firma straciła klienta + groźba pozwu. Koszt 0 zł oszczędności (publiczne ChatGPT) → faktyczny koszt sześciocyfrowy.

09 · Jak wybrać partnera do wdrożenia

Rynek AI w Polsce w 2025/2026 to setki firm, które oferują "wdrażanie AI". Większość z nich to: (a) konsultanci od strategii, którzy nie kodują, (b) software house-y, które dopiero zaczęły swoją przygodę z AI, (c) "freelancerzy", którzy zrobili kilka skryptów ChatGPT. Wybór dostawcy decyduje o tym, czy projekt skończy się na produkcji, czy na slajdach.

Pytania, które warto zadać

Pokażcie 3 wdrożenia, które są dzisiaj na produkcji. Nie demo, nie POC — działający system, z którego ktoś codziennie korzysta. Bez referencji nie ma rozmowy.
Kto będzie kodował? Imię i nazwisko, doświadczenie, gdzie znajdę ich projekty. Nie "nasz zespół 50 osób" — konkretni ludzie, którzy będą siedzieli przy klawiaturze.
Jakie modele realnie używacie? Jeśli odpowiedź to tylko "ChatGPT" — brak ekspertyzy. Powinni umieć powiedzieć: Claude Sonnet do tego, Llama 3.1 70B do tamtego, fine-tuning gdy X, RAG gdy Y.
Co stanie się z kodem po projekcie? Czy zostawiacie pełne źródła i dokumentację? Czy klient może rozwijać system bez was? Jeśli nie — vendor lock-in.
Jak przygotowujecie dane? Jeśli oczekują "gotowych danych" od klienta — uciekać. Dobry dostawca wie, że przygotowanie danych to 60% projektu i bierze to na siebie.
Jak mierzycie sukces projektu? Konkretne metryki, baseline, plan pomiaru. Nie "dostarczymy system" — "po 90 dniach zmierzymy X, Y, Z".
Co z bezpieczeństwem? Dla wrażliwych danych — czy potrafią zrobić on-premise? Czy mają doświadczenie z RODO/NIS2/GxP? Czy mają politykę co dzieje się z danymi klienta podczas projektu?
Jak wygląda support po wdrożeniu? SLA, retencja modelu, plan retreningu, kontakt 24/7 albo workdays?

Czerwone flagi

Nie potrafią napisać kodu na żywo. Jeśli dostawca AI nie umie zakodować prostego prompt-callu w 5 minut — to nie dostawca AI.
Mówią o "rewolucji AI" bez konkretów. Marketingowy slang zamiast inżynierskich odpowiedzi.
Nie znają polskiego kontekstu. Specyfika języka, regulacji (KSEF, RODO PL), rynku publicznych zamówień — to się liczy.
Cena "od 5 000 zł za AI". Realny projekt to widełki 50-500 tys. zł. Wszystko poniżej to albo szkielet bez wdrożenia, albo dostawca podetnie wdrożenie później dopłatami.
Nie chcą rozmawiać o utrzymaniu. "Skupmy się najpierw na wdrożeniu" — czyli "potem zobaczymy, ile to będzie was kosztowało".

10 · Roadmapa wdrożenia — 5 faz krok po kroku

Wszystkie nasze wdrożenia idą według tego samego schematu — bo on po prostu działa. Czas total: 8-20 tygodni w zależności od skali projektu. Detali fazy będzie więcej dla projektu computer vision niż dla wewnętrznego asystenta — ale fazy są te same.

Faza 1

Tydzień 1–2 · Discovery

Zrozumienie procesu i ludzi

Wywiady z zespołem (8-20h), shadowing realnej pracy, mapowanie procesu jako-jest, identyfikacja bottlenecks, audyt danych dostępnych w firmie, audyt systemów do integracji.

Output: dokument "Process & Data Audit" z konkretnym scope projektu, listą integracji, ocenowanym stanem danych.

Faza 2

Tydzień 2–4 · Design + POC

Architektura i prototyp

Wybór architektury (RAG / fine-tuning / agent), wybór modeli, projekt integracji, decyzja chmura/on-premise. Szybki POC na 5-10 reprezentatywnych przypadkach — żeby przekonać siebie i klienta, że to ma sens.

Output: dokument architektury + działający POC z 5-10 przykładami + estimate kosztów.

Faza 3

Tydzień 3–10 · Build

Wdrożenie

Przygotowanie danych (jak omawialiśmy wyżej), zbudowanie pipeline-ów ETL, fine-tuning (jeśli trzeba), integracje z systemami firmy, UI/API dla użytkowników, audit logi, monitoring.

Output: działający system zintegrowany z infrastrukturą firmy, gotowy do pilota.

Faza 4

Tydzień 8–14 · Pilot + iteracja

Pilot z prawdziwymi użytkownikami

5-10 osób, tygodniowe retrospekcje, iteracje (prompt tuning, fixy modelu, poprawki UX), szkolenia poziomu 1 i 2. Mierzenie metryk vs baseline.

Output: system iterowany na realnych danych z feedbackiem zespołu + raport z pilota.

Faza 5

Tydzień 12–20 · Roll-out + handover

Pełne wdrożenie + przekazanie

Roll-out na cały dział lub firmę, szkolenia poziomu 3 (decydenci), dokumentacja techniczna, przekazanie kodu i credentiali, ustalenie planu utrzymania (support + retreny).

Output: system na produkcji, dokumentacja, zespół klienta przeszkolony, umowa serwisowa zawarta.

Co jest po fazie 5

Wdrożenie nie kończy projektu — kończy fazę "build". Potem zaczyna się life-cycle systemu: kwartalne retrenowanie modeli, monitoring dryfu, dodawanie nowych źródeł danych, integracje z kolejnymi systemami, czasem nowy moduł. Nasze typowe umowy serwisowe to ~1-3 tys. zł miesięcznie za monitoring i okresowe poprawki, plus osobne projekty na rozszerzenia.

Podsumowanie — 7 zasad SULI

Po dziesiątkach rozmów i pięciu kompletnych wdrożeniach, oto reguły, którymi się kierujemy. Nie są to dogmaty — są to wnioski z doświadczenia.

Problem przed technologią. Zaczynaj od procesu, który boli, nie od narzędzia, które fajnie wygląda.
Mała wygrana przed wielką ambicją. Pierwszy projekt ma być prosty, szybki i mierzalny. Wielkie wizje przyjdą po nim.
Dane to 60% projektu. Jeśli ktoś mówi inaczej — nie wdrażał systemu na produkcji.
Najprostsza architektura, która działa. RAG przed fine-tuningiem, fine-tuning przed budową modelu od zera. Im prostsze, tym łatwiej utrzymać.
Wrażliwe dane — lokalnie. On-premise nie jest "luksusem dla bogatych firm". Jest mandatory dla pharma, finansów, sektora publicznego, IP.
Zespół klienta od pierwszego dnia. Wdrożenie bez ownerów po stronie biznesu = projekt-zombie.
Mierz wszystko, co możesz. ROI bez metryk to opowieść. Z metrykami — to argument na rozszerzenie projektu na kolejne działy.

🤝

Chcesz porozmawiać o swoim projekcie?

Robimy bezpłatne konsultacje wstępne (45-60 min) — bez zobowiązań, bez slajdów sprzedażowych. Patrzymy na proces, który chcesz zoptymalizować, mówimy uczciwie, czy AI ma tu sens, jaką architekturę wybralibyśmy i ile to mniej więcej kosztuje. Jeśli AI nie ma sensu — powiemy to wprost.

Zaczynamy rozmowę o wdrożeniu?

Napisz w dwóch zdaniach, jaki proces w firmie chciałbyś zoptymalizować — odezwiemy się w 24h z konkretną propozycją kolejnych kroków.

Skontaktuj się z SULI →

01 · Dlaczego 85% projektów AI nie trafia na produkcję

Kluczowa zasada

02 · Wybór pierwszego use case — gdzie zacząć

Macierz wyboru: wpływ × wykonalność

Trzy pytania, na które musisz odpowiedzieć przed startem

Konkretny przykład z naszego portfolio

03 · Architektura: RAG, fine-tuning, prompt engineering, agenty

Cztery podstawowe podejścia

Drzewo decyzyjne: który wybrać

🌳 Jak wybrać architekturę — krok po kroku

Realne przykłady z naszych wdrożeń

Pułapka: "wytrenujmy własny model"

04 · Chmura vs on-premise — bezpieczeństwo danych

Trzy modele wdrożenia

Hybryda — najczęściej najlepsza opcja

Wymagania sprzętowe dla on-premise

Dla firm pod NIS2, RODO, GxP, ISO 27001

05 · Dane — najczęściej niedoceniany filar projektu

Audyt danych przed startem

Przygotowanie danych — etapy

Zbieranie i konsolidacja

Czyszczenie i deduplikacja

Strukturyzacja i wzbogacanie

Annotacja (dla fine-tuningu / computer vision)

Indeksowanie (dla RAG)

06 · Zespół, szkolenia, adopcja

Trzy poziomy szkoleń

Jak używać systemu

Jak pisać dobre prompty + jak system działa "od środka"

Jak interpretować wyniki + jak mierzyć ROI

Adopcja — co działa, a co nie

Sprawdzona rama: 30-60-90 dni

07 · Jak mierzyć ROI z AI

Cztery kategorie metryk

Formuła ROI dla projektu AI

08 · 10 typowych pułapek i jak ich uniknąć

1. "Zacznijmy od najtrudniejszego use case"

2. Brak mierzenia stanu wyjściowego

3. Halucynacje traktowane jako "feature, nie bug"

4. Wysyłanie wrażliwych danych do publicznego ChatGPT

5. Niedoszacowanie kosztów infrastruktury

6. Brak planu na regresje

7. Trenowanie modelu na danych z błędami

8. Ignorowanie data drift

9. Brak audit logów

10. Wdrożenie bez planu utrzymania

Najgorsza pułapka, jaką widzieliśmy

09 · Jak wybrać partnera do wdrożenia

Pytania, które warto zadać

Czerwone flagi

10 · Roadmapa wdrożenia — 5 faz krok po kroku

Zrozumienie procesu i ludzi

Architektura i prototyp

Wdrożenie

Pilot z prawdziwymi użytkownikami

Pełne wdrożenie + przekazanie

Co jest po fazie 5

Podsumowanie — 7 zasad SULI

Chcesz porozmawiać o swoim projekcie?

Zaczynamy rozmowę o wdrożeniu?

Powiązane case studies — wszystkie 5 naszych wdrożeń

Claude Code w e-commerce — bagażniki dachowe + akcesoria motoryzacyjne

System analizy przetargów — filtrowanie 5000 → 50, analiza SIWZ, pre-fill ofert

RAG na 350k kosmetykach + 30k INCI + własny model do generowania receptur

Analiza cen warzyw i owoców w UE — predykcja, arbitraż, +18% marży

GunUpdate — 2 własne modele AI dla sport shooting / collectibles, B2B w 5 krajach