01 · Dlaczego 85% projektów AI nie trafia na produkcję
Według Gartnera 85% projektów AI/ML kończy się porażką — nie w sensie "model nie działa technicznie", tylko "nigdy nie został użyty na produkcji w sposób, który generuje wartość biznesową". Po kilkudziesięciu rozmowach z firmami w Polsce mogę powiedzieć, że przyczyny są zaskakująco powtarzalne.
Najczęstsze powody, dla których wdrożenie AI rozbija się o ścianę:
- Zaczynają od narzędzia, a nie problemu. "Chcemy mieć ChatGPT w firmie" to nie projekt, to życzenie. Bez konkretnego procesu do zoptymalizowania nie da się zmierzyć efektu.
- Demo działa na 5 przykładach, produkcja musi działać na 50 000. Edge cases, brudne dane, formaty których nikt nie przewidział — to wszystko wychodzi dopiero po skali.
- Dane są w stanie, w którym żaden model nie da rady. Brak struktury, duplikaty, dane w PDF-ach z 2008 roku, sprzeczne wersje w różnych systemach.
- Konsultant zrobił prezentację, nikt nie kodował. Strategia bez execution to koszt bez efektu. Slajdy nie wdrażają systemów.
- Brak owner-a po stronie biznesu. Jeśli projekt jest "IT-shu", a biznes nie czuje się właścicielem, adopcja zerowa.
- Wdrożyli model, ale nie zmienili procesu. System AI wymaga zmiany sposobu pracy — sam "doklejony" do starego procesu nic nie zmieni.
- Brak planu utrzymania. Model za 6 miesięcy zaczyna degradować się (data drift), nikt tego nie monitoruje, system po cichu staje się gorszy niż przed wdrożeniem.
Kluczowa zasada
AI nie jest celem — jest narzędziem. Najlepsze wdrożenia zaczynają się od pytania "jaki konkretny proces zajmuje nam za dużo czasu lub kosztuje za dużo pieniędzy", a dopiero potem dobierają technologię.
02 · Wybór pierwszego use case — gdzie zacząć
Pierwszy projekt AI w firmie to nie jest moment na ambicje. To moment na szybką, mierzalną wygraną, która zbuduje wewnętrzne zaufanie do technologii i da fundament pod kolejne, większe wdrożenia.
Macierz wyboru: wpływ × wykonalność
Dobry pierwszy use case spełnia trzy warunki jednocześnie: ma wysoki potencjalny zwrot, jest technicznie wykonalny w 8–12 tygodni, i ma jasnego ownera po stronie biznesu, który mocno tego chce.
| Typ procesu | Wpływ na biznes | Wykonalność | Czas do wdrożenia | Werdykt |
|---|---|---|---|---|
| Analiza dokumentów (przetargi, kontrakty, oferty) | Wysoki | Wysoka | 8–12 tyg | Idealne na start |
| Obsługa zapytań klientów (czat, e-mail) | Wysoki | Wysoka | 6–10 tyg | Idealne na start |
| Wewnętrzna baza wiedzy z RAG | Średni | Bardzo wysoka | 4–8 tyg | Świetny pierwszy krok |
| Klasyfikacja obrazów (defekty, produkty) | Wysoki | Średnia | 12–20 tyg | Drugi projekt |
| Predykcja sprzedaży / cen | Wysoki | Średnia | 10–16 tyg | Drugi projekt |
| Asystent kodowania dla zespołu | Średni | Bardzo wysoka | 2–4 tyg | Quick win |
| Pełna automatyzacja procesu end-to-end | Bardzo wysoki | Niska | 20–40 tyg | Nie na start |
| Generowanie raportów na wejście strategiczne | Niski | Wysoka | 4–6 tyg | Mało impactu |
Trzy pytania, na które musisz odpowiedzieć przed startem
- Czy ten proces wykonujemy często? Jeśli coś robi się 3 razy do roku, automatyzacja AI prawie nigdy się nie opłaca. Jeśli 30 razy dziennie — opłaca się prawie zawsze.
- Czy mamy dane, na których można to oprzeć? Brak danych = brak projektu. Mało danych = projekt na własnym modelu odpada, zostaje RAG + foundation model.
- Kto będzie używał tego systemu? Nie "który dział", tylko konkretni ludzie z imienia i nazwiska. Jeśli ich nie ma na pokładzie od początku, system stanie nieużywany.
Konkretny przykład z naszego portfolio
Firma budowlana zaczęła nie od pełnej automatyzacji składania ofert, tylko od filtrowania bazy przetargów — sprowadzania 5 000 ogłoszeń tygodniowo do 50 trafnych. To było wykonalne w 6 tygodni, dało natychmiastową wartość i otworzyło drogę do dalszych modułów (analizy SIWZ i pre-fill ofert).
03 · Architektura: RAG, fine-tuning, prompt engineering, agenty
Najbardziej kosztowny błąd, jaki widzimy: firma decyduje się na "wytrenowanie własnego modelu" tam, gdzie wystarczyłby dobry prompt + RAG. Albo odwrotnie — próbuje wcisnąć 50-stronicowe regulacje do promptu, gdy trzeba było uderzyć w fine-tuning. Wybór architektury to najważniejsza decyzja techniczna w całym projekcie i robi się ją na podstawie kilku jasnych kryteriów.
Cztery podstawowe podejścia
| Podejście | Co to jest | Kiedy używać | Koszt | Czas |
|---|---|---|---|---|
| Prompt engineering | Dobre instrukcje do modelu gotowego (Claude, GPT) | Zadania jednorazowe lub gdy regulamin/wiedza mieści się w 5–20 stronach | Bardzo niski | Dni |
| RAG (Retrieval-Augmented Generation) | Model + wyszukiwanie w bazie wiedzy firmy | Wiedza firmowa, dokumentacja, baza produktów, FAQ | Niski | 4–10 tyg |
| Fine-tuning | Dotrenowanie modelu na własnych danych | Specyficzna domena, własny język/styl, klasyfikacja, ekstrakcja, gdy potrzebne deterministyczne zachowanie | Średni | 8–16 tyg |
| Agenty / Claude Code | Model wykonujący akcje (kod, API, narzędzia) | Automatyzacja procesów wieloetapowych, integracje z systemami firmy | Średni | 6–14 tyg |
Drzewo decyzyjne: który wybrać
🌳 Jak wybrać architekturę — krok po kroku
→ TAK: idź dalej. NIE: prompt engineering wystarczy.
→ STABILNA + można fine-tunować na danych: fine-tuning. ZMIENNA: RAG.
→ TAK: dodaj warstwę agenta / Claude Code do podstawy. NIE: pomiń.
→ TAK: on-premise + własny fine-tuned model. NIE: chmura jest OK.
Realne przykłady z naszych wdrożeń
E-commerce (bagażniki dachowe): prompt engineering + Claude Code z dostępem do bazy produktów przez MCP. Bez fine-tuningu, bo katalog się zmienia codziennie. Wystarczył dobry system prompt + 7 narzędzi (search_product, check_compatibility, get_price itd.).
Firma budowlana: hybryda — Claude do analizy semantycznej SIWZ + własna Llama 3.1 8B z LoRA do klasyfikacji typu przetargu. Model dotrenowany na 4 000 historycznych SIWZ-ów, które klient miał z ostatnich 8 lat.
Kosmetyki: RAG na 350 000 produktów + 30 000 składników INCI w Neo4j + własny fine-tuned model Llama 70B do generowania receptur. Tu fine-tuning był konieczny, bo zwykły model halucynował składniki, które nie istnieją.
Ceny warzyw/owoców UE: Claude Code jako self-healing ETL na ~180 źródeł + klasyczny ML (Prophet + LSTM + XGBoost) do predykcji. AI generatywny do orkiestracji, klasyczne ML do prognozowania — najlepsze z dwóch światów.
GunUpdate (sport/kolekcjonerstwo): dwa własne modele computer vision (YOLOv8 + CLIP fine-tunowany) + knowledge graph w Neo4j. Tu nie da się obejść bez własnych modeli, bo żaden gotowy model nie zna takich detali.
Pułapka: "wytrenujmy własny model"
To pierwsza rzecz, którą firmy często chcą zrobić, bo "własny model brzmi profesjonalnie". W praktyce w 70% przypadków foundation model + RAG daje lepsze wyniki taniej. Własny model trenuje się dopiero gdy: (1) dane są bardzo specyficzne, (2) potrzebne jest deterministyczne zachowanie, (3) nie można wysyłać danych do zewnętrznego API, (4) skala uzasadnia koszt GPU.
04 · Chmura vs on-premise — bezpieczeństwo danych
Druga decyzja po architekturze: gdzie to wszystko ma działać. Tu nie ma jednej dobrej odpowiedzi — są kompromisy i każda firma musi je świadomie wybrać.
Trzy modele wdrożenia
| Model | Czym jest | Plusy | Minusy | Dla kogo |
|---|---|---|---|---|
| Czysta chmura (Claude API, OpenAI) | Dane wysyłane do API dostawcy | Szybki start, najlepsze modele, brak infrastruktury | Dane wychodzą z firmy, vendor lock-in, koszty per request | Firmy bez wrażliwych danych, MVP, treści marketingowe |
| Chmura z gwarancjami (Azure OpenAI, Bedrock) | API w prywatnej tenancy z gwarancjami SLA/RODO | Najlepsze modele + zgodność z regulacjami | Droższe niż czysta chmura, dane nadal poza firmą | Średnie firmy z umiarkowaną wrażliwością |
| On-premise / własna infra | Modele open-source (Llama, Mistral, Qwen) na własnych GPU | Pełna kontrola, dane nie wychodzą, brak vendor lock-in, niskie koszty marginalne | Capex na GPU, trzeba utrzymywać, słabsze modele niż frontier | Pharma, finanse, sektor publiczny, dane B+R, IP |
Hybryda — najczęściej najlepsza opcja
W praktyce 80% naszych wdrożeń to hybryda: wrażliwe dane przetwarza model lokalny, niewrażliwe rzeczy (np. konwersacja z klientem o produktach z katalogu) idą przez chmurowy frontier model. Klucz to warstwa anonimizacji: zanim cokolwiek pójdzie do chmury, dane osobowe / finansowe / poufne są maskowane.
# Pipeline: dane wrażliwe nigdy nie opuszczają firmy
def process_request(user_input, context_docs):
# 1. Anonimizuj dane osobowe na własnym modelu (lokalnie)
sanitized = local_pii_masker.mask(user_input)
sanitized_docs = [local_pii_masker.mask(d) for d in context_docs]
# 2. Klasyfikacja wrażliwości na lokalnym modelu
sensitivity = local_classifier.classify(sanitized)
if sensitivity == "HIGH":
# 3a. Pełna obróbka lokalnie (Llama 70B on-premise)
response = local_llm.complete(sanitized, sanitized_docs)
else:
# 3b. Frontier model w chmurze dla większej jakości
response = claude_api.complete(sanitized, sanitized_docs)
# 4. De-anonimizacja w drodze powrotnej (tylko po stronie firmy)
final = local_pii_masker.unmask(response)
# 5. Audit log (zawsze, dla compliance)
audit_logger.log(user_id, sensitivity, response_hash)
return final
Wymagania sprzętowe dla on-premise
Dla orientacji, co kosztuje własna infrastruktura AI w 2025/2026 (ceny netto, polski rynek):
- Inferencja modeli 7-8B (Llama 8B, Mistral 7B): 1× RTX 4090 / 5090 (~12-15 tys. zł). Wystarczy na obsługę ~10-50 użytkowników jednocześnie z quantization.
- Inferencja modeli 30-70B (Llama 70B, Qwen 72B): 2× RTX 5090 lub 1× H100 (od 30 tys. zł). Obsługa kilkuset użytkowników.
- Trening / fine-tuning modeli 70B z LoRA: 4× RTX 5090 lub 2× H100 (od 60 tys. zł). Wystarczy do większości projektów.
- Inferencja modeli computer vision (YOLOv8, CLIP): 1× RTX 4090 obsługuje 50-200 obrazów/s. Bardzo opłacalne.
Dla firm pod NIS2, RODO, GxP, ISO 27001
Jeśli wdrażasz AI w sektorze regulowanym (pharma, finanse, ochrona zdrowia, sektor publiczny), on-premise to często nie wybór, tylko wymóg. Dodatkowo trzeba mieć: audit log każdej decyzji modelu, możliwość wyjaśnienia (explainability), procedurę aktualizacji modelu, monitoring dryfu, plan ciągłości działania.
05 · Dane — najczęściej niedoceniany filar projektu
Po doświadczeniach z dziesiątkami projektów: 60-70% czasu w projekcie AI to praca z danymi, nie z modelami. Firmy, które tego nie wiedzą, są zdziwione, że "model już prawie działa" a wdrożenie ciągnie się trzy razy dłużej niż planowano.
Audyt danych przed startem
Zanim zaczniesz projekt, odpowiedz na te pytania:
- Gdzie fizycznie są dane? Baza SQL, pliki w SharePoint, e-maile, PDF-y na dyskach, dane w systemie zewnętrznym (CRM, ERP)? Każde źródło wymaga osobnego konektora.
- W jakim są stanie? Brakujące pola, duplikaty, sprzeczne wersje, archaiczne kodowania, zdjęcia bez opisów, dokumenty bez OCR.
- Czy masz prawa do nich? Dane klientów wymagają zgody na przetwarzanie przez AI (RODO). Dane od dostawców mogą mieć klauzule poufności.
- Czy są aktualne? Cennik z 2019 to gorzej niż brak cennika — model nauczy się błędnych informacji i z dużą pewnością je powtórzy.
- Ile ich realnie jest? "Mamy tysiące dokumentów" znaczy często 200 plików, z czego 50 to skany niskiej jakości.
Przygotowanie danych — etapy
Zbieranie i konsolidacja
Wyciągnięcie danych ze wszystkich systemów do jednego miejsca. Dla dokumentów — OCR (Polish-aware, np. Tesseract z modelem PL albo Azure Document Intelligence). Dla baz — eksport, dla maili — IMAP / Exchange API.
Czyszczenie i deduplikacja
Usunięcie duplikatów (często 20-40% bazy), normalizacja formatów (daty, kwoty, adresy), oznaczenie sprzecznych rekordów, uzupełnienie krytycznych pól.
Strukturyzacja i wzbogacanie
Wyciągnięcie struktury z niestrukturalnych dokumentów (np. ekstrakcja sekcji z SIWZ, wyciąganie składu z opisu kosmetyku). Wzbogacenie o zewnętrzne dane (kursy walut, dane GUS, OpenWeather itp.).
Annotacja (dla fine-tuningu / computer vision)
Jeśli trenujesz własny model — potrzebujesz oznaczonych przykładów. Klasyfikacja tekstu: 500-2000 przykładów na klasę. Computer vision: 200-1000 obrazów na klasę. Annotację robi się z ekspertami domenowymi, nie zlecać firmom z Indii dla wrażliwej domeny.
Indeksowanie (dla RAG)
Chunkowanie dokumentów (zwykle 500-1500 tokenów na chunk z overlap), embedding (model np. bge-m3 dla polskiego), wrzucenie do bazy wektorowej (pgvector, Qdrant, Weaviate). Konfiguracja reranking — w RAG to >50% jakości wyników.
W kosmetykach baza 350 000 produktów wyglądała "gotowa" w Excelu. Po dwóch dniach analizy: 40% duplikatów (różne pisownie tej samej marki), 12% wierszy bez listy składników, składniki w 3 językach pomieszanych. Realne 350 000 to było 195 000 użytecznych rekordów — i to dopiero po 3 tygodniach czyszczenia.
06 · Zespół, szkolenia, adopcja
Najlepszy system AI nieużywany przez zespół to projekt-zombie. Wdrożenie to nie tylko kod — to change management. Po naszych projektach: czas włożony w szkolenia i adopcję to 20-30% sukcesu wdrożenia, nie 5%.
Trzy poziomy szkoleń
Jak używać systemu
Praktyczne ćwiczenia na realnych przykładach z firmy. Nie teoria, nie historia AI — konkretne zadania, które ten konkretny zespół robi codziennie. Mierzymy: ile osób potrafi po szkoleniu wykonać 5 typowych zadań bez pomocy.
Jak pisać dobre prompty + jak system działa "od środka"
Dla osób, które mają być wewnętrznymi ekspertami. Uczą się techniki promptowania, rozumieją granice systemu, wiedzą kiedy wynik jest podejrzany. Z każdego zespołu wybiera się 1-2 takie osoby — to oni będą rozwijać projekt po naszym odejściu.
Jak interpretować wyniki + jak mierzyć ROI
Dla kierownictwa: dashboardy, metryki adopcji, sygnały degradacji modelu, decyzje o rozszerzeniu / wycofaniu. Bez tego nie ma feedback loop między biznesem a systemem.
Adopcja — co działa, a co nie
Co działa:
- Pilot na małej grupie (5-10 osób), feedback co tydzień, iteracje przed roll-outem.
- "Champion" w każdym zespole — osoba, do której można przyjść z pytaniem, nim zadzwoni się do IT.
- Mierzenie czasu zaoszczędzonego per osoba i pokazywanie tego zespołowi (np. "AI zaoszczędził Ci w tym miesiącu 14h").
- Reagowanie na zastrzeżenia ludzi — jeśli ktoś mówi "źle policzył", trzeba to sprawdzić i naprawić, nie zbywać.
- Włączenie zespołu w projektowanie systemu na etapie discovery, nie pokazywanie gotowca.
Co nie działa:
- Mailing "od dziś używamy AI" — nikt nie zacznie używać, bo "tak napisano".
- Wymuszanie KPI typu "X% zapytań ma być obsłużone przez AI". Ludzie znajdą sposób na obejście metryki.
- Pokazywanie strachu, że "AI zastąpi pracowników". Adopcja zerowa.
- Wdrożenie bez ownerów po stronie biznesu — system "IT-shi" nie wchodzi w krwiobieg pracy.
Sprawdzona rama: 30-60-90 dni
Pierwsze 30 dni: pilot z 5-10 osobami, tygodniowe retrospekcje, iteracje promptów/UX.
30-60 dni: rozszerzenie na pełny dział, szkolenia, mierzenie czasu zaoszczędzonego.
60-90 dni: ewaluacja ROI, decyzja o roll-out na kolejne działy lub rozszerzenie funkcjonalności.
07 · Jak mierzyć ROI z AI
"Wdrożyliśmy AI" to nie jest wynik. Wynik to X godzin zaoszczędzonych miesięcznie, Y% wzrost konwersji albo Z PLN dodatkowej marży. Bez tego nie da się ocenić, czy projekt był wart pieniędzy, ani podjąć decyzji o jego rozszerzeniu.
Cztery kategorie metryk
| Kategoria | Przykładowe metryki | Jak mierzyć |
|---|---|---|
| Oszczędność czasu | h/tydzień per użytkownik, % automatyzacji zadań, średni czas obsługi zapytania | Porównanie before/after, sampling, telemetria w systemie |
| Wzrost przychodów | konwersja, average order value, churn rate, retention | A/B test grupa z AI vs bez, analiza kohortowa |
| Redukcja błędów | % błędów ludzkich, % reklamacji, % poprawek po obróbce | Audyt próbki output-u przed i po wdrożeniu |
| Adopcja | DAU/MAU, retention użytkowników, NPS systemu, % zadań robionych z AI | Telemetria, ankiety, wywiady kwartalne |
Formuła ROI dla projektu AI
Uproszczony wzór, który stosujemy w prezentacjach efektów wdrożenia:
# Zyski (rocznie)
oszczednosc_czasu = liczba_uzytkownikow × h_zaoszczedzone_tygodniowo × 52 × stawka_godzinowa
wzrost_przychodow = baseline_revenue × delta_konwersji
redukcja_bledow = liczba_bledow_w_roku × koszt_jednego_bledu × delta_redukcji
zysk_roczny = oszczednosc_czasu + wzrost_przychodow + redukcja_bledow
# Koszty (rok 1)
capex = koszt_wdrozenia + sprzet_on_premise # jednorazowy
opex = koszty_infra + koszty_modeli_chmurowych + utrzymanie + szkolenia
koszt_roczny = capex + opex
# ROI
roi_pierwszy_rok = (zysk_roczny - koszt_roczny) / koszt_roczny × 100%
roi_drugi_rok = (zysk_roczny - opex) / opex × 100% # bez capex
Przykład realny z naszych wdrożeń (firma budowlana, ~80 osób):
- Oszczędność czasu: 12 osób × 8h/tydzień × 52 × 95 zł/h = ~474 000 zł/rok
- Wzrost wygranych przetargów (więcej startów, lepsza jakość): ~280 000 zł marży/rok
- Koszt wdrożenia (capex): ~170 000 zł, koszty operacyjne ~36 000 zł/rok
- ROI pierwszego roku: (754 000 − 206 000) / 206 000 = ~266%
- ROI drugiego roku (bez capex): (754 000 − 36 000) / 36 000 = ~1 994%
08 · 10 typowych pułapek i jak ich uniknąć
Z naszego doświadczenia, oto pułapki, które kosztowały nas — albo klientów — najwięcej czasu i pieniędzy. Wszystkich da się uniknąć, jeśli się o nich wie.
1. "Zacznijmy od najtrudniejszego use case"
Ambicja jest dobra, ale pierwszy projekt powinien być łatwy do wygranej. Zaczynanie od "pełnej automatyzacji procesu sprzedażowego end-to-end" prawie zawsze kończy się porażką. Zacznij od pojedynczego kroku.
2. Brak mierzenia stanu wyjściowego
Jeśli nie wiesz, ile czasu zajmuje obsługa zapytania przed wdrożeniem, nie zmierzysz oszczędności. Tydzień przed startem projektu trzeba zmierzyć baseline.
3. Halucynacje traktowane jako "feature, nie bug"
"AI czasem zmyśla, ale to normalne" — nie. W systemach produkcyjnych halucynacja to defekt, który trzeba aktywnie minimalizować. Sposoby: RAG zamiast pure-generation, walidacja output-u, structured output, scoring pewności, fallback do człowieka przy niskiej pewności.
4. Wysyłanie wrażliwych danych do publicznego ChatGPT
Klasyk: pracownicy zaczynają wklejać tajemnice handlowe / dane klientów do ChatGPT, bo "tak jest szybciej". To zwykle łamie RODO i kontrakty. Rozwiązanie: wewnętrzny system AI dostępny równie wygodnie jak ChatGPT + polityka shadow AI.
5. Niedoszacowanie kosztów infrastruktury
Przy chmurze: koszty API rosną liniowo z użyciem. System obsługujący 1000 zapytań dziennie kosztuje ~10× więcej niż MVP na 100 zapytaniach. Przy on-premise: capex na GPU jest istotny, ale opex potem już bardzo niski.
6. Brak planu na regresje
Foundation models są aktualizowane przez dostawców. Twój system, który działał idealnie na Claude 3.5, może zachowywać się inaczej na Claude 4. Trzeba mieć: zestaw testów regresyjnych, możliwość pinowania wersji modelu, plan migracji przy zmianach.
7. Trenowanie modelu na danych z błędami
"Garbage in, garbage out" — w AI to brutalna prawda. Jeśli twoja baza historyczna ma 15% błędów, model nauczy się je powielać z dużą pewnością. Czyszczenie danych przed treningiem to nie luksus.
8. Ignorowanie data drift
Świat się zmienia: nowe produkty, nowe regulacje, nowy język klientów. Model wytrenowany pół roku temu na innym dystrybucie danych zaczyna się mylić. Trzeba monitorować dryf i mieć plan retrenu (kwartał, pół roku).
9. Brak audit logów
"Dlaczego AI podjął tę decyzję?" — bez audit logów nie odpowiesz na to ani sobie, ani klientowi, ani regulatorowi. Każde wywołanie modelu powinno mieć log: input, output, wersja modelu, użyte narzędzia, pewność.
10. Wdrożenie bez planu utrzymania
"Zrobimy projekt, oddamy klientowi, dalej radzi sobie sam" — w 90% przypadków źle się kończy. Albo trzeba zostawić zespół klienta z umiejętnościami do utrzymania (czego my robimy w trakcie projektu), albo zorganizować support po wdrożeniu (SLA + monitoring + okresowe retreny).
Najgorsza pułapka, jaką widzieliśmy
Firma wdrożyła "asystenta AI dla handlowców" na ChatGPT. Po 4 miesiącach okazało się, że jeden z handlowców wklejał tam pełne specyfikacje ofert konkurencyjnych, dostarczone przez prospekta pod NDA. Dane wyszły do OpenAI, kontrakt zerwany, firma straciła klienta + groźba pozwu. Koszt 0 zł oszczędności (publiczne ChatGPT) → faktyczny koszt sześciocyfrowy.
09 · Jak wybrać partnera do wdrożenia
Rynek AI w Polsce w 2025/2026 to setki firm, które oferują "wdrażanie AI". Większość z nich to: (a) konsultanci od strategii, którzy nie kodują, (b) software house-y, które dopiero zaczęły swoją przygodę z AI, (c) "freelancerzy", którzy zrobili kilka skryptów ChatGPT. Wybór dostawcy decyduje o tym, czy projekt skończy się na produkcji, czy na slajdach.
Pytania, które warto zadać
- Pokażcie 3 wdrożenia, które są dzisiaj na produkcji. Nie demo, nie POC — działający system, z którego ktoś codziennie korzysta. Bez referencji nie ma rozmowy.
- Kto będzie kodował? Imię i nazwisko, doświadczenie, gdzie znajdę ich projekty. Nie "nasz zespół 50 osób" — konkretni ludzie, którzy będą siedzieli przy klawiaturze.
- Jakie modele realnie używacie? Jeśli odpowiedź to tylko "ChatGPT" — brak ekspertyzy. Powinni umieć powiedzieć: Claude Sonnet do tego, Llama 3.1 70B do tamtego, fine-tuning gdy X, RAG gdy Y.
- Co stanie się z kodem po projekcie? Czy zostawiacie pełne źródła i dokumentację? Czy klient może rozwijać system bez was? Jeśli nie — vendor lock-in.
- Jak przygotowujecie dane? Jeśli oczekują "gotowych danych" od klienta — uciekać. Dobry dostawca wie, że przygotowanie danych to 60% projektu i bierze to na siebie.
- Jak mierzycie sukces projektu? Konkretne metryki, baseline, plan pomiaru. Nie "dostarczymy system" — "po 90 dniach zmierzymy X, Y, Z".
- Co z bezpieczeństwem? Dla wrażliwych danych — czy potrafią zrobić on-premise? Czy mają doświadczenie z RODO/NIS2/GxP? Czy mają politykę co dzieje się z danymi klienta podczas projektu?
- Jak wygląda support po wdrożeniu? SLA, retencja modelu, plan retreningu, kontakt 24/7 albo workdays?
Czerwone flagi
- Nie potrafią napisać kodu na żywo. Jeśli dostawca AI nie umie zakodować prostego prompt-callu w 5 minut — to nie dostawca AI.
- Mówią o "rewolucji AI" bez konkretów. Marketingowy slang zamiast inżynierskich odpowiedzi.
- Nie znają polskiego kontekstu. Specyfika języka, regulacji (KSEF, RODO PL), rynku publicznych zamówień — to się liczy.
- Cena "od 5 000 zł za AI". Realny projekt to widełki 50-500 tys. zł. Wszystko poniżej to albo szkielet bez wdrożenia, albo dostawca podetnie wdrożenie później dopłatami.
- Nie chcą rozmawiać o utrzymaniu. "Skupmy się najpierw na wdrożeniu" — czyli "potem zobaczymy, ile to będzie was kosztowało".
10 · Roadmapa wdrożenia — 5 faz krok po kroku
Wszystkie nasze wdrożenia idą według tego samego schematu — bo on po prostu działa. Czas total: 8-20 tygodni w zależności od skali projektu. Detali fazy będzie więcej dla projektu computer vision niż dla wewnętrznego asystenta — ale fazy są te same.
Zrozumienie procesu i ludzi
Wywiady z zespołem (8-20h), shadowing realnej pracy, mapowanie procesu jako-jest, identyfikacja bottlenecks, audyt danych dostępnych w firmie, audyt systemów do integracji.
Output: dokument "Process & Data Audit" z konkretnym scope projektu, listą integracji, ocenowanym stanem danych.
Architektura i prototyp
Wybór architektury (RAG / fine-tuning / agent), wybór modeli, projekt integracji, decyzja chmura/on-premise. Szybki POC na 5-10 reprezentatywnych przypadkach — żeby przekonać siebie i klienta, że to ma sens.
Output: dokument architektury + działający POC z 5-10 przykładami + estimate kosztów.
Wdrożenie
Przygotowanie danych (jak omawialiśmy wyżej), zbudowanie pipeline-ów ETL, fine-tuning (jeśli trzeba), integracje z systemami firmy, UI/API dla użytkowników, audit logi, monitoring.
Output: działający system zintegrowany z infrastrukturą firmy, gotowy do pilota.
Pilot z prawdziwymi użytkownikami
5-10 osób, tygodniowe retrospekcje, iteracje (prompt tuning, fixy modelu, poprawki UX), szkolenia poziomu 1 i 2. Mierzenie metryk vs baseline.
Output: system iterowany na realnych danych z feedbackiem zespołu + raport z pilota.
Pełne wdrożenie + przekazanie
Roll-out na cały dział lub firmę, szkolenia poziomu 3 (decydenci), dokumentacja techniczna, przekazanie kodu i credentiali, ustalenie planu utrzymania (support + retreny).
Output: system na produkcji, dokumentacja, zespół klienta przeszkolony, umowa serwisowa zawarta.
Co jest po fazie 5
Wdrożenie nie kończy projektu — kończy fazę "build". Potem zaczyna się life-cycle systemu: kwartalne retrenowanie modeli, monitoring dryfu, dodawanie nowych źródeł danych, integracje z kolejnymi systemami, czasem nowy moduł. Nasze typowe umowy serwisowe to ~1-3 tys. zł miesięcznie za monitoring i okresowe poprawki, plus osobne projekty na rozszerzenia.
Podsumowanie — 7 zasad SULI
Po dziesiątkach rozmów i pięciu kompletnych wdrożeniach, oto reguły, którymi się kierujemy. Nie są to dogmaty — są to wnioski z doświadczenia.
- Problem przed technologią. Zaczynaj od procesu, który boli, nie od narzędzia, które fajnie wygląda.
- Mała wygrana przed wielką ambicją. Pierwszy projekt ma być prosty, szybki i mierzalny. Wielkie wizje przyjdą po nim.
- Dane to 60% projektu. Jeśli ktoś mówi inaczej — nie wdrażał systemu na produkcji.
- Najprostsza architektura, która działa. RAG przed fine-tuningiem, fine-tuning przed budową modelu od zera. Im prostsze, tym łatwiej utrzymać.
- Wrażliwe dane — lokalnie. On-premise nie jest "luksusem dla bogatych firm". Jest mandatory dla pharma, finansów, sektora publicznego, IP.
- Zespół klienta od pierwszego dnia. Wdrożenie bez ownerów po stronie biznesu = projekt-zombie.
- Mierz wszystko, co możesz. ROI bez metryk to opowieść. Z metrykami — to argument na rozszerzenie projektu na kolejne działy.
Chcesz porozmawiać o swoim projekcie?
Robimy bezpłatne konsultacje wstępne (45-60 min) — bez zobowiązań, bez slajdów sprzedażowych. Patrzymy na proces, który chcesz zoptymalizować, mówimy uczciwie, czy AI ma tu sens, jaką architekturę wybralibyśmy i ile to mniej więcej kosztuje. Jeśli AI nie ma sensu — powiemy to wprost.
Zaczynamy rozmowę o wdrożeniu?
Napisz w dwóch zdaniach, jaki proces w firmie chciałbyś zoptymalizować — odezwiemy się w 24h z konkretną propozycją kolejnych kroków.
Skontaktuj się z SULI →