W lutym 2025 roku Andrej Karpathy — współzałożyciel OpenAI i były szef AI w Tesli — wrzucił post na X, który zmienił sposób, w jaki branża rozmawia o programowaniu. Napisał: „There’s a new kind of coding I call 'vibe coding’, where you fully give in to the vibes, embrace exponentials, and forget that the code even exists.”
Do marca Merriam-Webster dodał termin do słownika jako „slang & trending”. W grudniu 2025 Collins Dictionary ogłosił vibe coding słowem roku. W tym samym roku pojawiło się kilkanaście recenzowanych prac naukowych próbujących odpowiedzieć na pytanie, które branża zadawała sobie od miesięcy: czy to naprawdę działa?
Odpowiedź jest bardziej złożona niż większość nagłówków sugeruje.
Definicja, którą warto uściślić
Vibe coding to nie to samo co no-code. Nie chodzi też o kopiowanie odpowiedzi z ChatGPT. Badacze z ICSE 2026 definiują go jako iteracyjny cykl: sformułowanie celu w języku naturalnym → prompt → przegląd kodu → test → korekta. Człowiek jest product ownerem i architektem. AI — partnerem implementacyjnym.
To zmienia wymagania względem dewelopera, ale ich nie eliminuje. Nie musisz wiedzieć, jak napisać hook React z optymistyczną aktualizacją UI. Musisz wiedzieć, że jej potrzebujesz i dlaczego.
Co mówią badania — produktywność
W 2025 roku ukazało się kilka istotnych prac. Zebrałem dane z najważniejszych.
Kluczowe badania 2025
Nowe badania 2026
Kontrolowane warunki, 95 profesjonalnych deweloperów. Redukcja czasu o 55% przy użyciu Copilot, ponad 67% przy zaawansowanych agentach.
Co mówią badania — jakość kodu
Tutaj dane są mniej wygodne dla entuzjastów vibe codingu.
GitClear przeanalizował 211 milionów zmienionych linii kodu z lat 2020–2024 i wskazał na zjawisko, które nazywa AI-induced tech debt. Wyniki są niepokojące:
Źródło: GitClear AI Copilot Code Quality Research 2025, 211M linii kodu. CodeRabbit (470 PR, grudzień 2025): kod AI ma 1,7x więcej „major issues”.
Niezależna analiza CodeRabbit z grudnia 2025 (470 pull requestów) potwierdziła: kod z udziałem AI zawiera 1,7x więcej poważnych błędów — głównie błędy logiczne, wadliwy control flow i błędne zależności.
Paradoks vibe codingu: 55% szybciej, ale 2,74x więcej luk bezpieczeństwa. Obie liczby są prawdziwe jednocześnie.
Refaktoryzacja kodu spadła z 25% zmienionych linii w 2021 do poniżej 10% w 2024. Duplikacja wzrosła 8-krotnie. Copy-paste code przewyższył moved code po raz pierwszy od dwóch dekad.
Przypadek bezpieczeństwa — Lovable (maj 2025)
170 z 1 645 aplikacji zbudowanych przez Lovable miało lukę, która umożliwiała dostęp do danych osobowych użytkowników bez uwierzytelnienia. Aplikacje były w produkcji. Żadna nie wysyłała ostrzeżenia o podatności.
Porównanie narzędzi do vibe codingu
Ekosystem rozwinął się błyskawicznie. Dwie kategorie: asystenci w IDE (Claude Code, Cursor, Windsurf, Codex) i app buildery (Lovable, Bolt, v0). Różnią się fundamentalnie grupą docelową i use case.
| Narzędzie | Dla kogo | Mocne strony | Słabe strony | $/mies. |
|---|---|---|---|---|
| Claude Code | Senior dev, złożone projekty | Lider SWE-bench (79,6% Sonnet 4.6, 87,6% Opus 4.7). Najlepszy kontekst przy 40+ plikach naraz. Precyzyjny refactoring cross-file. Terminal-first — bez zbędnego GUI. | Terminal only — brak GUI. Wolniejszy przy prostych, jednorazowych zadaniach. Wyższy koszt przy intensywnym użyciu. | $20–200 |
| Cursor | Deweloperzy, teams | Pełny IDE (fork VS Code), 1M+ użytkowników. Do 8 równoległych agentów z auto-judge. .cursorrules dla kontekstu projektu. Największy ekosystem na rynku (360k płatnych klientów). | Traci kontekst przy bardzo dużych refaktoryzacjach. Lock-in do własnego IDE — nie działa w JetBrains/Vim. | $20 |
| Windsurf | Deweloperzy, multi-IDE | Cascade (persistentny kontekst agentowy, self-recovery). Wtyczki do 40+ IDE (JetBrains, Vim, XCode, NeoVim). Nr 1 LogRocket AI Dev Tool Rankings (luty 2026). Przejęty przez Cognition za $250M. | Mniejszy ekosystem niż Cursor. Niepewność strategiczna po przejęciu przez Cognition (twórca Devin). | $20 |
| Codex (OpenAI) | Dev, enterprise GPT | Open-source CLI. Wbudowane web search domyślnie. Wsparcie MCP servers. SWE-bench ~85% (GPT-5.3-Codex). Zoptymalizowany pod niskie opóźnienia. Wsparcie obrazów (screenshoty/wireframes). | Młodsze narzędzie, mniejsza społeczność. Interfejs mniej dopracowany niż Cursor/Claude Code. Mniejsza kontrola nad środowiskiem. | w planie ChatGPT |
| Lovable | Non-dev, MVP | Najszybszy start — od opisu do działającej aplikacji w minuty. Świetny output UI/UX. Zero wiedzy technicznej wymagane. Idealny do walidacji pomysłu. | Udokumentowane luki bezpieczeństwa (170/1645 aplikacji). Słaby przy zmieniających się wymaganiach. Nie nadaje się do złożonych systemów. | $25–50 |
| Bolt.new | Non-dev, prototyp | StackBlitz w przeglądarce — zero instalacji. Szybki start. Dobre do demo i showcase. | Traci spójność przy zmianach wymagań. Podobne ograniczenia jak Lovable — nie do produkcji bez audytu. | $20 |
| v0 (Vercel) | Designerzy, frontend | Najlepszy do UI komponentów (React/Next.js/shadcn). Idealna integracja z Vercel. Precyzyjny w stylowaniu. Dobry dla designerów z minimalną wiedzą JS. | Wąski zakres — frontend/UI only. Nie zastępuje pełnego asystenta kodowania. | $20 |
SWE-bench: jak mierzy się realne zdolności agentów
SWE-bench Verified to benchmark oparty na prawdziwych bugach z GitHuba — nie syntetycznych zadaniach. Model dostaje repozytorium i issue, musi samodzielnie napisać patch, który przejdzie testy. Najbardziej wiarygodny pomiar zdolności agenta do realnego programowania.
Wzrost z 48,5% (GPT-4 Turbo, listopad 2023) do 87,6% (Claude Opus 4.7, kwiecień 2026) w niecałe 2,5 roku. Szybkość poprawy jest równie imponująca jak sam wynik.
Które narzędzie wybrać — mapa decyzji
→ Claude Code. Najlepsza retencja kontekstu, lider SWE-bench.
→ Cursor. Lider rynku, 1M+ użytkowników, fork VS Code.
→ Windsurf. Jedyne narzędzie z wtyczkami do 40+ IDE.
→ Codex CLI. Open-source, wbudowane web search, dobry przy zapytaniach wymagających aktualnych danych.
→ Lovable lub Bolt. Bez żadnej wiedzy technicznej. Pamiętaj o audycie bezpieczeństwa przed produkcją.
Najlepsza strategia w 2026: Claude Code lub Codex do złożonych zadań agentowych; Cursor lub Windsurf do codziennego kodowania w IDE; Lovable / Bolt / v0 do szybkiego prototypowania bez wiedzy technicznej. Większość doświadczonych zespołów używa kilku narzędzi jednocześnie — zależnie od zadania.
Vibe coding — co z tego wynika
Karpathy, który ukuł termin, rok później przyznał publicznie, że do swojego nowego projektu napisał kod ręcznie — bo wymagał precyzji, której vibe coding nie dał. To dobra metafora dla całego zjawiska.
Vibe coding nie zastępuje programowania. Radykalnie obniża próg wejścia — i tyle. Dane pokazują 55% wzrost prędkości przy 2,74x więcej lukach bezpieczeństwa. Obydwie liczby są prawdziwe jednocześnie. Pytanie nie brzmi „czy używać AI do pisania kodu” — to pytanie jest już za nami.
Pytanie brzmi: kiedy wchodzi człowiek i bierze odpowiedzialność za to, co AI napisało? W prototypie — może nigdy. W systemie, który przetwarza dane użytkowników — zawsze, zanim kod trafi do produkcji.
Źródła: Karpathy (X, luty 2025) · arxiv 2510.00328 / 2510.12399 (ICSE 2026) · IJSAT 2025 · GitHub/Microsoft Research 2024 (n=95) · GitClear 2025 (211M linii) · CodeRabbit (470 PR, grudzień 2025) · ZoomInfo Enterprise Study (styczeń 2025) · METR RCT arxiv 2507.09089 · arxiv 2601.15494 „Vibe Coding Kills OSS” · arxiv 2603.14133 · Faros AI (22K deweloperów) · SWE-bench (kwiecień 2026) · Collins Dictionary Word of the Year 2025