Blog WinnerScript
"AI powiedziało, że jestem INTJ" - dlaczego testy osobowości AI powtarzają te same błędy
W kwietniu 2026 roku Tshimula, Galekwa i Chikhaoui opublikowali w Frontiers in Computational Neuroscience krytyczną analizę pięciu lat badań nad profilowaniem osobowości MBTI za pomocą dużych modeli językowych. Ich wniosek nie brzmi: AI nagle zrobiło z typologii precyzyjną naukę. Nawet mocniejsze systemy LLM omawiane w analizie raportowały około 75-85% trafności na poziomie pojedynczej dychotomii, a jednocześnie nadal miały problemy z polaryzacją predykcji, nadmierną pewnością, biasem danych i słabą kalibracją względem realnych rozkładów cech w populacji. Prosto mówiąc: kiedy prosisz AI o umieszczenie Cię w jednym z 16 typów osobowości, może odpowiedzieć płynnie i pewnie. Tej pewności nie warto mylić z precyzją pomiaru.
AI niekoniecznie naprawiło testy osobowości. W wielu przypadkach wygląda raczej tak, jakby zautomatyzowało stary problem i dało mu gładszy interfejs.
Nowy interfejs, stara mapa
Otwórz ChatGPT. Wpisz: "Zrób mi test osobowości." AI wygeneruje pytania. Odpowiesz. Może przypisać Ci typ - zwykle coś, co wygląda jak MBTI. Cztery litery. Akapit walidacji. "Jesteś INTJ - Architektem." Albo INFP - Mediatorem. Albo ENFJ - Protagonistą.
Interfejs wydaje się nowy: konwersacyjne AI zamiast papierowego kwestionariusza. Logika pod spodem często jest stara: skompresować człowieka do małej liczby kategorii, sprawić, żeby wynik brzmiał spójnie, i dać użytkownikowi etykietę, którą łatwo rozpoznać.
Dlaczego tak się dzieje?
Bo LLM zwykle nie wynajduje nowej teorii osobowości, kiedy o nią prosisz. Czerpie z frameworków osobowości, opisów internetowych, języka forów i formatów testów, które występują w jego środowisku treningowym. Treści w stylu MBTI są wszędzie. Czteroliterowe typy są łatwe do rozpoznania. Pochlebne etykiety dobrze niosą się w internecie. Więc kiedy prosisz AI o test osobowości, często dostajesz typologię MBTI w twarzy chatbota.
Nieformalna analiza Petrovej z 2024 roku, w której zastosowano kwestionariusze MBTI do wariantów GPT-3, GPT-3.5 i GPT-4, pokazała przesuwające się "profile osobowości AI" między wersjami modeli: wcześniejsze modele często wyglądały jak ENTJ, a niektóre warianty GPT-4 po zmianach sposobu dostrajania modelu przesuwały się w stronę ISFJ. Sens nie polega na tym, że AI "ma" osobowość. Sens jest dziwniejszy i bardziej użyteczny: odpowiedzi modelu mogą odbijać dane treningowe, sposób sformułowania pytania i cele, pod które model był dostrajany. System projektowany tak, żeby odpowiadać uprzejmie i wspierająco, może zacząć przypominać typ kojarzony z troską, obowiązkowością i zgodnością.
Kiedy więc AI mówi Ci, kim jesteś, pierwsze pytanie brzmi: czy ono odkrywa Twoją osobowość, czy nakłada znajomą mapę na Twoje odpowiedzi?
Trzy błędy, które AI powtarza, gdy kopiuje MBTI
Błąd 1: Wymuszanie binarnych kategorii na ciągłych cechach
Testy w stylu MBTI sortują ludzi do binarnych pudełek: introwertyczny albo ekstrawertyczny, sensoryczny albo intuicyjny, myślący albo odczuwający, osądzający albo percepcyjny. Jedna litera na wymiar. Bez środka. Bez "Twoje odpowiedzi przechylają się w 57% w stronę introwersji, z szerokim marginesem niepewności."
To poważna kompresja. Analiza Scientific American z 2024 roku autorstwa Setha Stephensa-Davidowitza i Spencera Greenberga, oparta na badaniu Clearer Thinking, raportowała, że wymiary w stylu MBTI były bliskie rozkładowi normalnemu - bardziej jak krzywe dzwonowe niż czyste dwuczęściowe pudełka. Większość ludzi skupia się bliżej środka niż skrajności.
Kiedy przecinasz krzywą dzwonową na pół, ktoś tuż za granicą i ktoś daleko na skraju mogą dostać tę samą literę. Osoba z 51% introwersji i osoba z 99% introwersji stają się "I", choć ich doświadczenie może być bardzo różne.
Analiza Clearer Thinking szacowała, że dychotomizacja cech w stylu MBTI kosztowała około 38% trafności predykcyjnej. To nie znaczy, że kategorie są bezużyteczne. To znaczy, że kategoria wyrzuca dużo sygnału.
Kiedy AI replikuje output w stylu MBTI, może replikować tę samą stratę. Chatbot mówi: "Jesteś introwertykiem." Bardziej skalibrowany system powiedziałby raczej: "Twoje odpowiedzi w tym zestawie promptów przechylają się w stronę introwersji, ale wynik może być blisko środka i wrażliwy na kontekst." To brzmi mniej chwytliwie. Jest też uczciwsze.
Błąd 2: Pominięcie ważnego wymiaru
Narzędzia w stylu MBTI zwykle mierzą cztery wymiary. Model Big Five mierzy pięć: otwartość, sumienność, ekstrawersję, ugodowość i neurotyczność. Neurotyczność to wymiar związany ze zmiennością emocjonalną, reaktywnością na stres, skłonnością do lęku i stabilnością emocjonalną.
Ta sama analiza Scientific American raportowała, że usunięcie neurotyczności z Big Five zmniejszyło trafność predykcyjną o około 22%. Innymi słowy: model może brzmieć kompletnie, a jednocześnie pomijać wymiar, który często bardzo mocno działa w realnym życiu.
Kiedy AI generuje ocenę w stylu MBTI, może odziedziczyć ten martwy punkt. Twoja reakcja na stres, reaktywność emocjonalna i wzorce lękowe mogą zostać potraktowane mgliście, przemianowane na łagodniejszy język albo całkiem pominięte. Dostajesz czteroliterową etykietę, która może mówić bardzo mało o jednej z praktycznie najważniejszych części ludzkiego funkcjonowania.
WinnerScript podchodzi do tego inaczej. Mapuje 48 instynktów i zmysłów w 5 żywiołach - Ogniu, Powietrzu, Ziemi, Wodzie i Eterze - oraz 3 fazach przepływu: Absorpcji, Organizacji i Eksternalizacji. Wymiar emocjonalny nie jest traktowany jako jedna odizolowana cecha. Może pojawiać się przez połączenie Wody, presję Ognia, intelektualne zapętlenie Powietrza, zamrożenie albo potrzebę kontroli Ziemi oraz dystans, syntezę lub ucieczkę w sens Eteru.
To nie czyni z WinnerScript "ostatecznej prawdy". To inny zakład: wzorzec stresu osoby może być łatwiej zrozumieć, gdy patrzymy na to, jak energia porusza się przez cały system, a nie tylko gdzie jedna cecha leży na jednej osi.
Błąd 3: Traktowanie etykiety jak stałej prawdy
Etykieta wydaje się stabilna, bo łatwo ją zapamiętać. Ale łatwo zapamiętać nie zawsze znaczy precyzyjnie zmierzyć.
Psychometryczna synteza MBTI Form M Erforda z 2025 roku przejrzała duży zakres badań z lat 1999-2024. Jeden z niewygodnych wyników: w badaniach test-retest po czterech tygodniach tylko około 65% uczestników otrzymało ten sam czteroliterowy typ za drugim razem. Inne przeglądy również raportowały niepokojącą niestabilność, z szacunkami sugerującymi, że duża część uczestników może dostać inny typ MBTI w odstępie kilku tygodni.
To nie musi znaczyć, że ci ludzie się zmienili. Może znaczyć, że byli blisko granicy, odpowiadali z innego nastroju, inaczej zinterpretowali pytania albo trafili na narzędzie, które zmienia małe przesunięcia w nowe etykiety.
AI może sprawić, że ten proces wydaje się bardziej precyzyjny, niż naprawdę jest. Zapytasz w poniedziałek i możesz dostać INTJ. Zapytasz w piątek, opisując siebie trochę inaczej, i możesz dostać INTP. AI może nie zatrzymać się, żeby powiedzieć: "Twoje odpowiedzi wyglądają na bliskie granicy, więc ta etykieta jest niestabilna." Może po prostu wyprodukować kolejny pewny wynik.
WinnerScript z założenia unika przypisywania typów. Daje wyniki na ciągłych skalach dla każdego instynktu albo zmysłu. Jeśli Twoje odpowiedzi są podobne w dwóch sesjach, Twoje wyniki powinny pozostać podobne. Jeśli się przesuną, samo przesunięcie może stać się użyteczną informacją: nie "stałeś się innym typem", tylko "coś w tym wzorcu się poruszyło."
Pętla potwierdzenia
Najsubtelniejsze ryzyko nie polega na tym, że AI da Ci zły typ. Głębsze ryzyko polega na tym, że typ zacznie uczyć Cię, jak masz opisywać siebie.
- Pytasz AI o swój typ osobowości.
- AI daje Ci etykietę: "INTJ."
- Czytasz opisy INTJ, dołączasz do rozmów o INTJ i zaczynasz używać języka INTJ.
- Zadajesz AI kolejne pytanie o siebie.
- Twój prompt zawiera już więcej języka w kształcie INTJ.
- AI wykrywa ten język i potwierdza etykietę.
- Mapa zaczyna zaciskać się wokół terytorium.
To nie zawsze jest samopoznanie. Czasem to samowzmacnianie.
Stare ostrzeżenie Korzybskiego jest tutaj ważne: mapa nie jest terytorium. Etykieta może być użytecznym skrótem, ale może też stać się filtrem. Zauważasz to, co ją potwierdza. Tłumaczysz sobie to, co nie pasuje. AI odbija Twoje ramy z powrotem do Ciebie, a Twoje ramy stają się coraz bardziej podobne do odbicia AI.
WinnerScript próbuje ograniczać tę pętlę już na poziomie konstrukcji systemu.
Po pierwsze: żadnych typów. Żadnego czteroliterowego kodu. Żadnej odznaki tożsamości. Profil WinnerScript to 48-wymiarowa konfiguracja, z około 10^61 możliwych układów. Ta liczba nie jest po to, żeby ktokolwiek czuł się wyjątkowy albo lepszy. Jest po to, żeby przypominać, że ludzkiego wzorca nie warto zbyt szybko zamieniać w etykietę grupową.
Po drugie: każdy raport zawiera Maybe Logic Warning:
- Ten profil jest snapshotem w czasie. Możesz się zmienić.
- Ten model jest jedną z wielu perspektyw. Istnieją inne.
- Jeśli ten profil ogranicza Cię zamiast uwalniać, odrzuć go.
- Znajomość swoich instynktów nie uzasadnia poczucia wyższości.
- "Może" niesie więcej prawdy niż "na pewno."
To ostrzeżenie nie jest dekoracją. Jest częścią układu odpornościowego produktu.
Co AI mogłoby robić lepiej
Ironia polega na tym, że AI mogłoby pomóc pracy z osobowością stać się bardziej precyzyjną, nie mniej. Duże modele językowe potrafią przetwarzać złożone narracje, streszczać wzorce, porównywać wiele wymiarów i tłumaczyć wyniki ludzkim językiem. To jest mocne.
Problem zaczyna się wtedy, gdy AI używa tej mocy do robienia starej rzeczy szybciej: szybszej kategoryzacji, szybszego przypisywania etykiet, szybszych pochlebnych opisów.
Jak mógłby wyglądać lepszy kierunek?
Ciągły scoring zamiast typów. Zamiast "jesteś introwertykiem", system mógłby powiedzieć: "Twoja społeczna Absorpcja wygląda na wyższą niż społeczna Eksternalizacja w tym wzorcu odpowiedzi. To może wskazywać na przyjmowanie większej ilości stymulacji społecznej, niż wyrażasz na zewnątrz."
Detekcja przepływu zamiast opisu cech. Zamiast "masz intuicję", system mógłby mapować, gdzie energia poznawcza porusza się swobodnie, gdzie organizuje się w modele wewnętrzne i gdzie eksternalizuje się albo nie eksternalizuje w mowę, pisanie, decyzje lub działanie.
Detekcja R.I.F.T. zamiast list mocnych stron. Zamiast "Twoją siłą jest myślenie strategiczne", system mógłby zauważyć: "Twój wzorzec Powietrza może pokazywać wysoką Absorpcję i Organizację przy niższej Eksternalizacji. To czasem wygląda jak rozbudowany wewnętrzny model, który trudno przełożyć na słowa, decyzje albo działanie."
Język niepewności zamiast pewnych etykiet. Zamiast "JESTEŚ INTJ", system mógłby powiedzieć: "Ta konfiguracja może wskazywać na wzorzec wart eksploracji. Może też odzwierciedlać Twój obecny nastrój, kontekst albo sposób sformułowania pytań."
To jest linia, którą WinnerScript próbuje utrzymać. Nie jesteśmy anty-AI. WinnerScript używa AI do narracji raportów i wyjaśniania wzorców. Ale AI powinno być interpretatorem, nie autorytetem. Silnik scoringowy produkuje liczby. AI pomaga opowiedzieć, co te liczby mogą znaczyć. Ściana między deterministycznym scoringiem a generatywnym językiem ma znaczenie, bo płynny model potrafi sprawić, że słaba teza zabrzmi mocniej, niż powinna.
Problem "w połowie drogi między nauką a astrologią"
Analiza Scientific American z 2024 roku dała ostre porównanie: narzędzia Big Five przewidywały wyniki życiowe lepiej niż narzędzia w stylu MBTI, a astrologia nie przewidywała ich właściwie wcale. Ich sformułowanie ustawiało użyteczność MBTI mniej więcej w połowie drogi między nauką a astrologią.
To przydatna krytyka, bo nie jest leniwym odrzuceniem. Nie mówi, że narzędzia w stylu MBTI są bezwartościowe. Mówi, że mogą być mniej predykcyjne, niż sugeruje ich popularność.
Ryzyko z AI polega na tym, że może opakować słabszy model w mocniejszy interfejs. Konwersacyjna płynność, personalizacja i pewny ton mogą sprawić, że ograniczony framework poczuje się bardziej naukowy, niż naprawdę jest.
Zasada operacyjna WinnerScript, pożyczona od Roberta Antona Wilsona, idzie w przeciwnym kierunku:
"The totally convinced and the totally stupid have too much in common for the resemblance to be accidental."
Nasze raporty używają "może" jako zasady projektowej. Nie raz, jako disclaimer, ale przez całą interpretację. "To może sugerować..." "To może być warte eksploracji..." "Jedna możliwa interpretacja to..."
To nie słabość. To skalibrowana uczciwość wobec tego, co model osobowości może i czego nie może wiedzieć.
Pięć pytań do każdego narzędzia osobowości AI
Następnym razem, gdy AI powie Ci Twój typ osobowości, zadaj pięć pytań:
- Czy to kategoria czy wynik? Jeśli daje Ci tylko literę albo etykietę, może zamieniać płynne wyniki w zbyt prosty podział: jedno albo drugie.
- Jak stabilny jest ten wynik? Czy jutro, w innym nastroju i przy trochę innym sformułowaniu, dostałbyś tę samą odpowiedź?
- Czego to narzędzie nie mierzy? Jeśli mierzy cztery wymiary, czego brakuje? Jeśli mierzy cechy, czy pokazuje też przepływ? Jeśli opisuje, co masz, czy pokazuje, jak tego używasz?
- Czy to mówi mi to, co chcę usłyszeć? Narzędzia w stylu MBTI mogą dawać satysfakcję częściowo dlatego, że zmiękczają albo pomijają niewygodne wymiary. AI może wzmacniać tę tendencję, gdy jest dostrajane tak, żeby brzmieć wspierająco i dawać użytkownikowi satysfakcjonującą odpowiedź.
- Czy to narzędzie kiedykolwiek mówi "może"? Jeśli każde zdanie brzmi jak wyrok, coś prawdopodobnie jest nie tak. Żaden model nie obejmuje pełnej złożoności człowieka.
WinnerScript odpowiada na te pytania architekturą: ciągłe wyniki, nie typy. Fazy przepływu, nie tylko listy cech. Pięć równych żywiołów. Deterministyczny scoring oddzielony od narracji AI. R.I.F.T. jako potencjalny sygnał ograniczenia, nie diagnoza. I Maybe Logic wbudowane w całość.
Nie dlatego, że wszystko rozgryźliśmy.
Dlatego, że nie rozgryźliśmy - a każde narzędzie warte zaufania powinno umieć to powiedzieć.
AI nie wynalazło testów osobowości na nowo. W wielu przypadkach przyspieszyło te same błędy: binarne kategorie, brakujące wymiary, pewne etykiety i pętle potwierdzenia, teraz podane w konwersacyjnym formacie przez systemy trenowane, żeby brzmieć pomocnie. WinnerScript powstał jako alternatywa: ciągłe wyniki, mapowanie przepływu, detekcja R.I.F.T. i "może" jako zasada projektowa. Nie dlatego, że pewność jest niemożliwa. Dlatego, że pewność wobec człowieka prawie zawsze przychodzi za wcześnie.
Marcin O., współtwórca WinnerScript