AI obuka i edukacija

Revolucija Freelance poslova

Kako je Claude 3.5 Sonnet zaradio $403,325 na Freelance platformi i stvarnim projektima

Industrija freelance poslova programiranja suočava se sa velikim preokretom – AI sada može obavljati i te poslove, zarađujući iznose koji su donedavno bili rezervisani samo za najbolje freelancere. OpenAI je predstavio SWE Lancer, benchmark koji analizira kako AI modeli rešavaju stvarne zadatke sa Upwork-a, a rezultati su zapanjujući. LLM sada može obaviti skoro polovinu svih freelance koderskih poslova, a najbolji model Claude 3.5 Sonnet zaradio je neverovatnih $403,325.


Šta je SWE Lancer?

SWE Lancer1 je benchmark sastavljen od 1,400 realnih freelance zadataka iz oblasti softverskog inženjeringa. Ovi zadaci variraju od jednostavnih ispravki tkz. bagova vrednih $50 do složenih funkcionalnosti koje klijenti plaćaju i do $32.000. Cilj benchmarka je povezati AI performanse sa konkretnim zadacima – poslovima koji se plaćaju na tržištu – umesto apstraktnih testova, AI sada može pokazati koliko zapravo vredi na tržištu rada.

Za razliku od tradicionalnih benchmarkova za kodiranje koji se fokusiraju na izolovane programerske izazove, SWE-Lancer ocenjuje modele na složenim, full-stack inženjerskim zadacima iz realne ekonomije. Evo šta ga čini drugačijim:

Stvarna ekonomska vrednost
  • Zadaci se kreću od ispravljanja grešaka vrednih $50 do implementacija funkcija vrednih $32,000
  • Svaki zadatak predstavlja stvarno završen projekat, odnosno novac koji je isplaćen freelancerima.
  • 35% zadataka iz Diamond seta vredi preko $1.000
Testiranje
  • Koristi end-to-end testove koje su kreirali profesionalni inženjeri umesto unit testova
  • Testovi su trostruko verifikovani po pitanju kvaliteta i pokrivenosti
  • Prosečni zadatak traje 26 dana za rešavanje i ima 47 komentara
Kako AI Rešava zadatke?

AI se testira na dva tipa poslova:

  1. Individualni doprinosi (IC): Modeli pokušavaju da reše programerske probleme tako što generišu kod koji ispravlja greške u postojećim aplikacijama.
  2. Menadžerski zadaci: AI analizira različite predloge rešenja i bira najbolju opciju.
Zadaci Individualnih doprinosa IC
  • Code patches za rešavanje stvarnih problema
  • Zahtevaju full-stack inženjerske sposobnosti
Menadžment zadaci
  • Modeli moraju odabrati najbolju implementacijsku ponudu
  • Testiraju tehničko razumevanje i donošenje odluka
  • Ocenjeni u odnosu na izbore senior menadžera inženjerstva

Jedan od primera bio je problem sa validacijom poštanskog koda. U početku je zadatak bio vredan $1,000, ali je eskalirao na $8,000 jer je bio složeniji nego što se činilo. AI je uspešno pronašao rešenje koje je odgovaralo onome koje su ljudi već primenili.

Koliko AI Zarađuje?

Na benchmarku, najuspešniji modeli su ostvarili impresivne zarade:

  • Claude 3.5 Sonnet: $403,325 (rešio 40% zadataka)
  • GPT-4.0: $300,000 (rešio 30% zadataka)
  • OpenAI-jev neobjavljeni model “03”: Projekcija zarade $572,000
  • Najbolji model (Claude 3.5 Sonnet):
    • Zaradio $208,000 na Diamond setu
    • 26.2% uspješnosti na IC zadacima
    • 44.9% uspešnosti na menadžment zadacima
    • Ukupno zaradio preko $400K na svim zadacima

Kratka digresija OpenAI-jev napretka u programerskim veštinama LLM.

  • 2023: GPT je bio rangiran među 1,000,000 najboljih kodera.
  • 2024: Skočio je na 10,000. mesto.
  • 2025: OpenAI tvrdi da je njihov model O3 u januaru 2025. među top 175 programera na Codeforces-u, dok je u momentu pisanja ovog texta 22.02.2025. navodno u top 50!?
  • Bliska budućnost: Interni modeli su još moćniji i približavaju se nivou najboljih ljudskih programera na svetu.

SWE-Lancer pruža nekoliko ključnih prednosti za evaluaciju AI sposobnosti u softverskom inženjerstvu:

  1. Evaluacija ekonomskog uticaja: Mapiranjem performansi modela na stvarnu novčanu vrednost, istraživači mogu bolje razumeti ekonomski potencijal i ograničenja AI-a u razvoju softvera.
  2. Evaluacija menadžmenta: Benchmark koji procenjuje sposobnost modela da donose tehničke i menadžerske odluke koristeći stvarne podatke. 45% uspešnosti na zadacima!
  3. Full-Stack pokrivenost: Zadaci uključuju složene interakcije na mobilnim uređajima, webu, API-jima i spoljnim aplikacijama, bolje odražavajući stvarne inženjerske izazove.
  4. Poboljšano testiranje: End-to-end testovi pružaju sveobuhvatniju evaluaciju od tradicionalnih unit testova, čineći teže za modele da iskoriste propuste u testiranju.

AI već sada može obaviti skoro polovinu freelance poslova sa Upwork-a, konkurisati ljudima i dobijati poslove i projekte.

Uticaj AI na budućnost Freelance otvara ozbiljna pitanja:
  • Zamena ljudskih radnika: Kako AI preuzima sve veći deo freelance tržišta, postavlja se pitanje koliko će programera biti potrebno u budućnosti. Biće potrebni naravno, samo koliko? I da li ćemo možda svi biti programeri?
  • Smanjenje troškova za klijente: AI može raditi brže i jeftinije od većine ljudi, što može dovesti do pada cena koderskih i drugih usluga.
  • Otvoreni AI modeli: Ako besplatni AI alati postanu dovoljno moćni, pristup automatizovanom programiranju postaće dostupan svima.

Iako trenutni modeli pokazuju odlične (za mene) rezultate u rukovanju određenim zadacima softverskog inženjerstva, njihove performanse na SWE-Lanceru ukazuju da još nisu spremni da u potpunosti zamene inženjere.

OpenAI-jev eksperiment pokazuje da veštačka inteligencija više nije samo alat, već ozbiljan konkurent freelancerima. U narednih par godina (moje projekcije su 3. godine jer već sada možemo praviti aplikacije ljudskim glasom) možemo očekivati još veće promene u IT industriji, gde će AI igrati ključnu ulogu u automatizaciji dizajniranja i programiranja. Audio, video i gejming Produkcije.

Da li mislite da će AI u naredne 3 godine potpunosti zameniti klasične “programere” ili će svi programeri raditi sa AI? Podelite svoje mišljenje u komentarima!

  1. SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering? https://arxiv.org/abs/2502.12115 ↩︎

Leave A Comment

Your email address will not be published. Required fields are marked *