Analogiat DeepSeek-R1:n tekoälyn taustalla

27.1.202527.1.2025

Tämä ei ole tarina raakaa laskentatehoa tai salaisia algoritmeja hyödyntävästä tekoälystä. Tämä on tarina siitä, miten tekoäly oppii uudella tavalla: opiskelijan kaltaisesta matkasta kaoottisista raapustuksista järjestelmälliseen nerouteen – uteliaisuuden, kokeilun ja erehdyksen siivittämänä, valmentajan ohjauksessa, joka valitsee vain oikeat pelaajat, ja pelikirjalla, joka on niin tehokas, että se mahtuu taskuun.

Kuvittele opettavasi lapselle matematiikkaa ilman oppikirjoja tai luentoja. Sen sijaan annat heidän ratkaista pulmia kokeilemalla ja erehtymällä, palkiten oikeista vastauksista. Juuri näin DeepSeek-R1, tekoälymalli, joka kilpailee OpenAI:n huippujärjestelmien kanssa, oppi päättelemään – käyttämällä vahvistettua oppimista (RL). Tässä on yksinkertaistettu kuvaus sen koulutusmatkasta arkipäiväisten analogioiden avulla:

Yrittämällä ja erehtymällä -lapsi

Menetelmä: DeepSeek-R1-Zero käytti puhdasta vahvistettua oppimista ilman valvottua hienosäätöä.
Analogia: Lapsi ratkaisee matematiikkatehtäviä ilman esimerkkejä. Jokainen oikea vastaus saa kehuja, ja väärät vastaukset jätetään huomiotta. Ajan myötä lapsi löytää kaavoja ja hioo strategioitaan.

Näin se toimi: Tekoäly kokeili tuhansia tapoja ratkaista matematiikka-, koodaus- ja logiikkatehtäviä. Oikeat vastaukset toivat palkintoja, opettaen sitä priorisoimaan tehokkaita päättelypolkuja.
Tulos: Saavutti 71 % tarkkuuden matematiikkakokeissa (AIME 2024) DeepSeek-R1-Zero:lle, mutta vastaukset olivat sekavia ja joskus sisälsivät eri kielten sekoituksia.

Opintosuunnitelman päivitys

Menetelmä: Alkutiedot + ajatusketju (CoT) -mallit
Analogia: Lapsi ratkaisee aluksi matematiikkatehtäviä sekavilla raapustuksilla. Parantaakseen lapselle annetaan tehtäväkirja, jossa jokainen ratkaistu esimerkki näyttää vaiheet. Lapsi oppii jäljittelemään tätä järjestelmällistä lähestymistapaa välttäen oikoteitä tai ohitettuja vaiheita.

Näin se toimi: Insinöörit lisäsivät yli 3 000 huolellisesti valittua esimerkkiä, joissa käytettiin järjestelmällistä ajatusketju (CoT) -päättelyä – kuten vaiheittaisia matematiikan laskutoimituksia ja todistuksia tai koodin virheenkorjausvaiheita – joissa tekoälyn ajatteluprosessi erotettiin selkeästi lopullisesta vastauksesta. <think> tunnisteilla.
Tulos: Tarkkuus nousi 79,8 %:iin (vastaten OpenAI:n o1 79,2 %:ia), ja vastauksista tuli luettavia.

Tutor-oppilasyhdistelmä

Menetelmä: Hybridikoulutus (vahvistettu oppiminen + valvottu oppiminen).
Analogia: Oppilas oppii itseohjautuvan harjoittelun kautta samalla, kun hän konsultoi mentoria saadakseen palautetta, hioen menetelmiä varmistaakseen, että ratkaisut ovat sekä luovia että tarkkoja.

Näin se toimi: Tekoäly yhdisti vahvistetun oppimisen (RL) kokeilun iteratiiviseen valvottuun hienosäätöön (SFT), tuottaen 800 000 korkealaatuista esimerkkiä suodattamalla RL:n tulokset selkeyden ja oikeellisuuden perusteella sekä hienosäätämällä niitä säännöllisesti ihmisten hyväksymien esimerkkien (esim. selkeät tiivistelmät) avulla vastaamaan mieltymyksiä.
Tulos: Yhdisti luovuuden ja tarkkuuden tasapainoisesti, menestyen sekä STEM- että kirjoitustehtävissä. Tuettu vertailuarvoilla (esim. 97,3 % MATH-500:ssa, 87,6 % AlpacaEval 2.0:ssa).

Muistiinpanojen tiivistys

Menetelmä: Tiedonsiirto pienempiin malleihin
Analogia: Älykäs oppilas tiivistää oppikirjansa taskukokoiseksi muistiinpanoksi, mikä mahdollistaa ystävien ratkaista ongelmia melkein yhtä hyvin ilman raskasta muistikirjaa.

Näin se toimi: Insinöörit tiivistivät valtavan 671 miljardin parametrin “asiantuntijamallin” ongelmanratkaisutaidot pienempiin ja tehokkaampiin versioihin (kuten Qwen-7B) käyttämällä 800 000 keskeistä esimerkkiä, jolloin ne voivat toimia tavallisilla laitteilla (esim. peliläppärillä).
Tulos: Tiivistetty 7 miljardin parametrin malli saavutti 55,5 % tarkkuuden AIME-matematiikkatehtävissä (verrattuna GPT-4o:n 9,3 %:iin) ja 37,6 % LiveCodeBench-koodin tehtävissä (verrattuna GPT-4o:n 34,2 %:iin), mikä todistaa, että pienemmät mallit voivat kilpailla jättimallien kanssa erikoistuneilla alueilla.

Mallin arkkitehtuuri

Arkkitehtuuri: Mixture of Experts (MoE) -arkkitehtuuri aktivoi vain tehtäväkohtaiset “asiantuntijat” koko mallin sijasta.
Analogia: Kuten jalkapallovalmentaja, joka lähettää vain hyökkääjän tekemään maaleja, maalivahdin torjumaan laukauksia tai keskikenttäpelaajan rakentamaan peliä – sen sijaan, että koko joukkue juoksisi ympäri kenttää jokaisessa tilanteessa.

Näin se toimii: Käyttää 5,5 % kokonaiskapasiteetista (37 miljardia / 671 miljardia parametria) per kysely, aktivoiden vain tehtäväkohtaiset asiantuntijat.
Tulos: Toisin kuin tiheät mallit, kuten GPT-4 (jotka käyttävät aina 100 % “aivokapasiteetistaan”), tämä vähentää energiakuluja ja laitteistokustannuksia noin 70 %, samalla kun suorituskyky säilyy ennallaan.

Lopulliset ajatukset

Kuten DeepSeek-R1, joka aktivoi vain 5,5 % “mielestään” tehtäväkohtaisilla asiantuntijoilla, myös ihmisen aivot keskittävät energiansa tiettyihin alueisiin, kuten otsalohkoon logiikkaa varten tai näköaivokuoreen näköä varten – eivätkä sytytä kaikkia neuroneita kerralla – osoittaen, että sekä tekoäly että ihmiset menestyvät tarkkuuden, eivät ra’an voiman, ansiosta. DeepSeek-R1:n tehokkuus tekee tekoälystä saavutettavampaa, mutta muistuttaa samalla, että meidän on puututtava ennakkoluuloihin, kestävyyteen ja vastuulliseen käyttöön – eettisen tekoälyn keskeisiin pilareihin. Opi tasapainottamaan innovaatio ja etiikka täällä.

Teamitillä kokeilemme jo DeepSeek-R1:n API:a ja paikallisia käyttöönottoja tutkien sen potentiaalia tarjota GPT-4-tasoista suorituskykyä murto-osalla kustannuksista – luoden pohjan skaalautuville, budjettiystävällisille tekoälyratkaisuille, jotka voivat mullistaa liiketoimintasi vuonna 2025 ja sen jälkeen. Jos tämä on ajankohtaista yrityksessänne, voit ottaa minuun yhteyttä LinkedInissä tai Teamit osoitteessa marko.nissila@teamit.fi saadaksesi lisätietoja.