Sari la conținut

Generative pre-trained transformer

De la Wikipedia, enciclopedia liberă
Modelul GPT original

Generative pre-trained Transformer (GPT) este o familie de modele de limbaj instruite în general pe un corp mare de date text pentru a genera text în mod similar oamenilor. Sunt construite folosind mai multe blocuri ale arhitecturii transformatorului. Ele pot fi reglate fin pentru diverse sarcini de procesare a limbajului natural, cum ar fi generarea de text, traducere automată și clasificarea textelor. „Preinstruirea” din numele său se referă la procesul de formare inițială pe un corpus textual mare în care modelul de limbaj învață să prezică următorul cuvânt dintr-un pasaj, ceea ce oferă o bază solidă pentru ca modelul să funcționeze bine în sarcinile ulterioare cu cantități limitate a datelor specifice sarcinii.

  • ChatGPT (Chat Generative Pre-trained Transformer)[1] este un chatbot lansat de OpenAI în noiembrie 2022. Utilizează GPT-3⁠(d).5 și este reglat fin (o abordare a transferului de învățare)[2] atât cu tehnici de învățare supravegheată, cât și prin întărire.
  • BioGPT este un GPT care se concentrează pe răspunsul la întrebări biomedicale.[3] Este dezvoltat de Microsoft.[4]
  • ProtGPT2 este un GPT care se concentrează pe designul proteinelor.[5]
Pentru informații suplimentare, vezi OpenAI

Pe 11 iunie 2018, OpenAI a lansat o lucrare intitulată „Îmbunătățirea înțelegerii limbajului prin preformare generativă”, în care a introdus transformatorul generativ preantrenat (GPT).[6] În acest moment, modelele NLP neuronale cu cele mai bune performanțe au folosit în principal învățarea supravegheată din cantități mari de date etichetate manual. Această dependență de învățarea supravegheată a limitat utilizarea acestora pe seturi de date care nu erau bine adnotate, pe lângă faptul că a făcut ca antrenarea modelelor extrem de mari să fie extrem de costisitoare și consumatoare de timp;[6][7] multe limbi (cum ar fi swahili sau creolul haitian ) sunt dificil de tradus și interpretat folosind astfel de modele din cauza lipsei de text disponibil pentru construirea corpusului.[7] În schimb, abordarea „semi-supravegheată” a GPT a implicat două etape: o etapă generativă nesupravegheată de „pre-training” în care un obiectiv de modelare a limbajului a fost folosit pentru a seta parametrii inițiali și o etapă de „reglare fină” discriminativă supravegheată în care acești parametri. au fost adaptate unei sarcini țintă.[6]

versiuni GPT
Arhitectură Număr de parametri Date de antrenament
GPT-1 Codificator transformator cu 12 nivele, 12 capete (fără decodor), urmat de liniar-softmax. 0,12 miliarde BookCorpus:[8] 4,5 GB de text, din 7000 de cărți nepublicate de diferite genuri.
GPT-2 GPT-1, dar cu normalizare modificată 1,5 miliarde WebText: 40 GB de text, 8 milioane de documente, din 45 de milioane de pagini web votate pozitiv pe Reddit.
GPT-3 GPT-2, dar cu modificări pentru a permite o scalare mai mare. 175 miliarde 570 GB text simplu, 0,4 trilioane de jetoane. În principal, CommonCrawl, WebText, Wikipedia în engleză și corpuri de două cărți (Books1 și Books2).
  1. ^ Roose, Kevin (). „The Brilliance and Weirdness of ChatGPT”. The New York Times (în engleză). Arhivat din original la . Accesat în . Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash. 
  2. ^ Quinn, Joanne (). Dive into deep learning: tools for engagement. Thousand Oaks, California. p. 551. ISBN 9781544361376. Accesat în . 
  3. ^ Luo R, Sun L, Xia Y, Qin T, Zhang S, Poon H; et al. (). „BioGPT: generative pre-trained transformer for biomedical text generation and mining”. Brief Bioinform. 23 (6). doi:10.1093/bib/bbac409. PMID 36156661 Verificați valoarea |pmid= (ajutor). 
  4. ^ Matthias Bastian (). „BioGPT is a Microsoft language model trained for biomedical tasks”. The Decoder. 
  5. ^ Ferruz, N., Schmidt, S. & Höcker, B.; et al. (). „ProtGPT2 is a deep unsupervised language model for protein design”. Nature Communications volume. 13. doi:10.1038/s41467-022-32007-7. 
  6. ^ a b c Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (). „Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. p. 12. Arhivat din original (PDF) la . Accesat în . 
  7. ^ a b Tsvetkov, Yulia (). „Opportunities and Challenges in Working with Low-Resource Languages” (PDF). Carnegie Mellon University. Arhivat din original (PDF) la . Accesat în . 
  8. ^ Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (). „Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books”: 19–27.