Continuăm seria „cum mă ajută laptopul meu cu grafică NVIDIA GeForce RTX 4070” cu un articol dedicat Inteligenței Artificiale. Știm deja că orice placă video NVIDIA din seria RTX vine cu capabilități însemnate pe partea de AI. Am vorbit pe larg de tot ce înseamnă NVIDIA DLSS, tehnologia bazată pe AI care este disponibilă acum în peste 600 de jocuri și aplicații, în care îmbunătățește performanțele și accelerează procesele. Am văzut în acțiune DLSS 3.5 în Cyberpunk 2077, dar v-am arătat și care sunt diferențele cu Ray Reconstruction, parte din DLSS 3, On versus Off în două dintre cele mai recente jocuri.

NVIDIA GeForce RTX DLSS in Cyberpunk 2077

NVIDIA DLSS este bine antrenat acum și folosește puterea AI spre a genera cele mai bune rezultate atât în gaming, cât și în cele mai folosite aplicații de creație, design, editare foto-video, proiectare etc.

De asemenea, am discutat amănunțit despre ecosistemul NVIDIA Studio, despre cum AI-ul face diferența și îi ajută pe creatorii de conținut să genereze mai rapid rezultate mai bune.

Mai există și Inteligența Artificială generativă, disponibilă prin intermediul NVIDIA ACE.

NVIDIA AI power with ACE

Este o tehnologie destinată dezvoltatorilor de aplicații și jocuri, care pot integra capabilitățile AI generativ în personaje, chatboți și altele asemenea spre a genera o experiență de utilizare unică, personalizată de fiecare dată.

Numai că azi am decis să nu analizăm tehnologii bazate pe cloud, pe un asistent care rulează în cloud, deci care necesită tot timpul o conexiune la internet. Ei bine, nu! Azi vedem cum se descurcă și cum te poate ajuta NVIDIA ChatRTX, care este un software, un program, o aplicație, un asistent, un bot, spune-i cum vrei, unul care rulează local pe PC-ul tău și care folosește puterea imensă de procesare a nucleelor Tensor, integrate în plăcile video NVIDIA GeForce RTX.

NVIDIA Tensor Cores

Aceste nuclee lucrează însă cu succes nu doar alături de ChatRTX, ci în orice altă aplicație care este procesată local. Mă refer la programe precum Open WebUI, Stable Diffusion sau ComfyUI, ca să menționez doar unele dintre cele mai cunoscute și poate utilizate LLM-uri open source la ora actuală. De reținut este că oricare dintre aplicațiile de acest fel vor beneficia de toată puterea de procesare pusă la dispoziție de plăcile grafice NVIDIA GeForce RTX, putere care pentru AI poate atinge nu mai puțin de 686 TOPS (pentru NVIDIA GeForce RTX 4090 Laptop).

Putere TOPS NVIDIA GeForce RTX 40 Laptop

Ca să înțelegem mai bine, un CPU actual care integrează NPU-uri dedicate AI poate atinge în jur de 50 TOPS, așa că este clar cam care este diferența între o placă video NVIDIA GeForce RTX 40 și un procesor lăsat să se descurce de unul singur în aplicațiile AI locale. 

Revenind la subiectul principal de azi, rulând local, ChatRTX va trebui mai întâi descărcat și instalat. Primul pas este să accesezi site-ul dedicat, unde apare în prim-plan butonul de download. Numai că înainte de a merge mai departe trebuie să verifici dacă PC-ul tău este compatibil cu ChatRTX, dacă poate suporta instalarea și apoi utilizarea.

Cerinte sistem NVIDIA ChatRTX

Vedem din imaginea de mai sus că doar una dintre condiții este o idee mai greu de îndeplinit, anume cea care se referă la existența unei plăci grafice NVIDIA GeForce RTX din seria 30 sau 40, deci din generația Ampere sau Ada, și care să dispună de o memorie VRAM de minim 8GB. Restul cerințelor nu mi se par deloc exagerate, ba chiar orice PC mid-range de maxim 3 – 4 ani vechime ar trebui să se califice.

Dacă sistemul tău se încadrează ca specificații, atunci poți merge mai departe cu descărcarea NVIDIA ChatRTX. Atenție, fișierul are aproape 11GB!

După download, instalezi aplicația local pe PC-ul tău, în locația pe care o dorești. Sunt pașii obișnuiți, absolut nimic complicat. Va dura ceva întreg procesul, semn că avem o aplicație complexă.

Chiar dacă nu am precizat până aici, cred că este momentul să subliniez că ChatRTX este deocamdată la nivel de aplicație demo, versiunea 0.4 mai exact. Așadar, încă învață, încă este în proces de dezvoltare accelerată. Doar că, așa cum vom descoperi, ChatRTX deja te poate ajuta mult în anumite sarcini, în anumite scenarii de folosire.

Iată cum arată interfața inițială:

Screenshots am testat NVIDIA ChatRTX

Vedem o pagină Home extrem de simplă, absolut nimic care să te copleșească, ba din contră. Cea mai mare parte a ecranului este ocupată de zona de chat, pentru ca în partea de sus să vedem câteva meniuri.

Avem în zona din stânga sus modelul AI pe care vrei să-l folosești. La pachet cu ChatRTX în procesul de instalare îți este propus LLM-ul Mistral 7B int4. Eu l-am selectat, evident, precum am ales să fie instalat și modulul Whisper. Acesta va permite să dai comenzi vocale în timpul interacțiunii cu ChatRTX, prin intermediul microfonului cu care este dotat PC-ul tău. Dacă tot am amintit de asta, vreau să spun că unele dintre comenzile pe care le voi prezenta mai jos au fost date prin intermediul microfonului, deci folosind funcția Whisper, care a înțeles perfect, de fiecare dată, ceea ce am transmis prin voce, reprezentat apoi ca text în secțiunea dedicată.

Revenim la modelele AI din ChatRTX. Aveam Mistral 7Bint4 (de la Mistral AI), dar mai exista și opțiunea de a instala CLIP, de la OpenAI. Am decis să instalez și această opțiune.

Mai întâi să vedem ce poate face Mistral. Ei bine aici sunt două opțiuni. Poți alege să folosești LLM-ul oferind ca bază de date fișiere disponibile pe PC-ul tău, unele care trebuie să fie în format „.txt”, „.pdf” sau „. docx”. Această variantă apare ca „Chat with your data (RAG)”. Mai există și opțiunea ca Mistral AI să genereze răspunsuri din baza de date pe care o deține, opțiune care apare drept „Chat with AI model data”. Foarte important de precizat este că în niciuna dintre variante ChatRTX nu are nevoie de conexiune la internet, totul se desfășoară local pe PC-ul tău. Mereu!

Prima dată am ales să interacționez cu ChatRTX prin modelul „Chat with AI model data”. Am pus câteva întrebări la care chatbot-ul a răspuns rapid, maxim 3 – 4 secunde până ce începea să redacteze răspunsul. Vedeți din imaginile de mai jos cum a decurs conversația:

Răspunsurile de la ChatRTX au fost cele corecte, ba chiar frumos „ambalate” cum s-ar spune, cumva așa cum te-ai aștepta să-ți răspundă un interlocutor uman. Sigur că nu mereu am primit ceea ce speram, dar aici ține mult și de cum formulezi cererea / întrebarea și de ce așteptări ai. Cu ceva antrenament și cu cereri / întrebări mai bine țintite sau mai explicite ajungi să obții răspunsuri din ce în ce mai bune. 

Apoi, am ales să-l pun la lucru pe ChatRTX cu câteva fișiere locale, documente în formatele acceptate. Pentru asta a trebuit să selectez modul „Chat with your data (RAG)”. Apoi, este nevoie să alegi un folder de unde ChatRTX să-și ia informațiile. Am creat un dosar cu câteva fișiere de test, unde am pus de toate – .txt, .docx și .pdf. Apoi, am solicitat informații care știam că există în acele documente.

Am încercat să pun mai sus capturi de ecran cât mai elocvente, din care să reiasă cât mai exact cum s-a desfășurat interacțiunea. Eu am testat mult mai mult această funcție, dar cu unele documente pe care nu le pot face publice. Până la urmă fix acesta este scopul lui ChatRTX, de a păstra un nivel înalt de confidențialitate, de intimitate. De asta lucrezi local și îi pui la dispoziție informații care nu dorești să ajungă online.

Revenind la imaginile de mai sus, vedem că am variat cerințele, am solicitat informații din documentele puse la dispoziția ChatRTX care nu erau neapărat cel mai evident de regăsit. Din toate testele făcute de mine, ChatRTX mi-a dovedit că nu doar „scanează” acele documente, ci înțelege despre ce este vorba în fiecare text, înțelege contextul. Da, am solicitat informații care trebuiau deduse, cum s-ar spune, și nu doar copiate din documente și apoi predate mie.

Aici mi s-a părut impresionant ChatRTX. Nu spun că ce face este unic, că nu mai există alte astfel de soluții care să facă asta. Expun doar ceea ce am descoperit la NVIDIA ChatRTX. Mie mi s-a părut impresionant și de real ajutor.

Adică, am multe documente într-un folder. Într-unul din ele știu că există o informație de care am nevoie, dar nu mai știu nici în care document este. Să presupunem că avem peste 50 de documente și fiecare are multe, multe pagini.

Imaginați-vă cât ar dura să găsești un paragraf unde sunt datele de care ai nevoie. Cu ChatRTX doar îl direcționezi către acel folder și faci solicitarea. În câteva secunde ai răspunsul în zona de chat, dar îți este oferit și documentul unde este informația.

Ceea ce nu am menționat până acum este că, așa cum ați observat deja, conversația, interacțiunea cu ChatRTX se face în limba engleză. Aici s-ar putea să fim ușor dezamăgiți unii dintre noi. 

Prima dată l-am întrebat pe ChatRTX dacă se pricepe la „limba romana” (da, nu am folosit diacritice…). Răspunsurile, precum întreaga conversație mi s-a părut la un moment dat ilară.

Vedeți la un moment dat că îi transmit că nu mi se pare că se descurcă prea bine în limba română, iar ChatRTX îmi răspunde, fără ca eu să fi adresat solicitare / întrebare, că lui i se pare că nici eu nu mă prea descurc în engleză. Am râs, sincer, mai ales că răspunsul lui era în ceea ce se dorea limba română, dar nu chiar 🙂.

Am mers mai departe, am încercat totuși să fac solicitări, să pun întrebări și în română. Iar documentele pe care i le-am pus la dispoziție lui ChatRTX au fost în limba română, de data asta.

Aici am observat ceva ciudat, dar în sensul bun. Anume că deși întrebările / solicitările, dar și documentele erau în limba română, ChatRTX mi-a răspuns în engleză. Dar, foarte interesant, răspunsurile erau corecte, perfect corecte. Așadar, am dedus că ChatRTX traduce mai întâi întrebările / solicitările din română în engleză și apoi cred că face același lucru cu conținutul documentelor.

Astfel că la sfârșit vine cu un răspuns corect, doar că în engleză. Pentru mine suficient de bine, întrucât dacă am nevoie de o informație dintr-un document în română știu că mă pot baza pe ChatRTX în continuare. Doar că nu pot folosi acel răspuns de-a gata, să zicem, să-l iau cu copy/paste, dacă ar fi fost cazul de așa ceva.

Ca o concluzie după tot ce a însemnat interacțiunea cu modulul Mistral AI din ChatRTX: îl voi folosi de acum înainte fără niciun dubiu. Prin natura meseriei este nevoie să caut, să confirm din tot ce am la dispoziție anumite informații. Nici nu-mi imaginam cât de rapid voi putea face asta de acum înainte cu ChatRTX de partea mea. Sincer, totul s-a schimbat. Este de-a dreptul uimitor cum, de exemplu, dintr-un reviewers guide de zeci de pagini să primesc în 2 – 3 secunde fix informația, datele, cifrele care mă interesează, fără a sta să caut minute bune.

Să vedem cum se descurcă și modulul CLIP din ChatRTX. Trebuie făcută mai întâi trecerea pe acest modul, care lucrează strict cu imagini stocate local, deci există doar opțiunea „Chat with your data (RAG)”. La fel ca în cazul Mistral, pentru a face o solicitare, trebuie să-i pui la dispoziție lui ChatRTX un dosar, un folder, o locație de pe PC-ul tău. Aici pot fi imagini în formatele: .jpeg/.jpg – JPEG/ JPG Image File, .png – PNG Image File, .tiff – TIFF Image File și .raw – RAW Image File.

Am selectat mai multe foldere unde erau imagini și am testat. De precizat că folderul sursă pe care îl pui la dispoziție poate conține și subfoldere, modulul CLIP merge mai departe în fiecare subfolder, nu se oprește doar la locația inițială.

Aici, am observat că ChatRTX are nevoie de indicații ceva mai aprofundate spre a putea genera răspunsuri mai exacte. Dacă faci o solicitare prea generală, să-i spunem, rezultatele vor fi prea multe. Dacă însă știi exact ceea ce vrei să vezi, vei avea parte de rezultate mult mai precise. De exemplu, solicitările cu butonul Silent de pe placa video NVIDIA sau cu „trunk” de la mașini. Acolo vedem că ChatRTX a adus în față strict ce trebuia. Deci, dacă tu nu-i faci solicitarea corect, bine țintit, nici ChatRTX nu poate fi de mare ajutor.

Oricum, am observat clar că modulul CLIP nu se folosește de numele sau metadatele fișierului, imaginii. Nu, el nu ține cont de acelea, altfel ar putea fi păcălit ușor. CLIP analizează strict imaginea pe care o compară cu milioanele pe care a fost antrenat și vine cu rezultate pe cât de corecte.

Și aici am rămas plăcut impresionat și am înțeles cum mă poate ajuta funcția CLIP din ChatRTX. De exemplu, când scriu un review auto, vreau să mai privesc o anumită imagine cu interiorul, un detaliu de acolo pe care vreau să-l explic în text. Ei bine, nu mai stau să caut prin zeci de foldere cu poze ale mașinilor testate. Doar selectez acel dosar unde am toate acele sute de imagini și îl rog pe ChatRTX să-mi arate bordul de Dacia Duster, de exemplu. Iar el îmi dă toate rezultatele. Chiar dacă să zicem că sunt peste 10 – 20 de rezultate, tot îmi este mai ușor decât să caut mai întâi folderul cu poze Dacia Duster, în acela am mai multe subfoldere (imagini RAW, imagini editate, imagini resized etc), să-l găsesc deci și pe acela corect, iar acolo să parcurg alte câteva zeci de imagini cu exterior, interior, interfața sistem infotainment și altele.

Cu ChatRTX doar îi spun ce aș vrea să văd în imagine și-mi pune la dispoziție în câteva secunde tot ce a găsit. Simplu, rapid și mai confortabil dacă ai mai mereu ChatRTX deschis.

Consider că am povestit destul de detaliat care a fost interacțiunea mea cu ChatRTX și cred că am fost chiar prea explicit. Dar asta fiindcă până la urmă nu a fost doar un test, ci chiar am început să-l tot folosesc pe ChatRTX !

Și poate că le voi da câte o șansă și celorlalte aplicații care rulează local pe PC-ul meu, adică dintre cele menționate mai sus, precum Open WebUI, Stable Diffusion sau ComfyUI, aplicații care folosesc și ele la maxim toată puterea hardware a oricărei plăci video din seriile NVIDIA GeForce RTX.

În final nu pot decât să-mi imaginez cum va fi ChatRTX peste 2 – 3 ani, atunci când va trece de la o ediție demo, de la versiunea 0.4 cât este acum, la versiunea 3, 4 sau 5… Ce capabilități va mai primi? Cât de aprofundat va putea veni cu rezultate, cu răspunsuri? Pentru ce fel de fișiere va fi adăugat suport? Poate ceva de gen Excel / Sheets, printre altele? Pe zona de imagini poate va face ceva mai special, cu editări sau chiar generări de la zero? Poate vor fi adăugate și capabilități video?

Nu știu, nu am informații în aceste direcții, dar simplul fapt că ChatRTX este acum atât de capabil, la versiunea 0.4, mă pune pe gânduri… Pe voi, nu?

Acest articol este susținut de NVIDIA

Despre autor

Darius Pană

Editor pe Gadget.ro din septembrie 2014. Pasionat de tehnologie, automobile și fotografie. Scrie recenzii pentru telefoane mobile, automobile, dispozitive din zona audio, monitoare, televizoare, aparate foto și orice alt gadget. Folosește Huawei Pura 70 Ultra, Canon EOS M200 + Canon EF-M 22mm 1:2, Canon EF-S 15-85 mm 1:3.5-5.6 IS USM și Canon EF 50mm 1:1.8 STM pentru fotografii și Sony ZV-E10 pentru video.