2025-05-31






2025-05-31

Taip, vis dar yra žmonių naudojančių sqlite

Sveikas, skaitytojau. Šiądien vėl apleidau kūrybinį rašymą. Na, bent jau taip gali atrodyti iš pirmo žvilgsnio, kadangi vėl grįžau prie minėtojo Open Source projekto, kurio paskirtis - konvertuoti .md failus juos išverčiant į anglų kalbą, sukuriant vientisą JSON formato failą lengvesniam apdirbimui, nes planavau sukurti RAG sistemą (arba galimybę dirbtinio intelekto pagalba bendrauti su savo užrašais).

Palauk, o Chat-GPT to negali?

Į ką galėčiau atsakyti… Wow, wow, wow. Prilaikyk arklius. Ne viskas taip paprasta. Taip, tu gali savo užrašus apjungti į vieną pdf failą. Taip, tu gali tą failą įkrauti į GPT… Bet!

Kad ir kaip keista bebūtų… Yra ne visai taip, kaip norėtųsi, nes pasak Chat-GPT:

Chat-GPT yra tarytum auksinė žuvelė turinti užrašų knygelę. Ir niekas negarantuoja, jog ši įsimins informaciją, nebent jos to paprašysi. (Trumpiau tariant)

Kartais GPT paklausus vieno ar kito fakto, galime sulaukti panašaus atsako į…

img

Ir nieko čia nepadarysi, kadangi GPT daugiau veikia, kaip teksto generatorius, o ne skaitmeninis bičiulis ar asistentas (bent jau šiais metais).

Tad visai suprantama, kad…

Pasirinkau vietinę/lokalią llama šeimos modelio versiją (Llama 3.2) ir nusprendžiau prijungti dar šį bei tą pagardinimui. O tas kažkas yra… SQlite duomenų bazė.

SQ freaking lite?

Juk visi jau vektorines naudoja… Galbūt ir taip, tačiau mano nuomone, man tokios visiškai nereikia, nes mano projektas mažas, aš jo neketinu plėsti, o man tiesiog būtina, jog šis veiktų lokaliai ir atsižvelgiant į tai, jog ne visada galiu turėti reguliarų interneto ryšį (ko pasekoje online servisai net neveiktų arba veiktų su trukdžiais), tiesiog būtina turėti ir paprastesnių sprendimų.

O be to… Kam reikalinga ta vektorinė bazė, kai tekstinius duomenis pilnai pakanka sukrauti į mažą duomenų bazę ir su ja bendrauti naudojant “LIKE” užklausas (nes norima faktinės, o ne prigeneruotos informacijos remiantis tekstais) parenkant tinkamiausią atsaką pagal fuzz ratio/similarity score treshold* (panašiausią tekstą)?

*The Levenshtein distance, also known as edit distance, measures the difference between two strings by calculating the minimum number of single-character edits (insertions, deletions, or substitutions) needed to transform one string into another.

img

Jei trumpiau, tai šiandien tiesiog parašiau modulį gebantį talpinti išverstus tekstus į sqlite duomenų bazę.

#Žymos
#post #artefaktas_eu #sqlite #data #store #module

Linktree link: https://linktr.ee/artefaktas

Tinklaraštį galima prenumeruoti net keletu skirtingų būdų:

- Naudojant RSS sklaidos kanalo nuorodą: https://artefaktas.eu/rss.xml

- Naudojantis follow.it forma

Pirkimas - teisė pernaudoti straipsnio turinį savoms reikmėms

Kaina: 3 EUR

Loading More Trees widget…

🔞 Age Verification

Please enter your birth year to continue: