2025-08-29
2025-08-29
Apie tai kodėl retkarčiais reikėtų perkurti WEB puslapių struktūrą arba sukeisti komponentus vietomis ir kaip apskritai apsaugoti savo kuriamą turinį
Ech… Kaip nesinori, kad kažkas replikuotų bei paslapčiomis agreguotų mano tinklaraščio puslapių turinį…
Turbūt ir pats apie tai kartkartėmis pagalvoji. O jei ne, tai manau, kad turėtum, skaitytojau, nes turinio gremžimas, perkopijavimas, vertimas, perpublikavimas ir svetainių klonavimas automatizuotais įrankiais nėra naujiena.
Taip, blogeri iš kito blogerių rajono, šitas įrašas skirtas tau. Ir gali iš anksto nedėkoti, kadangi šis įrašas skelbiamas vardan informacinės (tiek tavo, tiek ir kitų) gerovės.
Turinio gremžikliai arba Web-scrapers jau ir anksčiau buvo problematiška bei opi tema, bet dabar tai jau ištisa Star Wars saga vietoje galaktikos kažkur toli toli vykstanti kažkur interneto platybėse… Vogtas turinys, nusavinti straipsnių klodai, prarastos paieškos pozicijos ir netektas lankytojų srautas… Gali kainuoti. Vieniems daugiau, kitiems mažiau, o mažiems, pavieniams tinklaraštukams - apskritai nukosėti visas talpinimui skirtas pajamas.
Congrats… You will acquire some basic SEO bending knowledge. For free.
Tad kaip apsaugoti savo turinį? Džiugu, jog ieškojai tave patį dominančios informacijos ir galų gale buvai nukreiptas čia, kur…
Aš tau atsakysiu.
Matai, nors ir nesu optimizacijos guru, bet su svetainių talpinimu, administravimu, jų našumo gerinimu bei atitinkamu įrankių naudojimu dirbu jau nepirmi metai (priminsiu, artefaktas.eu projektas funkcionuoja nuo 2019-ųjų).
Taigi, kalbant apie puslapių apsaugą…
robots.txt
Aaaa, tie gerieji senieji robots.txt laikai, kai viskam išspręsti užteko vos vieno failo. Ar žinojai, jog šiame faile gali aprašyti prieigos bei blokavimo taisykles atitinkamiems botams (leisti/neleisti)?
Šis būdas vis dar naudojamas, bet ne visi internete esantys gremžimo botai paiso jame nurodytų direktyvų.
Sign in options (View blocking)
Vienas blokas - mažiau nuskreipinto turinio. Bent jau taip turėtų būti. Nors perteklinis duomenų rinkimas nerekomenduotinas, tačiau Google Sign in mygtukas atitinkamo dydžio dialog elemente gali padėti atsikratyti tam tikrų botų grįstų naršyklių veikimu (puppeteer).
User-Agent (vartotojų antraščių) blocking mechanizmai
Papildomos Firewall taisyklės? Žinoma, kodėl gi ne. Cloudflare (vienas populiaresnių bei pigesnių internetinių paslaugų teikėjų) visada suteikė galimybę blokuoti ištisus botų vandenynus pridedant user-agent aprašus.
AI blokavimo įrankiai
Vėlgi Cloudflare. (Bot blocking + AI labirintas)
Skaityti čia https://developers.cloudflare.com/bots/get-started/bot-fight-mode/ ir čia https://blog.cloudflare.com/ai-labyrinth/
IP adresacijos blockingas
Įtartinesnių botų blokavimui galima naudoti pavienių IP adresų arba jų rėžių blokavimą. (Blokuojant pagal IP derėtų atsižvelgti į tai ar šie nenaudojami tarp populiarių internetinių paslaugų tiekėjų tam, jog neprarastum srauto bei neužblokuotum gerųjų ranking botų)
Dizaino pakeitimai
Prie ko čia tas dizainas… Meh… Taip, taip… Po teisybei, kai kurie WEB gremžikliai perkopijuoja turinį remdamiesi HTML kodu (elementų identifikacijos bei klasių pavadinimais). Tad kartais visai pravartu pakeisti šių pavadinimus (lengva su React, sunkiau jei naudoji seną gerą HTML {čia gali padėti išplėstinė tekstinė paieška bei naujoviškas kodo redaktorius ar jų kombinacija kartu su moderniu AI, jei esi tinginys}).
Licencijos
Licencija turiniui? Na, autorinės teisės yra autorinės teisės.
Kiekvienas turinio kūrėjas tikrai gali atitinkamai pažymėti savo WEB puslapius. Pavyzdžiui, kad ir Creative Commons licencija (CC BY-NC-ND 4.0), kuri yra gana permisyvi, bet apriboja teises turinio pernaudojimui, adaptacijoms bei perkūrimui (autorių bei turinio kilmės šaltinius paminėti tampa būtina).
https://creativecommons.org/chooser/

| # | Žymos |
|---|---|
| #post #artefaktas_eu #personal #opinion #turinys #teise #cloudflare #galima #reklama |
Asmeninė nuomonė.
Linktree link: https://linktr.ee/artefaktas
Tinklaraštį galima prenumeruoti net keletu skirtingų būdų:
- Naudojant RSS sklaidos kanalo nuorodą: https://artefaktas.eu/rss.xml
- Naudojantis follow.it forma
Artefaktas.eu is licensed under CC BY-NC-ND 4.0