Ezagutza-base pertsonala (II): RAG bidezko aukera lokalak

Bi bide lokal: kontrol osoa script-ekin edo orkestrazio bisuala n8n-rekin; bietan RAG, zure dokumentazio propioan oinarrituta.

Ezagutza-base pertsonala

Itxaropenak

Proiektu bati ekin aurretik, zer egin nahi dugun ondo adieraztea funtsezkoa da; bestela, helburua argi ez edukitzeagatik amaierarik gabeko bueltan sar gaitezke.

Nire kasuan, honako behar hauek estali nahi ditut:

  • Sareatik deskargatutako dokumentu asko pilatu ditut, .pdf, .docx, .odt, .txt eta baita .md formatuetan ere.
  • Prestatu ditudan formazioetako dokumentazio asko daukat, LaTeXen (PDFra bihurtuta edo ez).
  • Webguneetarako esteka-zerrenda bat mantentzen dut; bertan, ikastaroak atal ezberdinetan eta orrialde askotan banatuta daude (adibidez, Python ikastaro bat maila eta ikasgai askorekin). Esteka horietatik abiatuta, gune horretako orrialde esanguratsu guztiak automatikoki identifikatzea nahi dut.
  • YouTube bideoetarako estekak ere baditut, eta haien edukia transkribatu edo beste hizkuntzetatik itzuli eta transkribatu nahi dut.

Informazio sakabanatu guzti honekin, nire dokumentazio-sistema propioa sortu nahi dut: automatikoki gordea, indexatua eta etiketatua.


Eta gero, zer?

Behin ezagutza-basea eskura dudanean, kontsultatu egin nahi dut, modu hauetan esaterako:

  • XXX ikastaro bat prestatu behar dut, eta eduki-eskema bat egin diezadazula nahi dut.”
  • XXX ikastaroko YYY gaia prestatu, honako egiturekin: helburuak, azalpen teorikoa adibideekin (zailtasun progresiboa) eta ariketen zerrenda irtenbideekin.”

    Hau txantiloi modura sortuko litzateke, berrerabiltzeko.

  • XXX ikastaroko YYY gaiaren ZZZ atala prestatu, egitura berarekin (helburuak, teoria adibideekin, ariketak eta soluzioak).”
  • “LinkedIn-erako post-gaien zerrenda bat nahi dut dokumentazioan oinarrituta; zehaztu gaia, maila, etab.”
  • “Nire blogerako post bat edo LinkedIn artikulu bat prestatu XXX gaiari buruz.”

Baldintza osagarriak:

  • Dena tokian bertan (lokalean) ibiliko da, komunikaziorako interfaze batekin (chat/CLI/tokiko weba).
  • Ez da erabiliko hodeiko LLMrik: ereduak nire ekipoan instalatuta egongo dira.
  • Babes-kopia sistema egokia eduki behar du.
  • Ez dut arazorik Bash/Python script-ak programatzeko, ezta n8n Debianen instalatzeko ere.
  • Ekonomikoak eta ahal dela software librean oinarritutako aukerak behar ditut.

Zer aukerari heldu?

Sistema lokal, merkea, automatizatua eta librea eraikiko dugu; horren bidez, dokumentu eta esteka multzo bat eduki-sorkuntza adimenduneko laguntzaile bihurtuko dugu.

Goiko itxaropenak eta alternatibak kontuan hartuta, bi aukera hautatu ditut. Bietan erabiltzen da RAG (Retrieval-Augmented Generation), ezinbestekoa baita IAk nire dokumentazioan oinarrituta erantzun dezan, ez ezagutza generikoan.

1. Aukera: Artisau Digitalaren Tailerra (kontrol osoa script-ekin)

“2. Alternatiba: Artisauaren Tailerra” eta “Script pertsonalizatuan oinarritutako lan-fluxua” gauzatzen ditu. Bide ahaltsuena da, eta kontrol osoa ematen du. Script bilduma batean oinarritzen da; nik neuk sortu eta orkestratuko ditut.

Kontzeptua
Python eta/edo Bash script-ek informazioaren bizi-zikloa osorik estaltzen dute: biltzea, prozesatzea, indexatzea eta kontsultatzea. Guztia nire Debianen, pribatutasuna eta kontrola bermatuz.

Zergatik egokia niretzat

  • Iturri konplexuen tratamendua: PDF eta ofimatika fitxategientzako moduluak; LaTeX kudeaketa (PDFra konpilatu eta testua ateratzeko); web ikastarorako crawler bat; eta YouTube transkripzioa.
  • Erabat lokala eta software librean oinarritua.
  • Automatizazio pertsonalizatua cronjob bidez.
  • Kontsultan indarra: txantiloiak eta logika script-etan bertan.

Teknologia giltzarriak

  • Orkestrazioa: Python + Bash.
  • IA lokala: Ollama (LLMak eta embedding-ak).
  • Behe-datu bektoriala: ChromaDB edo FAISS.
  • Interfazea: hasieran CLI; gero Streamlit tokikoa.
  • Python liburutegiak: PyMuPDF, python-docx, BeautifulSoup/Scrapy, yt-dlp + Whisper.

2. Aukera: Orkestratzaile Bisual Hibridoa (n8n tokian + script-ak)

Script-en malgutasuna eta n8n-ren kudeaketa bisuala uztartzen ditu. “2. Alternatiba: n8n + IA bidezko automatizazioa” da, baina osorik lokala.

Kontzeptua
n8n instantzia tokiko bat erabiliko da lan-fluxuaren garuna gisa. Hodeiko zerbitzuen ordez, n8n-k nire script propioak abiaraziko ditu (Python/Bash).

Zergatik egokia litzateke

  • Fluxuaren kudeaketa bisuala: “PDF sartzen bada, egin X; YouTube bada, Y…”
  • Bi munduen onena: zeregin konplexuetarako script pertsonalizatuak; automatizazio astuna (zaintza, egutegia, trigger-ak) n8n-ren esku.
  • “API” pertsonala: webhook-ak erraz sortzen dira; tokiko web interfazea (adib. Streamlit) n8n-rekin hitz egiten du.
  • Eskalatze antolatua: iturri/urrats berriak gehitzea errazagoa da script monolitikoa ukitu gabe.

Teknologia giltzarriak

  • Orkestrazioa: n8n auto-ostatua.
  • Exekuzioa: Execute Command nodoa script-ak deitzeko.
  • IA lokala: Ollama.
  • Behe-datu bektoriala: ChromaDB edo FAISS.
  • Interfazea: Streamlit tokikoa, n8n-ko webhook-ari dei eginez.

Ondorioa eta gomendioa

Ezaugarria1. Aukera: Artisau Tailerra (script-ak)2. Aukera: Orkestratzaile Bisuala (n8n + script-ak)
KontrolaMaximoa. Lerro bakoitza zeurea da.Oso handia. Kontrola n8n-ek deitzen dituen script-etan.
Ikasketa-kurbaHandia. Programazio eta arkitektura behar dira.Tartekoa. n8n-ek orkestrazioa errazten du.
Fluxuaren kudeaketaKodean oinarritua; konplexua bihur liteke.Bisuala eta intuitiboa; mantentzeko errazagoa.
MalgutasunaOsoa; zure gaitasunak jartzen du muga.Osoa; 1. aukeraren berdina, baina geruza bisualarekin.
Baldintzak (lokala/librea/€)Betetzen ditu.Betetzen ditu.
  • 1. aukera hautatu kode hutseko ingurunean eroso bazaude, sistema monolitiko eta optimizatua eraiki nahi baduzu.
  • 2. aukera hautatu “zer egin” (script-ak) eta “noiz/nola egin” (n8n-ko fluxua) bereizi nahi badituzu. Modernoagoa eta epe luzera mantengarriagoa da, batez ere fluxua handitzen denean.