Case study · Fintech

Asistent inteligjent për një bankë

Sistem RAG që përgjigjet 24/7 me saktësinë e dokumenteve zyrtare. Pa halucinacione, në shqip dhe anglisht.

(Viti)2026
(Kohëzgjatja)6 javë
(Roli)Strategji, arkitekturë, zhvillim
(Statusi)Në prodhim · NDA
Asistent
Si e hap një llogari rrjedhëse?
Për të hapur një llogari rrjedhëse ju nevojitet:
• Letërnjoftim ose pasaportë
• Vërtetim banimi
• Depozitë fillestare prej 500 lekësh
Sa kushton?
Pyet diçka...

Klientët bëjnë qindra pyetje të njëjta në ditë: "Si e hap një llogari?", "Cilat janë komisionet?", "Si funksionon kredia konsumatore?". Ekipi i mbështetjes harxhon orë të tëra duke përsëritur përgjigje që ekzistojnë tashmë në dokumentet e bankës. Klientët, nga ana tjetër, presin orë ose ditë për një përgjigje të thjeshtë.

  • Volumi i pyetjeve përsëritëse mbingarkonte ekipin e mbështetjes.
  • Dokumentacioni i shpërndarë në PDF, faqe interneti dhe sisteme të brendshme.
  • Asnjë kanal për përgjigje të menjëhershme jashtë orarit zyrtar.
  • Çdo gabim i AI mund të krijonte rrezik reputacional dhe ligjor.

Ndërtuam një asistent të bazuar në RAG (Retrieval-Augmented Generation) që kërkon në bazën e njohurive të bankës para se të përgjigjet. Modeli nuk shpik asgjë: çdo përgjigje vjen nga një burim i konfirmuar, me referencë të dokumentit origjinal.

Bazë e centralizuar njohurish

Çdo dokument zyrtar (PDF, faqe web, FAQ) coptohet në segmente semantike, embedohet me OpenAI dhe ruhet në MongoDB Atlas Vector Search.

Retrieval me filtrim semantik

Pyetja e klientit kërkohet në vector store. Vetëm 5 segmentet më të ngjashme i kalojnë modelit gjuhësor si kontekst.

Përgjigje me kufij të qartë

Modeli udhëzohet me prompt engineering të rreptë: nëse përgjigja nuk gjendet në kontekst, kthen "Nuk e di, ju lutem kontaktoni ekipin tonë". Pa halucinacione.

Widget i embedueshëm

Një file JavaScript prej 30 kB që ngarkohet në çdo faqe të bankës si <script>. Pa varësi, pa frame, pa konflikt me CMS-në ekzistuese.

Si rrjedhin të dhënat nga pyetje në përgjigje

01KlientiPyetje në widget
02EmbeddingOpenAI text-embedding-3
03Vector SearchMongoDB Atlas, top-5
04LLMGPT-4 + kontekst i kufizuar
05KlientiPërgjigje + burimi

Përgjigje në < 2 sekonda

Streaming i token-ve nga OpenAI direkt në UI, me një rate-limit prej 20 mesazhe/minutë për session.

Histori bisedash e ruajtur

Çdo session ruhet me ID anonim. Klienti mund të vazhdojë bisedën pas ditësh, ekipi i mbështetjes mund ta shohë kontekstin.

Panel administrimi

Ngarkim dokumentesh, monitorim i bisedave, statistika ditore. Nuk ka kosto për përditësimin e bazës së njohurive.

Crawler i automatizuar

Skanon faqen e bankës çdo javë, indekson vetëm përmbajtjen e re ose të ndryshuar.

Dy gjuhë në një sistem

Detektim automatik i gjuhës së pyetjes. Përgjigjet vijnë në të njëjtën gjuhë me të njëjtin kontekst të bazës.

Self-hosted, kosto fikse

Hosting në Hetzner. MongoDB Atlas ka tier falas për volumin aktual. Asnjë furnitor proprietar përveç OpenAI API.

Backend

Node.jsExpressLangChain

AI / Embeddings

OpenAI GPT-4OpenAI text-embedding-3

Të dhëna

MongoDB Atlas Vector SearchPDF parsingWeb crawler

Siguria

JWT adminAPI key per originRate limitingCORS allowlist

Frontend

Vanilla JS widgetZero-dependency30 kB gzipped

Infrastrukturë

Hetzner self-hostedDockerNginx reverse proxy

24/7

Disponibilitet pa staf njerëzor

<2s

Koha mesatare e përgjigjes

6 javë

Nga koncepti në prodhim

0

Halucinacione të raportuara në QA

Faza tjetër: integrim me CRM-in e brendshëm për pyetje që kërkojnë të dhënat e llogarisë, autentikim 2FA përmes app-it të bankës, dhe analitikë e thelluar mbi temat më të kërkuara nga klientët.

(Tjetër?)

Le të ndërtojmë diçka të mirëfilltë bashkë.

Hapur për 1 deri 2 projekte të reja për Q3 2026. Brenda 24 orëve kthehemi me një vlerësim të shkurtër ose një bisedë 30-minutëshe.