Transcriere: Cum se face o clasificare exactă a produselor în baze de date mari folosind AI
Cum faceți clasificarea în baze de date mari cu AI?
Există câteva provocări aici. Când încercați să clasificați datele folosind AI, procesul devine autonom, consecvent și scalabil. Dar odată ce ai de-a face cu mii - sau chiar sute de mii - de înregistrări, lucrurile pot deveni nesigure.
Aceeași logică AI aplicată unui set mic de date ar putea funcționa perfect, dar aplicată uneia masive, rezultatele pot varia. Poate deveni nesigur, consumator de timp și costisitorÎn special în cazul seturilor de date foarte mari. De fapt, modelele AI pot obține foarte scump la scară.
Am avut un caz de utilizare de la unul dintre clienții noștri: trebuiau să atribuie corect Coduri HS pentru o listă uriașă de produse. Au importat sute de mii de articole, iar o parte a procesului a implicat generarea de descrieri ale produselor, imagini și atribuirea codului HS corect.
Pentru cei necunoscuți, Coduri HS sunt utilizate pentru a clasifica produsele importate pentru raportarea vamală și fiscală. Când importați un produs în UE, trebuie să îl atribuiți categoriei potrivite dintr-o listă de aproximativ 50.000 de coduri HS, organizate în capitole și subtitluri.
Așadar, a cere AI să aleagă codul potrivit din 50.000 de intrări este posibil din punct de vedere tehnic - dar a face acest lucru dintr-o dată cu o fereastră de context mare este costisitor și nu foarte eficient.
Pentru a rezolva acest lucru, am construit un proces de căutare progresivă înăuntrul Cree.com.
În primul rând, am încercat căutarea vectorială: am încărcat codurile HS într-un baza de date vectoriale și a cerut AI să potrivească descrierile produselor cu codurile. Această abordare este cunoscută în general ca RAG (Generație augmentată de recuperare).
Cu toate acestea, chiar și cu căutarea vectorială, rezultatele nu au fost suficient de consistente. Setul de date era pur și simplu prea mare. Așa că ne-am mutat la un proces pas cu pas:
- În primul rând, am cerut AI să genereze un Termen de căutare pe baza produsului.
- Apoi am efectuat această căutare progresiv prin baza de date vectorială.
- Fiecare pas ar returna un set rafinat de rezultate.
- Am repetat acest lucru de 3-4 ori.
Cu doar patru iterații, am ajuns Precizie de aproximativ 95%.
Dar am vrut și mai bine.
Deci, am extins logica:
- După fiecare căutare vectorială, în loc să alegem un singur rezultat, am cerut AI să revină trei categorii de potrivire de top.
- AI a argumentat prin aceste opțiuni și le-a restrâns folosind logica internă.
- Am aplicat filtrează progresiv prin fiecare rundă de căutare pentru a rafina precizia.
Drept urmare, am ajuns Precizie 99% + în clasificarea produselor la codurile HS corecte.
Sfat profesionist:
Când utilizați o bază de date vectorială, alegeți întotdeauna unul care acceptă filtrarea metadatelor. Acest lucru vă permite să limitați înregistrările în funcție de condiții precum regiunea, tipul de produs sau nivelul de acces al utilizatorului. În cazul nostru, am folosit Pinecone, dar ai putea folosi și PGVector cu Supabase sau un alt vector DB la alegere.
Bonus Insight: Cartografierea modulelor AI
Una dintre caracteristicile mai noi din acest flux se numește cartografierea modulelor.
Să presupunem că trimiteți informații către un model AI - de exemplu, am avut un model care a căutat pe internet date legate de produs. Cu maparea modulelor, puteți trece automat ieșirea acelui modul în pasul următor, fără nicio configurație suplimentară.
În configurația noastră, modulul 22 scoate un rezultat, iar rezultatul este mapat automat în următorul modul, menținând întreaga automatizare curată și simplificată.