Wat is een embedding vector?

Een embedding vector is een vaste lijst met getallen met drijvende komma die een stuk gegevens vertegenwoordigt — een woord, zin, afbeelding of andere invoer — in een multidimensionale wiskundige ruimte. Machine learning-modellen zoals BERT, OpenAI's text-embedding-modellen en afbeeldingscoders produceren deze vectoren zodat semantisch vergelijkbare items geometrisch dicht bij elkaar eindigen. Een enkele embedding kan ergens tussen enkele tientallen dimensies en enkele duizenden dimensies hebben.

Het begrijpen van de numerieke eigenschappen van een embedding is nuttig bij het debuggen van modellen, het vergelijken van vectorrepresentaties, het detecteren van anomalieën of het optimaliseren van opslag en ophalen in een vectordatabase.

Gereedschapbeschrijving

Dit gereedschap accepteert een JSON-array van getallen die een embedding vector vertegenwoordigen en berekent onmiddellijk een set beschrijvende statistieken: het aantal dimensies, minimum- en maximumwaarden, rekenkundig gemiddelde, standaarddeviatie, L2-norm (magnitude) en sparsity. Het geeft ook de top 10 meest invloedrijke dimensies weer, gerangschikt op absolute activeringswaarde.

Functies

  • Onmiddellijke statistieken — dimensies, min, max, gemiddelde, standaarddeviatie, L2-norm en sparsity berekend in de browser zonder gegevens naar een server te verzenden.
  • Top 10 activeringstabel — toont de tien dimensies met de grootste absolute waarden, gesorteerd op impact, met hun index, onbewerkte waarde en absolute waarde.
  • JSON-editor met syntaxmarkering — plak of typ een geldige JSON-array rechtstreeks in de editor en krijg resultaten in real-time.