Tack vare vår centrala roll inom lokaliseringsinfrastruktur är Smartling väl positionerat för att göra makronivåanalyser av användningsmönster och allmänna trender i webbinnehållsvärlden.

Och nyligen hittade vi något intressant i den informationen.

Vi har märkt att LLM-robotar genomsöker lokaliserade webbplatser. Förmodligen är detta för att bryta dem för innehåll för att ytterligare förbättra sina egna grundmodeller.

Det är en övergripande trend, där alla typer och storlekar av företag påverkas. Utan att gå in på lagligheten, etiken eller ägandet av innehållet slås vi omedelbart av möjligheten att skapa en internetekokammare på grund av dessa genomsökningar.

Utbildningsdatakontamination och konsekvenser

Med ökningen av företag som använder en MT-first eller MT-fallback-metod till sitt webbinnehåll, plus den senaste tidens tillgänglighet av LLMs som översättningsleverantör, kan LLM:er snart befinna sig i positionen att omedvetet "äta sin egen hundmat."

Vad är effekten på kvaliteten och effektiviteten hos LLM:er när deras utbildningsdatauppsättningar är sammanvävda med översatt innehåll som kommer från LLM:er?

LLM:er förlitar sig på det stora utbudet av fritt tillgängligt digitalt innehåll på internet, oavsett om det är i en tidningsartikel, akademisk tidskrift, blogginlägg eller skannade böcker, för att samla tillräckligt med innehåll för att öka storleken och komplexiteten hos en förutbildad modell och på så sätt tillhandahålla mänskliga generativa förmågor. Men om en betydande del av innehållet som intas skapades enbart av LLMs utan någon förstärkning som lär sig av mänsklig feedback, kommer de att börja glida när det gäller kvaliteten och noggrannheten i deras produktion? Kommer återkopplingsslingan att skapa någon form av AI'ism som så småningom sprider och modifierar strukturen och tonen i språket generellt?

Det är svårt att uppskatta effekten, men när vi står i början av denna generativa AI-revolution ser vi de potentiella fallgroparna i datainsamlingsprocessen som används av LLM-leverantörer.

Immateriella rättigheter och värdefrågor

Det är omöjligt att identifiera all inkommande trafik som tillhör bots eftersom vi är beroende av deras korrekta användning av User-Agent-rubriker som deklarerar deras ursprung och syfte. Många skrupelfria skraprobotar kommer inte bara att dölja sitt syfte; de kommer aktivt att försöka dölja sig och smälta in i den allmänna trafikströmmen som alla offentliga webbplatser ser.

En möjlig framtida metod för att filtrera denna "ekokammare"-effekt är att LLM:er arbetar med innehållsleverantörer för att utveckla någon form av vattenmärkning som identifierar innehåll som genereras av en LLM så att det kan kategoriseras på lämpligt sätt och behandlas. Denna typ av vattenmärkning kommer sannolikt att efterfrågas för att mildra effekterna av desinformation, IP-stöld och annat asocialt beteende som dåliga aktörer kan uppvisa.

Dessutom kan företag som inte har något emot eller är intresserade av att låta LLM:er genomsöka deras data en dag välja att tjäna pengar på sitt innehåll genom att sälja åtkomst till LLM-sökrobotar. Detta kan visa sig vara en lukrativ sidoaffär som betalar ett förhandlat värde för mänskligt genererat innehåll. Innehållsproducenter har redan väckt pågående stämningar mot LLMs i ett försök att återta kontrollen över deras upphovsrättsskyddade material.

Vad kan vi göra åt det?

LLM skrapning av webbplatser för innehåll är ingen hemlighet. Ändå kan många företag bli förvånade över att få veta att det händer dem, och de kan vara ovetande deltagare i aktiviteter som ger dem liten nytta samtidigt som de genererar oändligt värde för LLM.

I en värld av maskinöversättning är "att använda AI för att hjälpa AI" ingen ny idé. När kundspecifika, domän- eller long-tail språkdata är knappa är det inte ovanligt att man tar till dataförstärkningstekniker som webbsökning av liknande webbplatser, tillbakaöversättning eller datatillverkning genom att skapa lite olika käll- och målspråksvarianter.

Ändå är det viktigt att alla som förlitar sig på resultatet av modellen förstår för- och nackdelarna med sådana tillvägagångssätt. I de flesta fall kan sådana tekniker bara stegvis förbättra modellkvaliteten. I slutändan ersätter de inte det underliggande mottot för maskininlärning - behovet av välmärkta och relevanta data.

Varför vänta med att översätta smartare?

Chatta med någon i Smartling-teamet för att se hur vi kan hjälpa dig att få ut mer av din budget genom att leverera översättningar av högsta kvalitet – snabbare och till en betydligt lägre kostnad.
Cta-Card-Side-Image