Hiina AI-arendaja DeepSeek süüdistatakse Google Gemini andmete kasutamises

Hiina ettevõte DeepSeek on sattunud kahtluse alla Google Gemini andmete ebaseadusliku kasutamise tõttu oma tehisintellekti mudeli R1 treenimiseks. Uurijad avastavad kahtlased sarnasused leksika ja mõtlemisloogika vahel mudelite vahel.

G. Ostrov

5. juuni 2025

Tehisintellekti tehnoloogiatööstus seisab silmitsi järjekordse skandaaliga, mis on seotud kahtlustega konkurentide andmete ebaseadusliku kasutamise kohta. Tähelepanu keskpunktis on Hiina ettevõte DeepSeek, kes võib kasutada Google Gemini andmeid oma AI mudelite treenimiseks.

Uuendatud mudel ja kahtlused

Mais 2025 esitles DeepSeek oma tehisintellekti mudeli R1 uuendatud versiooni, mis näitas muljetavaldavaid tulemusi matemaatilistes arvutustes ja programmeerimisülesannetes. Siiski ei avalikustanud ettevõte mudeli treenimiseks kasutatud andmeallikaid, mis tekitas ekspertkogukonnas kahtlusi.

Esimesed tõsised süüdistused esitas Melbourne\'i arendaja Sam Pech, kes spetsialiseerub AI-süsteemide emotsionaalse intelligentsuse hindamisele. Oma sotsiaalvõrgustiku X postituses esitas ta andmeid, mis tema väitel tõestaavad vääramatult DeepSeek R1-0528 mudeli treenimist Google Gemini väljunditel.

Sarnasuse tõendid

Analüüs näitas hämmastav sarnasus kasutatava leksika ja kõnekäändude vahel DeepSeek mudeli ja Google Gemini 2.5 Pro vahel. Lisaks avastas teine uurija, anonüümse SpeechMap projekti looja AI-süsteemide sõnavabaduse hindamiseks, sarnasuse \"mõtlemisprotsessides\" - DeepSeek mudeli vahepealses väljundis Gemini jälgimistega.

Need avastused viitavad teadmiste destilleerimise tehnika võimalikule kasutamisele - AI õpetamise meetodile tugevamate olemasolevate mudelite andmete põhjal, mis võib rikkuda litsentsitingimusi ja kasutustingimusi.

Rikkumiste ajalugu

See ei ole esimene süüdistus DeepSeek\'i vastu konkurentide andmete ebaseadusliku kasutamise osas. Detsembris 2024 märkasid arendajad, et DeepSeek V3 mudel identifitseeris end süstemaatiliselt kui ChatGPT, mis viitas selgelt OpenAI vestluste logidel treenimisele.

Varem 2025. aastal teatas OpenAI ametlikult väljaandele Financial Times, et neil on vääramatud tõendid DeepSeek\'i poolt nende mudelite andmete destilleerimise meetodi kasutamise kohta. Bloombergi informatsiooni kohaselt avastas Microsoft, kes teeb tihedat koostööd OpenAI-ga, 2024. aasta lõpus märkimisväärsete andmemahtude lekke OpenAI arendajate kontode kaudu, mis on oletatavalt seotud DeepSeek\'i tegevusega.

Juriidilised ja eetilised aspektid

Kuigi destilleerimine on AI tööstuses levinud praktika, keelavad OpenAI teenindamistingimused kategooriliselt nende mudelite väljundite kasutamise konkureerivate toodete loomiseks. Sarnased piirangud kehtivad ka teistes suurtes ettevõtetes.

Olukorda keerulstab asjaolu, et paljud mudelid võivad end ekslikult identifitseerida ja kasutada sarnaseid fraase avatud interneti \"saastumise\" tõttu, mis teenib AI treenimise peamise andmeallikana. Massiproduktsiooni AI abil ja robotite aktiivsus sotsiaalvõrgustikes raskendab oluliselt andmete filtreerimist.

Ekspertide arvamused

Eksperdid, sealhulgas Nathan Lambert uurimisinstituudist AI2, peavad DeepSeek\'i treenimist Gemini andmetel täiesti tõenäoliseks stsenaariumiks. Lambert oletab, et Gemini API kasutamine võis DeepSeek\'ile osutuda tõhusamaks lahenduseks kui omaenda tehnoloogiate arendamine nullist.

Tööstuse vastumeetmed

Vastuseks kasvavale volitamata destilleerimise probleemile tugevdavad tehnoloogiahiiglased turvameetmeid. Aprillis 2025 kehtestas OpenAI kohustusliku isikusamasuse kontrollimise juurdepääsuks mõnedele arenenud mudelitele, kusjuures Hiina on välistatud toetatud riikide nimekirjast.

Ka Google võttis aktiivseid meetmeid, alustades AI Studio platvormi kaudu kättesaadavate mudeliste jälgimiste \"kokkuvõtmist\", mis raskendab oluliselt konkureerivate mudelite treenimist Gemini andmetel. Ettevõte Anthropic teatas sarnaste kaitsemeetmete rakendamisest mais.

See olukord rõhutab kasvavat pinget AI valdkonnas innovatsiooni ja intellektuaalomandi kaitse vahel, samuti vajadust selge õigusliku regulatsiooni järele kiiresti arenevas sektoris.

Üksikasjalikumat informatsiooni AI tehnoloogiate arengu kohta leiate DeepSeek ametlikult veebilehelt.

Probleemide korral kirjutage meile, aitame kiiresti ja kvaliteetselt!