Asosiy takliflar
- Tadqiqotchilar AIni tomosha qilish va tinglash orqali videolarni belgilashni oʻrgatishlari mumkinligini aytishdi.
- Inteliy intellekt tizimi vizual va audio maʼlumotlar oʻrtasida umumiy tushunchalarni olish uchun maʼlumotlarni taqdim qilishni oʻrganadi.
-
Bu sun'iy intellektni odamlar o'rganishda qiynalmaydigan, lekin kompyuterlar tushunish qiyin bo'lgan tushunchalarni tushunishga o'rgatish harakatlarining bir qismidir.
Yangi sun'iy intellekt tizimi (AI) videolaringizni tomosha qilishi va tinglashi va sodir bo'layotgan narsalarni belgilashi mumkin.
MIT tadqiqotchilari sun'iy intellektga video va audio o'rtasida bo'ladigan harakatlarni yozib olishni o'rgatuvchi texnikani ishlab chiqdilar. Misol uchun, ularning usuli videoda yig'layotgan chaqaloqning harakati ovozli klipdagi "yig'lash" so'zi bilan bog'liqligini tushunishi mumkin. Bu sunʼiy intellektga odamlar oʻrganishda qiynalmaydigan, lekin kompyuterlar tushunish qiyin boʻlgan tushunchalarni qanday tushunishni oʻrgatish harakatlarining bir qismidir.
"Umumiy ta'lim paradigmasi, nazorat ostida o'rganish, yaxshi tasvirlangan va to'liq ma'lumotlar to'plamiga ega bo'lganingizda yaxshi ishlaydi", dedi AI mutaxassisi Fil Uinder Lifewire'ga elektron pochta orqali bergan intervyusida. “Afsuski, maʼlumotlar toʻplami kamdan-kam hollarda toʻliq boʻladi, chunki haqiqiy dunyoda yangi vaziyatlarni koʻrsatish yomon odati bor.”
Aqlliroq AI
Kompyuterlar kundalik stsenariylarni aniqlashda qiynaladi, chunki ular odamlar kabi tovush va tasvirlarni emas, balki ma'lumotlarni sindirishi kerak. Mashina fotosuratni "ko'rganda", u rasmni tasniflash kabi vazifani bajarish uchun foydalanishi mumkin bo'lgan ma'lumotlarga kodlashi kerak. Kirishlar videolar, audio kliplar va tasvirlar kabi bir nechta formatda kelganda sun'iy intellekt to'xtab qolishi mumkin.
"Bu erda asosiy qiyinchilik shundaki, mashina qanday qilib bu turli xil usullarni moslashtira oladi? Odamlar sifatida, bu biz uchun oson ", dedi Aleksandr Liu, MIT tadqiqotchisi va mavzuga oid maqolaning birinchi muallifi. yangiliklar relizi. "Biz mashinani ko'ramiz, keyin ketayotgan mashinaning ovozini eshitamiz va bular bir xil ekanligini bilamiz. Lekin mashinani o'rganish uchun bu unchalik oddiy emas."
Liu jamoasi sun'iy intellekt texnikasini ishlab chiqdi, ularning ta'kidlashicha, vizual va audio ma'lumotlar o'rtasida taqsimlangan tushunchalarni olish uchun ma'lumotlarni taqdim etishni o'rganadi. Ushbu bilimdan foydalanib, ularning mashinani oʻrganish modeli videoda muayyan harakat qayerda sodir boʻlayotganini aniqlashi va uni belgilashi mumkin.
Yangi model videolar va ularga tegishli matn taglari kabi xom maʼlumotlarni oladi va videodagi obyektlar va harakatlarga oid funksiyalar yoki kuzatishlarni olish orqali ularni kodlaydi. Keyin u maʼlumotlar nuqtalarini oʻrnatish maydoni deb nomlanuvchi tarmoqqa joylashtiradi. Model o'xshash ma'lumotlarni to'rdagi bitta nuqta sifatida birlashtiradi; bu ma'lumotlar nuqtalari yoki vektorlarining har biri alohida so'z bilan ifodalanadi.
Masalan, jonglyorlik qilayotgan odamning videoklipi "junglyorlik" deb nomlangan vektorga koʻrsatilishi mumkin.
Tadqiqotchilar modelni vektorlarni belgilash uchun atigi 1000 ta soʻzdan foydalanishi uchun ishlab chiqdilar. Model qaysi harakatlar yoki tushunchalarni bitta vektorga kodlashni xohlashini hal qilishi mumkin, lekin u faqat 1000 vektordan foydalanishi mumkin. Model maʼlumotlar uchun eng mos soʻzlarni tanlaydi.
"Agar cho'chqalar haqida video bo'lsa, model "cho'chqa" so'zini 1000 vektordan biriga belgilashi mumkin. Keyin, agar model audio klipda kimdir "cho'chqa" so'zini aytayotganini eshitsa, Buni kodlash uchun u baribir o‘sha vektordan foydalanishi kerak”, deb tushuntirdi Liu.
Videolaringiz, dekodlangan
MIT tomonidan ishlab chiqilgan kabi yaxshiroq yorliqlash tizimlari sun'iy intellektdagi tarafkashlikni kamaytirishga yordam beradi, dedi Innovatrics biometrik firmasining tadqiqot va ishlanmalar bo'limi rahbari Marian Beszedes Lifewire elektron pochtasiga bergan intervyusida. Beszedes ma'lumotlar sanoati AI tizimlarini ishlab chiqarish jarayoni nuqtai nazaridan ko'rishni taklif qildi.
"Tizimlar xom-ashyo ma'lumotlarini kirish (xom ashyo) sifatida qabul qiladi, ularni oldindan qayta ishlaydi, yutadi, qarorlar yoki prognozlar qabul qiladi va analitik (tayyor mahsulot) chiqaradi", dedi Beszedes. "Biz bu jarayon oqimini "ma'lumotlar fabrikasi" deb ataymiz va boshqa ishlab chiqarish jarayonlari singari, u ham sifat nazorati ostida bo'lishi kerak. Ma'lumotlar sanoati AI tarafkashligini sifat muammosi sifatida ko'rib chiqishi kerak.
"Iste'molchi nuqtai nazaridan noto'g'ri yorliqlangan ma'lumotlar, masalan, ma'lum rasm/videolarni onlayn qidirishni qiyinlashtiradi", - deya qo'shimcha qildi Beszedes. “To‘g‘ri ishlab chiqilgan sun’iy intellekt yordamida siz qo‘lda yorliqlashdan ko‘ra avtomatik, tezroq va neytralroq yorliqlashni amalga oshirishingiz mumkin.”
Lekin MIT modeli hali ham ba'zi cheklovlarga ega. Birinchisi, ularning tadqiqotlari bir vaqtning o'zida ikkita manbadan olingan ma'lumotlarga qaratilgan, ammo haqiqiy dunyoda odamlar bir vaqtning o'zida ko'p turdagi ma'lumotlarga duch kelishadi, dedi Liu
"Va biz bilamizki, 1000 ta soʻz bu turdagi maʼlumotlar toʻplamida ishlaydi, lekin uni haqiqiy muammoga umumlashtirish mumkinligini bilmaymiz", - deya qoʻshimcha qildi Liu.
MIT tadqiqotchilarining ta'kidlashicha, ularning yangi texnikasi shunga o'xshash ko'plab modellardan ustundir. Agar sunʼiy intellektni videolarni tushunishga oʻrgatish mumkin boʻlsa, siz oxir-oqibat doʻstingizning taʼtilga oid videolarini koʻrmasdan qolishingiz va kompyuterda yaratilgan hisobotni olishingiz mumkin.