گوگل جستجوی هوشمند خود را با قابلیت تحلیل تصاویر متحول کرد

گوگل در بهروزرسانی اخیر سرویس جستجوی هوشمند خود با نام AI Mode، قابلیت تحلیل تصاویر و پاسخگویی به سوالات مرتبط با آنها را افزوده است. این ویژگی که از ترکیب هوش مصنوعی Gemini و فناوری Google Lens بهره میبرد، کاربران را قادر میسازد با آپلود تصاویر یا عکسبرداری لحظهای، اطلاعات دقیقی درباره اجسام، صحنهها یا متون موجود در تصاویر دریافت کنند. این نوآوری نه تنها دقت جستجو را افزایش میدهد، بلکه تعامل کاربر با نتایج را به سطحی جدید ارتقا میدهد. بر اساس گزارشها، این قابلیت ابتدا برای مشترکان Google One AI Premium ارائه شد، اما اکنون به میلیونها کاربر آزمایشی در ایالات متحده گسترش یافته است.

معماری فنی: ترکیب Gemini و Lens برای درک چندوجهی

سیستم جدید از دو جزء اصلی تشکیل شده است: مدل چندوجهی Gemini برای پردازش زبان و تصویر، و Google Lens برای شناسایی دقیق اجسام. هنگامی که کاربر تصویری آپلود میکند، Gemini با تحلیل کل صحنه، روابط بین اجسام، رنگها، بافتها و چیدمان فضایی را درک میکند. همزمان، Lens هر شیء موجود در تصویر را با دقت ۹۸ درصدی شناسایی و طبقهبندی میکند. سپس با استفاده از تکنیک Query Fan-Out، سیستم بهطور خودکار چندین جستجوی موازی درباره اجزای تصویر انجام میدهد. برای مثال، در تصویری از یک قفسه کتاب، این فناوری نه تنها عنوان کتابها را تشخیص میدهد، بلکه نویسندگان، ژانرها و حتی کتابهای مشابه با امتیاز بالا را پیشنهاد میکند.

این پردازش چندلایه امکان پاسخگویی به سوالات پیچیدهای مانند «کدام یک از این کتابها برای مطالعه گروهی مناسبتر است؟» یا «چگونه میتوانم دکوراسیون مشابهی ایجاد کنم؟» را فراهم میآورد. بر اساس دادههای گوگل، سوالات مطرحشده در AI Mode بهطور متوسط دو برابر سوالات جستجوی سنتی طولانیتر و پیچیدهتر هستند.

کاربردهای عملی: از شناسایی محصولات تا برنامهریزی سفر

این فناوری کاربردهای گستردهای در زندگی روزمره کاربران دارد:

خرید هوشمند: کاربران میتوانند عکسی از یک وسیله خانگی بگیرند و درباره قیمت، مشخصات فنی یا مدلهای مشابه سوال کنند.
گردشگری: عکسبرداری از یک مکان تاریخی، اطلاعاتی درباره معماری، رویدادهای مرتبط و ساعت بازدید ارائه میدهد.
آموزش: دانشآموزان میتوانند تصویری از یک معادله ریاضی آپلود کرده و مراحل حل آن را بپرسند.
سلامت: تشخیص گیاهان دارویی یا مواد غذایی ناشناخته با عکسبرداری سریع امکانپذیر میشود.

آزمایشهای میدانی نشان داده است کاربران در ۸۷ درصد موارد، پاسخهای دریافتی را دقیقتر از نتایج جستجوی سنتی ارزیابی کردهاند. همچنین، ۶۸ درصد کاربران از امکان پرسشهای پیگیری (Follow-up) بر اساس تصویر اولیه استقبال کردهاند.

رقابت با ChatGPT و Perplexity: مزیتهای گوگل

گوگل با این بهروزرسانی بهطور مستقیم با سرویسهای مبتنی بر هوش مصنوعی مانند ChatGPT Search و Perplexity رقابت میکند. برخلاب رقبا که عمدتاً بر پردازش متن متمرکزند، AI Mode با ادغام عمیق پردازش تصویر و متن، مزیت منحصربهفردی دارد. برای نمونه، در حالی که ChatGPT برای تحلیل تصاویر نیاز به توصیف متنی دارد، AI Mode مستقیماً با تصویر تعامل برقرار میکند. این سیستم همچنین به دلیل دسترسی به پایگاه داده عظیم گوگل و الگوریتمهای رتبهبندی پیشرفته، میتواند پیشنهادهای عملیتری ارائه دهد.

چالشها و محدودیتهای فعلی

با وجود پیشرفتهای چشمگیر، این فناوری هنوز با چالشهایی روبهروست:

حریم خصوصی: پردازش تصاویر شخصی ممکن است نگرانیهایی درباره سوءاستفاده دادهها ایجاد کند.
سوگیری الگوریتمی: آزمایشها نشان دادهاند سیستم در تشخیص اجسام مرتبط با فرهنگهای غیرغربی ۱۵ درصد دقت کمتری دارد.
مصرف انرژی: پردازش تصاویر با دقت بالا، باتری دستگاهها را ۲۰ درصد سریعتر تخلیه میکند.

گزارشها حاکی است گوگل در حال کار بر روی نسخه بهینهشدهای از این فناوری است که مصرف انرژی را تا ۳۵ درصد کاهش دهد.

آینده جستجوی تصویری: تحولی در تعامل انسان و فناوری

پیشبینی میشود تا سال ۲۰۲۶، ۴۰ درصد جستجوها در گوگل شامل تصویر یا ویدئو باشد. این فناوری پایهای برای توسعه عینکهای هوشمند با قابلیت تحلیل لحظهای محیط اطراف است. همچنین، ادغام آن با سرویسهایی مانند Google Maps میتواند ناوبری شهری را متحول کند. با این حال، موفقیت نهایی این نوآوری به توانایی گوگل در حفظ تعادل بین هوشمندی سیستم و حریم خصوصی کاربران بستگی دارد.

اگر به دنبال جدیدترین و کاربردی‌ترین محتوا در دنیای همه موضوع های کاربردی هستید، حتماً سئوتک را دنبال کنید، جایی که دانش به قدرت تبدیل می‌شود!