Gemini یک خانواده از مدلهای زبان بزرگ چندوجهی است که توسط Google DeepMind توسعه یافته و به عنوان جانشین LaMDA و PalM 2 عمل میکند. متشکل از Gemini Ultra، Gemini Pro، Gemini Flash و Gemini Nano، در 6 دسامبر 2023 معرفی شد و به عنوان یک رقیب OpenAI's GPT-4. این ربات چت با همین نام را نیرو میدهد.
گوگل Gemini یک مدل زبان بزرگ (LLM) که توسط شرکت تابعه Google DeepMind توسعه یافته بود، معرفی شد. در جریان سخنرانی اصلی Google I/O در 10 می2023. این مدل به عنوان جانشین قدرتمندتری برای PalM 2 قرار گرفت که در این رویداد نیز رونمایی شد. با ساندار پیچای، مدیر عامل گوگل، اظهار داشت که Gemini هنوز در مراحل اولیه رشد خود است. بر خلاف سایر LLM ها، Gemini از این نظر منحصر به فرد است که تنها بر روی یک مجموعه متن آموزش داده نشده است و به صورت چندوجهی طراحی شده است، به این معنی که میتواند چندین نوع داده از جمله متن، تصاویر، صدا، ویدئو و کد کامپیوتری را به طور همزمان پردازش کند. این به عنوان یک همکاری بین DeepMind و Google Brain، دو شعبه Google که ماه قبل به عنوان Google DeepMind ادغام شده بودند، ایجاد شده بود. در مصاحبهای با Wired، دمیس حسابیس، مدیرعامل DeepMind از قابلیتهای پیشرفته Gemini سخن گفت، که به اعتقاد او به این الگوریتم اجازه میدهد تا ChatGPT OpenAI را که روی GPT-4 اجرا میشود و محبوبیت فزایندهاش توسط گوگل با LaMDA و Bard به چالش کشیده شده است، پیشی بگیرد. Hassabis نقاط قوت برنامه AlphaGo DeepMind را که در سال 2016 با شکست قهرمان Go Lee Sedol مورد توجه جهانی قرار گرفت، برجسته کرد و گفت که Gemini قدرت AlphaGo و دیگر Google–DeepMind LLM را با هم ترکیب میکند. در آگوست 2023، The Information گزارشی را منتشر کرد که نقشه راه گوگل برای جمینی را تشریح کرد و نشان داد که این شرکت تاریخ راه اندازی اواخر سال 2023 را هدف قرار داده است. طبق این گزارش، گوگل امیدوار بود با ترکیب قابلیت های متن محاوره ای موجود در اکثر LLM ها از OpenAI و سایر رقبا پیشی بگیرد. با تولید تصویر مبتنی بر هوش مصنوعی، به آن اجازه میدهد تا تصاویر متنی ایجاد کند و برای طیف وسیعتری از موارد استفاده شود. مانند بارد، سرگئی برین، یکی از بنیانگذاران گوگل، به همراه صدها مهندس دیگر از Google Brain و DeepMind، از بازنشستگی احضار شد تا در توسعه Gemini کمک کند. مشارکت کننده اصلی" در Gemini از آنجایی که Gemini بر روی رونوشتهای ویدیوهای YouTube آموزش میدید، وکلایی برای فیلتر کردن هرگونه مطالب بالقوه دارای حق نسخهبرداری معرفی شدند. با خبر راهاندازی قریبالوقوع Gemini، OpenAI کار خود را برای یکپارچهسازی GPT-4 با ویژگیهای چندوجهی شبیه به Gemini تسریع کرد. اطلاعات در سپتامبر گزارش داد که به چندین شرکت اجازه دسترسی زودهنگام به "نسخه اولیه" LLM داده شده است، که گوگل قصد دارد آن را از طریق سرویس هوش مصنوعی Vertex در Google Cloud در دسترس مشتریان قرار دهد. این نشریه همچنین بیان کرد که گوگل جمینی را برای رقابت با GPT-4 و GitHub Copilot مایکروسافت مسلح میکند.
در 6 دسامبر 2023، Pichai و Hassabis "Gemini 1.0" را در یک کنفرانس مطبوعاتی مجازی اعلام کردند. این شامل سه مدل بود: Gemini Ultra، طراحی شده برای "کارهای بسیار پیچیده"؛ Gemini Pro، طراحی شده برای "گستره وسیعی از وظایف"؛ و Gemini Nano که برای "کارهای روی دستگاه" طراحی شده است. در زمان راه اندازی، Gemini Pro و Nano به ترتیب با Bard و گوشی هوشمند Pixel 8 Pro ادغام شدند، در حالی که Gemini Ultra قرار بود "Bard Advanced" را تقویت کند و در اوایل سال 2024 در دسترس توسعه دهندگان نرم افزار قرار گیرد. شامل جستجو، تبلیغات، کروم، هوش مصنوعی Duet در Google Workspace و AlphaCode 2 بود. این تنها به زبان انگلیسی در دسترس بود. این شرکت به عنوان "بزرگترین و تواناترین مدل هوش مصنوعی" گوگل معرفی شد و برای تقلید از رفتار انسان طراحی شده بود، این شرکت اظهار داشت که Gemini این کار را نخواهد کرد. به دلیل نیاز به "آزمایش ایمنی گسترده" تا سال بعد به طور گسترده در دسترس قرار گیرد. Gemini بر روی واحدهای پردازش تنسور (TPUs) گوگل آموزش دیده و توسط آن پشتیبانی شده است، و این نام به ادغام DeepMind-Google Brain و همچنین اشاره دارد. پروژه جمینی ناسا.
گفته میشود که Gemini Ultra از GPT-4، Anthropic's Claude 2، Inflection AI's Inflection-2، Meta's LLaMA 2 و Grok 1 از xAI در معیارهای مختلف صنعت عملکرد بهتری داشته است، در حالی که گفته میشود Gemini Pro از GPT-3.5.Gemini بهتر است. همچنین اولین مدل زبانی بود که در آزمون 57 موضوعی Massive Multitask Language Understanding (MMLU) از متخصصان انسانی پیشی گرفت و امتیاز 90٪ را به دست آورد. Gemini Pro در 13 دسامبر در AI Studio و Vertex AI برای مشتریان Google Cloud در دسترس قرار گرفت، در حالی که Gemini Nano نیز در اختیار توسعه دهندگان اندروید قرار خواهد گرفت. Hassabis همچنین فاش کرد که DeepMind در حال بررسی چگونگی ترکیب Gemini با روباتیک برای تعامل فیزیکی است. مطابق با یک فرمان اجرایی که در ماه اکتبر توسط جو بایدن، رئیس جمهور ایالات متحده امضا شد، گوگل اعلام کرد که نتایج آزمایش Gemini Ultra را با دولت فدرال ایالات متحده به اشتراک خواهد گذاشت. به طور مشابه، این شرکت در حال مذاکره با دولت بریتانیا برای پیروی از اصول مطرح شده در اجلاس ایمنی هوش مصنوعی در بلچلی پارک در ماه نوامبر بود.
گوگل در ژانویه 2024 با سامسونگ برای ادغام Gemini Nano و Gemini Pro در سری گوشی های هوشمند Galaxy S24 خود همکاری کرد. ماه بعد، Bard و Duet AI تحت نام تجاری Gemini متحد شدند و "Gemini Advanced with Ultra 1.0" از طریق یک "AI" جدید معرفی شد. ردیف Premium از سرویس اشتراک Google One.Gemini Pro نیز راه اندازی جهانی دریافت کرد. در ماه فوریه، Google «Gemini 1.5» را با ظرفیت محدود عرضه کرد که به عنوان یک مدل قدرتمندتر و توانمندتر از 1.0 Ultra قرار گرفت. این «تغییر مرحله ای» بود. از طریق پیشرفتهای فنی مختلف، از جمله معماری جدید، رویکرد ترکیبی از متخصصان، و یک پنجره زمینه بزرگتر با یک میلیون نشانه، که معادل تقریباً یک ساعت ویدیوی بیصدا، 11 ساعت صدا، 30000 خط کد است، به دست آمده است. یا 700000 کلمه. در همان ماه، گوگل Gemma را معرفی کرد، خانواده ای از LLM های رایگان و منبع باز که به عنوان نسخه سبک وزن Gemini عمل میکنند. آنها در دو اندازه، با یک شبکه عصبی با دو و هفت میلیارد پارامتر، عرضه میشوند. چندین نشریه این را به عنوان پاسخی به متا و سایرین که مدلهای هوش مصنوعی خود را منبع باز میدانستند، و یک معکوس آشکار از رویه دیرینه گوگل در اختصاصی نگه داشتن هوش مصنوعی خود میدانستند. Google یک مدل اضافی به نام Gemini 1.5 Flash را در 14 می2024 در I/2024 معرفی کرد. O keynote.Gemma 2 در 27 ژوئن 2024 منتشر شد. دو مدل Gemini به روز شده Gemini-1.5-Pro-002 و Gemini-1.5-Flash-002 در 24 سپتامبر 2024 منتشر شدند.
****نسل اول جمینی ("جمینی 1") دارای سه مدل با همان معماری نرم افزاری است. آنها فقط ترانسفورماتورهای رمزگشا هستند، با تغییراتی که امکان آموزش کارآمد و استنتاج در TPU ها را فراهم میکند. آنها دارای طول زمینه 32768 توکن با توجه چند پرس و جو هستند. دو نسخه از Gemini Nano، Nano-1 (1.8 میلیارد پارامتر) و Nano-2 (3.25 میلیارد پارامتر)، از مدلهای بزرگتر Gemini تقطیر شدهاند که برای استفاده توسط دستگاههای لبه مانند گوشیهای هوشمند طراحی شدهاند. از آنجایی که Gemini چندوجهی است، هر پنجره زمینه میتواند شامل چندین اشکال ورودی باشد. حالتهای مختلف را میتوان در هم ادغام کرد و نیازی نیست که به ترتیب ثابتی ارائه شوند که امکان مکالمه چندوجهی را فراهم میکند. به عنوان مثال، کاربر ممکن است مکالمه را با ترکیبی از متن، تصویر، ویدئو و صدا که به هر ترتیبی ارائه شده است باز کند و Gemini ممکن است با همان سفارش رایگان پاسخ دهد. تصاویر ورودی ممکن است رزولوشن های متفاوتی داشته باشند، در حالی که ویدئو به عنوان دنباله ای از تصاویر وارد میشود. صدا در 16 کیلوهرتز نمونه برداری میشود و سپس توسط مدل جهانی گفتار به دنباله ای از نشانه ها تبدیل میشود. مجموعه داده جمینی چندوجهی و چند زبانه است و شامل «اسناد وب، کتابها و کدها و شامل دادههای تصویر، صدا و ویدیو» است.
****نسل دوم جمینی («جمینی 1.5») دارای دو مدل است. Gemini 1.5 Pro یک ترکیب چندوجهی پراکنده از متخصصان است، با طول زمینه در میلیون ها، در حالی که Gemini 1.5 Flash از Gemini 1.5 Pro با طول زمینه بیش از 2 میلیون تقطیر شده است. Gemma 2 27B در زمینه اسناد وب، کد، مقالات علمی آموزش داده شده است. جما 2 9 بی از 27 بی تقطیر شد. Gemma 2 2B از یک مدل 7B که عرضه نشده باقی مانده بود تقطیر شد.
از اوت 2024، مدل های منتشر شده شامل :
راه اندازی Gemini با ماه ها گمانه زنی و پیش بینی شدید آغاز شد که بررسی فناوری MIT آن را به عنوان "اوج تبلیغات هوش مصنوعی" توصیف کرد. در آگوست 2023، دیلن پاتل و دانیل نیشبال از شرکت تحقیقاتی SemiAnalysis پستی در وبلاگ نوشتند که در آن اعلام کردند که انتشار Gemini "دنیا را میخورد" و از GPT-4 پیشی میگیرد، که باعث شد مدیر عامل OpenAI سم آلتمن این دو را در X (توئیتر سابق) به سخره بگیرد. ایلان ماسک، بازرگان تجاری، که یکی از بنیانگذاران OpenAI بود، با پرسش، "آیا اعداد اشتباه هستند؟" هیو لنگلی از Business Insider خاطرنشان کرد که جمینی یک لحظه ساخت یا شکست برای گوگل خواهد بود و نوشت: "اگر جمینی خیره شود. این امر به گوگل کمک میکند تا روایتی را که مایکروسافت و OpenAI آن را نادیده گرفته اند تغییر دهد، اگر ناامید شود، منتقدانی را که میگویند گوگل عقب مانده است، جسور میکند. اورن اتزیونی، استاد بازنشسته دانشگاه واشنگتن، در واکنش به رونمایی آن در دسامبر 2023، یک "مسابقه تسلیحاتی متقابل" بین گوگل و OpenAI را پیش بینی کرد. پروفسور الکسی افروس از دانشگاه کالیفرنیا، برکلی، پتانسیل رویکرد چندوجهی جمینی را ستود، در حالی که دانشمند ملانی میچل از موسسه سانتافه جمینی را "بسیار پیچیده" نامید. پروفسور چیراگ شاه از دانشگاه واشنگتن کمتر تحت تأثیر قرار گرفت و راه اندازی Gemini را به روتین بودن معرفی سالانه یک آیفون جدید توسط اپل تشبیه کرد. به طور مشابه، پرسی لیانگ از دانشگاه استنفورد، امیلی بندر از دانشگاه واشنگتن، و مایکل مدن از دانشگاه گالوی هشدار دادند که تفسیر امتیازات معیار بدون بینش در مورد دادههای آموزشی مورد استفاده دشوار است. مارک سالیوان در نوشتن برای شرکت Fast اظهار داشت که Google فرصتی برای به چالش کشیدن سهم غالب آیفون در بازار، با این باور که اپل بعید است که ظرفیت توسعه عملکردی مشابه Gemini را با دستیار مجازی Siri خود داشته باشد. سهام گوگل یک روز پس از عرضه Gemini 5.3 درصد افزایش یافت. گوگل به دلیل یک ویدیوی نمایشی از Gemini که در زمان واقعی انجام نشده بود، با انتقاد مواجه شد.
Google Gemini (Gemini AI) مجموعه یکپارچهای از مدلهای زبان بزرگ (LLM) است که Google DeepMind از ابتدا به صورت چندوجهی طراحی کرد. مجموعه یکپارچه میتواند متن، تصاویر، کد و صدا را از طریق یک رابط کاربری (UI) پردازش کند.در دسامبر 2023، Gemini جایگزین PalM 2 شد، LLM که Google Bard را تامین میکرد. در فوریه 2024، گوگل اعلام کرد که از این پس، بارد جمینی نامیده میشود.
تعاریف Google Gemini AI اغلب Gemini LLM را به عنوان خانواده ای از دستیاران قدرتمند هوش مصنوعی قرار میدهد. اصطلاح «دستیار» به این معناست که گوگل Gemini را به عنوان یک ابزار هوش افزوده میبیند که برای کمک به کاربران در انجام وظایف مختلف طراحی شده است، نه جایگزینی برای کارکنان انسانی.
برخی از رسانهها گزارش دادهاند که جمینی مخفف «رابط شبکه هوشمند چندوجهی عمومی» است، اما این اطلاعات تأیید نشد. به گفته Google Bard، به احتمال زیاد توسعهدهندگان Google مجموعه یکپارچه LLM را به نام صورت فلکی Gemini و اسطوره یونان باستان Castor و Pollux که الهامبخش علامت زودیاک هستند، نامگذاری کردهاند. هنگامی که از شما خواسته شد، Google Gemini موافقت کرد و اشاره کرد که این با سابقه Google در استفاده از تم های نجومی در نامگذاری محصول مطابقت دارد.
شایعه شده است که مدلهای هوش مصنوعی Gemini از معماری Google Pathways استفاده میکنند. در این نوع معماری هوش مصنوعی، در ابتدا یک سری از مدل های یادگیری ماشینی مدولار (ML) نحوه انجام یک کار خاص آموزش داده میشود. پس از آموزش، ماژول ها برای تشکیل یک شبکه به هم متصل میشوند. ماژول های شبکه میتوانند به طور مستقل کار کنند، یا میتوانند با هم کار کنند تا انواع مختلفی از خروجی ها را تولید کنند. در قسمت پشتی، رمزگذارها انواع مختلف داده ها را به یک زبان مشترک تبدیل میکنند و رمزگشاها بر اساس ورودی های کدگذاری شده و وظیفه در دست، خروجی ها را در حالت های مختلف تولید میکنند. گوگل اذعان کرده است که این مدلها زمانی که روی واحدهای پردازش تنسور Google (TPU) اجرا میشوند، سریعتر هستند. یک رابط کاربرپسند پیچیدگیهای معماری Gemini را پنهان میکند و این امکان را برای افراد با سطوح مهارت مختلف فراهم میکند تا از مدلهای Gemini برای اهداف هوش مصنوعی مولد استفاده کنند.
توجه به این نکته مهم است که Google Gemini به طور مداوم در حال پیشرفت است و قابلیت های این مدل همیشه در حال گسترش است. برای مثال، نسخههای اولیه مدلهای رایگان مبتنی بر وب میتوانستند تصاویر آپلود شده را تفسیر کنند، اما نمیتوانستند تصاویر را از طریق درخواستها تولید کنند. امروزه، نسخه رایگان Gemini را میتوان برای تولید متن در قالبهای مختلف، ترجمه زبانها، پاسخ به سؤالات استفاده کرد. با دقت واقعی، اطلاعات صفحات وب را خلاصه کنید، مفاهیم برنامه نویسی را توضیح دهید، کدهای جدید تولید کنیدو بهبودهایی را برای قطعات کد پیشنهاد دهید. چیز دیگری که به نظر میرسد به طور مداوم در حال تغییر است، نام محصولات برای خوشه های مختلف مدل Gemini است. در حال حاضر کوچکترین نسخه از خانواده مدل های Gemini، Gemini Nano نام دارد. این یک نسخه سبک وزن از Gemini است که میتواند در دستگاه های اندرویدی اجرا شود، از Google Pixel 8 Pro و سری S24 سامسونگ شروع میشود.
به گفته ساندار پیچای، مدیرعامل گوگل و آلفابت، «جمینی از یک اکوسیستم کامل – از محصولاتی که میلیاردها نفر هر روز استفاده میکنند گرفته تا APIها و پلتفرمهایی که به توسعهدهندگان و کسبوکارها در نوآوری کمک میکنند، پشتیبانی میکند.» تا زمانی که گوگل توضیحات مربوط به ربات چت جمینی و گزینههای یکپارچهسازی محصول را استاندارد نکند، کاربران میتوانند با مراجعه به صفحه فرود Google برای بهروزرسانیهای Gemini، آخرین اطلاعات را دریافت کنند.
برخی از کارشناسان صنعت حدس میزنند که گوگل برای آموزش ماژول های Gemini بر روی تراشه های Cloud TPU v5e به شدت بر یادگیری تقویتی با بازخورد انسانی (RLHF) تکیه کرده است. به گفته گوگل، TPU ها پنج برابر بیشتر از تراشه هایی که برای آموزش Chat GPT استفاده میشوند، قدرت محاسباتی دارند. تا کنون، گوگل هیچ اطلاعات دقیقی در مورد مجموعه داده هایی که مدل های هوش مصنوعی Gemini بر روی آنها آموزش دیده اند، منتشر نکرده است. با این حال، احتمالاً مهندسان Google از چارچوب LangChain استفاده کرده و دادههایی را که برای آموزش Palm 2 استفاده کردهاند، تغییر دادهاند. اگر اینطور باشد، مدلهای بنیاد Gemini در ابتدا بر روی دادههای اسناد وب، کتابها، کدها، تصاویر، آموزش داده میشوند. صوتی و تصویری باید دید که آیا رویکرد جامع Google DeepMind برای آموزش دستیاران هوش مصنوعی به اندازه رویکرد Open AI، که اضافه کردن حالتهای جدید به صورت مکرر بوده است، موثر خواهد بود یا خیر.
کاربران دسکتاپ میتوانند از طریق یک مرورگر وب به نسخه رایگان Gemini دسترسی داشته باشند. کاربران موبایل میتوانند با نصب برنامه Gemini در دستگاههای اندرویدی یا Google بر روی دستگاههای iOS از نسخه رایگان که در حال حاضر Gemini Pro نام دارد استفاده کنند. Gemini Advanced نسخه پولی Gemini است که قابلیتهای رایگان را گسترش میدهد. نسخه 19.99 دلار در ماه. صفحه فرود Gemini Advanced به مدل 1.0 Ultra اشاره میکند. مشخص نیست که DeepMind از مشترکین Gemini Advanced برای آزمایش نسخههای سازمانی جمینی بتا استفاده میکند یا اینکه Gemini Advanced در نهایت Gemini Ultra نامیده میشود. مشتریان Google Workspace در حال حاضر میتوانند برای دسترسی به 1.0 Ultra مشترک Gemini Business یا Gemini Enterprise شوند. Gemini Business برای هر کاربر/ماه 20 دلار هزینه دارد و به تعهد یک ساله نیاز دارد. امنیت و حریم خصوصی در سطح سازمانی را برای کاربران فراهم میکند و برای پاسخگویی به نیازهای اکثر کاربران تجاری طراحی شده است. Gemini Enterprise برای هر کاربر/ماه 30 دلار هزینه دارد و به تعهد یک ساله نیز نیاز دارد. اشتراک سازمانی همه چیزهایی را که Gemini Business ارائه میدهد، و همچنین قابلیتهای ترجمه پیشرفته برای جلسات و دسترسی/استفاده کامل Gemini را فراهم میکند.
Gemini و GPT-4 اغلب با هم استفاده میشوند زیرا هر خانواده از مدل ها نقاط قوت متفاوتی دارند. به عنوان مثال، ChatGPT Plus در خلاصه کردن موضوعات و نوشتن کد عالی است، در حالی که Gemini Advanced در نوشتن خلاقانه و تنظیم لحن خروجی متن بهتر است. اگر برای یک پروژه نوشتن خلاقانه به کمک نیاز دارید، Gemini ممکن است انتخاب بهتری باشد. اما اگر در حال نوشتن غیرداستانی یا تجزیه و تحلیل کد هستید، GPT-4 ممکن است مناسب تر باشد. نکته دیگر این است که Gemini میتواند به اینترنت دسترسی داشته باشد. این بدان معنی است که Gemini میتواند دانش جدیدتری را نسبت به Chat GPT-4 در پاسخ های خود بگنجاند.
یکی از بزرگترین مزایای Gemini این است که گوگل این خانواده از مدل های هوش مصنوعی چندوجهی را در سایر محصولات و خدمات گوگل ادغام میکند. این بدان معناست که کاربران میتوانند بدون نیاز به جابجایی بین برنامههای مختلف، به قابلیتهای Gemini در ابزارهای آشنای Google مانند Search، Gmail و Docs دسترسی داشته باشند. یکی از بزرگترین معایب Gemini این است که گاهی اوقات میتواند پاسخ هایی را ارائه دهد که بیش از حد مطمئن هستند، حتی زمانی که خروجی های اطلاعات نادرست هستند.
مانند ChatGPT یا Hanooman، Google Gemini AI برای درک حالت های مختلف اطلاعات، مانند متن، تصویر، صدا، ویدئو، کد کامپیوتر و غیره طراحی شده است. علاوه بر این، در چندین کار کدنویسی، مانند ترجمه کد بین زبانها، عالی است. این ربات چت هوش مصنوعی نه تنها یک LLM (مدل یادگیری زبان) قدرتمند و تکی است، بلکه یک اکوسیستم کامل است. از محصولات موجود مورد استفاده میلیاردها نفر پشتیبانی میکند، API هایی را برای توسعه دهندگان ارائه میدهد و پلتفرم هایی را برای نوآوری کسب و کارها فراهم میکند.
معماری شبکه عصبی پیشرفته Gemini در هسته تخصص آن قرار دارد. بر اساس تکنیک مدل ترانسفورماتور، این معماری به دقت برای پردازش توالیهای متنی طولانی در قالبهای دادههای مختلف مانند متن، صدا، ویدیو و کد بهبود یافته است. پیچیدگی ساختار Gemini از آموزش آن در Google's Cloud TPU v4 و v5e (واحدهای پردازش تنسور) نشات میگیرد. این شتابدهندههای هوش مصنوعی سفارشیسازی شده برای انجام وظایف گسترده یادگیری ماشینی به طور موثر ساخته شدهاند. این یکی از کارآمدترین و انعطاف پذیرترین مدل های موجود در بازار است. در جایی که سایر فرآیندهای چندوجهی به مقدار زیادی نیرو نیاز دارند، Gemini میتواند روی همه چیز از مراکز داده گرفته تا دستگاههای تلفن همراه اجرا شود.
هوش مصنوعی گوگل جمینی حجم زیادی از داده ها مانند الگوهای رفتار کاربر، تاریخچه جستجو و اطلاعات زمینه را شناسایی میکند. سپس از این دادهها برای درک هدف کاربر و ارائه پاسخهای دقیقتر به پرسشهای آنها استفاده میکند.
در اینجا چند فناوری پشت Google Gemini Ai آورده شده است:
به طور خلاصه، Google Gemini AI از فناوریهای پیشرفتهای مانند NLP، الگوریتمهای یادگیری عمیق و شبکههای عصبی برای افزایش دقت جستجو و ارتباط برای کاربران در سراسر جهان استفاده میکند.
Google Gemini در سه مدل Gemini Ultra، Gemini Pro و Gemini Nano موجود است. هر مدل قابلیت های منحصر به فردی دارد.
به عنوان مثال، با Gemini Nano، کاربران اکنون میتوانند ضبط های انجام شده با استفاده از برنامه Recorder را در تلفن Pixel 8 Pro خلاصه کنند (اما فقط به زبان انگلیسی). مدل Gemini Ultra 1.0 با امتیاز حدود 90 درصد، اولین راه حلی است که قادر است در آزمون های Massive Multitask Language Understanding (MMLU) از متخصصان انسانی پیشی بگیرد. این معیار دانش و حل مسئله را در 57 موضوع از جمله ریاضی، فیزیک و حقوق آزمایش میکند. به صورت آنلاین به 40 زبان و از طریق برنامه های اختصاصی اندروید و گوگل در iOS در دسترس است.
مدت کوتاهی پس از معرفی Gemini 1.0، مدل زبان بزرگ چندوجهی پیشرفته آنها، گوگل از نسل بعدی مدل هوش مصنوعی خود، Gemini 1.5، در فوریه 2024 رونمایی کرد. از شگفتی های چندوجهی گرفته تا ترکیب تخصصی، این به روز رسانی نوید افزایش کارایی، کارایی و طولانی مدت را میدهد. درک زمینه Gemini 1.5 جانشین Gemini 1.0 است که در ژانویه 2024 راه اندازی شد. در حال حاضر بسیاری از محصولات و خدمات Google مانند Gemini Advanced، Google Search، Google Assistant و YouTube را تامین میکند.
در اینجا چند ویژگی کلیدی هوش مصنوعی گوگل جمینی آورده شده است:
اولین نسخه Gemini میتواند کدهای با کیفیت بالا را در زبان های برنامه نویسی محبوب مانند Java، C++ و Go تولید کند. تقریباً دو برابر سایر رباتهای چت هوش مصنوعی مانند Devin AI و ChatGPT مشکلات را حل میکند و 85٪ نتایج دقیقی را ارائه میدهد.
با Gemini 1.0، کاربران میتوانند از مزایای یک معلم خصوصی، برنامههای مطالعه سفارشی، آزمونهای نمونه و بحثهای تعاملی لذت ببرند.
مانند GPT-4، Gemini استعدادهای قوی در دستکاری زبان را نشان میدهد - پاسخ دادن به سؤالات در مورد موضوعات علمی گسترده، خلاصه کردن مفاهیم به طور واضح و مختصر، ترجمه بین زبان ها به صورت اصطلاحی، و موارد دیگر. ترتیب گسترده 667 میلیارد پارامتر احتمالاً عامل مهمی در ایجاد نتایج متنی درجه یک در مقایسه با تکرارهای قبلی است.
Gemini به طور خودکار تصاویر منطبق را از اعلان های زبان و طرح های اساسی که استدلال بصری خلاقانه را نشان میدهد تولید میکند.
هوش ریاضی یک چالش کلیدی برای مدلهای LLM مانند GPT-3 و Codex است. با یک پیشرفت احتمالی، Gemini به طور اساسی وضعیت هنر را در حساب، جبر، حساب دیفرانسیل و انتگرال و غیره ارتقا میدهد. این مدل میتواند اشتباهات در مشکلات کاری را شناسایی کند و جزئیات شفاف سازی سفارشی را با توجه به نیاز دانش آموزان ارائه دهد. این میتواند به شدت برای یادگیرندگانی که با مفاهیم دست و پنجه نرم میکنند مفید باشد.
در اینجا ویژگی های قابل توجه چت ربات هوش مصنوعی Gemini آورده شده است:
Gemini جایگزین مدل زبان مسیرهای گوگل (PaLM 2) شد. یکی از قابل توجهترین نمونههای عملیات Gemini برای کاربران، یک ربات چت هوش مصنوعی به نام Google Bard است که قبلاً توسط PalM 2 پشتیبانی میشد
زمانی که Gemini برای اولین بار راه اندازی شد، در اندازه های مدل مختلف عرضه شد که هر کدام برای مجموعه ای از برنامه ها و تنظیمات خاص در نظر گرفته شده بودند. مدل نهایی، Ultra، برای کارهای چالش برانگیز ساخته شده است.
Google Bard نسخه ای از نرم افزار Gemini Pro را اجرا میکند. گوگل Gemini Pro را در 13 دسامبر 2023 از طریق Google AI Studio و Google Cloud Vertex AI برای عموم منتشر کرد. نسخهای از مدل Gemini Pro سیستم کدگذاری هوش مصنوعی Google AlphaCode 2 را تقویت میکند.
شماره 4 - ادغام با Google Pixel 8 Pro
#5 Gemini Nano comes in two versions :
گوشی هوشمند گوگل پیکسل 8 پرو یکی از دستگاه هایی است که نانو را یکپارچه کرده است.
تفاوت اساسی بین Gemini و ChatGPT مدل های زبان بزرگ (LLM) است که آنها استفاده میکنند و منابع داده مربوطه آنها. Gemini - Bard سابق - از زمان راهاندازی آن در فوریه 2023 توسط چندین مدل زبان مختلف پشتیبانی میشود. کاربران ChatGPT از زمانی که در دسترس عموم قرار گرفتهاند از GPT-3، GPT-3.5 و GPT-4 استفاده میکنند. یک نمای کلی از ChatGPT، یک ربات گفتگوی بسیار تعاملی میتواند به متمایز کردن این مدل هوش مصنوعی از هوش مصنوعی Gemini کمک کند
ویژگی های جمینی در مقابل ChatGPT:
به گفته گوگل، مدلهای Gemini 1.0 در طیفی از معیارهای چندوجهی، متنی و کد از عملکرد پیشرفتهتر پیشی گرفتهاند. مانند chatgpt، Devin AI نیز رقیب Gemini است. بنابراین، دانستن همه چیز در مورد هوش مصنوعی Devin نیز مهم است.
ربات چت هوش مصنوعی Gemini میتواند با تجزیه و تحلیل داده های بیمار و ارائه پیش بینی های دقیق، به پزشکان در تشخیص شرایط پیچیده پزشکی کمک کند. توانایی آن در پردازش مقادیر زیادی از تحقیقات پزشکی و داده های بالینی به آن اجازه میدهد تا بینش های ارزشمندی را برای بهبود نتایج بیمار ایجاد کند.
مؤسسات مالی از هوش مصنوعی Gemini برای تجزیه و تحلیل پیش بینی، کشف تقلب و ارزیابی ریسک استفاده میکنند. چت ربات هوش مصنوعی چندوجهی نسل بعدی گوگل میتواند داده های مالی پیچیده، روندهای بازار و شاخص های اقتصادی را پردازش کند. این چت ربات مجهز به هوش مصنوعی برای مدیریت مشتری به تصمیم گیری آگاهانه برای سرمایه گذاری و مدیریت ریسک های مالی کمک میکند.
یک شرکت خودروسازی یا حملونقل از Gemini Ultra یا Pro برای طراحی و شبیهسازی مدلهای جدید خودرو استفاده میکند. این چت ربات هوش مصنوعی در خودروی الکتریکی (EV) میتواند جریان ترافیک را با تجزیه و تحلیل دادههای ترافیک در زمان واقعی و پیشبینی الگوهای تراکم بهینه کند. میتواند منجر به سیستم های حمل و نقل کارآمدتر و کاهش زمان سفر مسافران شود.
هوش مصنوعی میتواند یک تغییر دهنده بازی برای خرده فروشان آنلاین باشد و مدل پیشرفته هوش مصنوعی گوگل Gemini این را ثابت کرده است. یک غول خردهفروشی Gemini Pro را در چارچوب خدمات مشتری یا زیرساخت خود برای تجربه خرید شخصیسازی شده ادغام میکند. مدل هوش مصنوعی ترجیحات مشتری، تاریخچه خرید و روند بازار را تجزیه و تحلیل میکند تا محصولات و خدمات را توصیه کند.
تولیدکنندگان، Gemini Pro را در چارچوب خدمات مشتری خود ادغام میکنند تا فرآیندهای تولید را بهینه کنند، که منجر به صرفه جویی در هزینه و تجربه خرید شخصی میشود. مدل هوش مصنوعی ترجیحات مشتری، تاریخچه خرید و روند بازار را تجزیه و تحلیل میکند تا محصولات و خدمات را توصیه کند.
Gemini Nano خدمات و دستگاههای اینترنت اشیا (IoT) و زیرساختهای شهری را در پروژه شهر هوشمند مدیریت میکند. کارایی آن بر روی دستگاه امکان پردازش بیدرنگ دادهها را برای مدیریت ترافیک، نظارت بر ایمنی عمومی و کنترل محیطی فراهم میکند.
سازگاری جمینی و آموزش ویژه کار آن را برای آموزش شخصی ارزشمند میکند. این میتواند الگوهای یادگیری فردی را درک کند، محتوای آموزشی را تنظیم کند، و بازخورد هدفمند ارائه دهد و تجارب یادگیری دانش آموزان را افزایش دهد. موسسات آموزشی از قابلیتهای مولد Gemini Pro برای تولید محتوا در بخش آموزش استفاده میکنند. از تولید مواد آموزشی تا کمک به توسعه برنامه درسی، این مدل میتواند فرآیندهای ایجاد محتوا را خودکار و ساده کند.
قدرت GEMINI فراتر از استفاده شخصی است. بسیاری از کسب و کارها در حال ادغام این مدل هوش مصنوعی در برنامه ها و محصولات خود هستند.
این مثالهای واقعی نشان میدهند که چگونه صنایع مختلف از قدرت هوش مصنوعی Google Gemini برای افزایش کارایی، بهبود فرآیندهای تصمیمگیری و ارائه تجربیات شخصیسازیشدهتر به کاربران نهایی استفاده میکنند.
در حالی که آینده هوش مصنوعی Gemini بدون شک امیدوار کننده است، نگرانی ها و بحث های اخلاقی باید درک شده و مورد توجه قرار گیرد. جنجال پیرامون ابزار تولید تصویر Google Gemini نیز نگرانیها را در مورد سوگیری در هوش مصنوعی در دنیای فناوری بزرگتر برانگیخته است. از آنجایی که هوش مصنوعی Gemini به حجم وسیعی از داده های آموزشی وابسته است، اطمینان از متنوع بودن و بی طرف بودن داده ها برای جلوگیری از تداوم تعصبات اجتماعی ضروری است.
undar Pichai کارکنان گوگل را به دلیل توهین به مشتریان با تعصب هوش مصنوعی Gemini مورد انتقاد قرار داد: "به وضوح، این کاملا غیر قابل قبول است".
یکی دیگر از نگرانی های اخلاقی بالقوه Gemini AI شفافیت در تصمیم گیری است. همانطور که مدل پیچیده تر میشود، توسعه روش هایی برای درک و توضیح استدلال پشت پیش بینی ها و تصمیمات آن ضروری است. شفافیت نقش مهمی در جلب اعتماد و پذیرش هم از سوی کاربران و هم از طرف سهامداران دارد. آسیبپذیری امنیتی یکی از مهمترین نگرانیها و بحثهای پیرامون هوش مصنوعی گوگل جمینی است. در حالی که برنامه Gemini نوید ویژگی های پیشرفته هوش مصنوعی را میدهد، نگرانی بالقوه در مورد حساسیت آن به افشای داده های محرمانه وجود دارد. با اذعان به این نگرانی های اخلاقی، گوگل اعلام کرد که فعالانه در حال کار برای حل مشکلات عملکرد چت بات است. Gemini AI با ارائه دهندگان خدمات امنیتی قوی مانند ML Commons، Frontier Model Forum، AI Safety Fund، و Secure AI Framework (SAIF) اقدامات امنیتی را تضمین میکند که به کاربران اجازه میدهد هنگام آپلود داده های خود به آن اعتماد کنند. تعهد آن به شیوههای اخلاقی هوش مصنوعی و ارزیابیهای ایمنی، از جمله بررسیهای سوگیری و سمیت، استقرار مسئولانه را تضمین میکند. به لطف پیشرفتهای مداوم و ملاحظات ایمنی، Gemini یک مدل فناوری هوش مصنوعی آیندهنگر است.
جمینی با قدرت های استثنایی و تکامل مداوم خود، آینده هوش مصنوعی را نشان میدهد. با پیشرفت تکنولوژی و دسترسی بیشتر به داده ها، این چند وجهی پیشرفته هوش مصنوعی حتی قدرتمندتر و همه کاره تر خواهد شد. تأثیر آن بر بخشهای مختلف مانند مراقبتهای بهداشتی، مالی، و آموزش به رشد خود ادامه خواهد داد و نحوه کار و زندگی ما را متحول خواهد کرد. یکی از پتانسیل های جذاب برای هوش مصنوعی گوگل جمینی، توانایی آن در ادغام با دستگاه های اینترنت اشیا (IoT) است. میتواند مقادیر زیادی از دادههای تولید شده توسط دستگاههای اینترنت اشیا را شناسایی و درک کند و اتوماسیون هوشمند و قابلیتهای پیشبینی را ممکن میسازد.
علاوه بر این، هوش مصنوعی Gemini نوید قابل توجهی برای تلاش های مشترک دارد. میتواند با سایر سیستمهای هوش مصنوعی همکاری کند تا قابلیتهای آنها را افزایش دهد و دامنه راهحلهای مبتنی بر هوش مصنوعی را با استفاده از مدلهای متنوع هوش مصنوعی و پایگاههای دانش گسترش دهد. گوگل قصد دارد مجوز هوش مصنوعی Gemini را از طریق Google Cloud به کسب و کارها بدهد، که امکان ادغام راحت با برنامه های مختلف تلفن همراه، از Gemini 1.0 ultra تا 1.5 pro را فراهم میکند. کسب و کارها را وادار میکند تا به هزینه ادغام Google Gemini Pro در برنامه های تلفن همراه فکر کنند.
هزینه واقعی یکپارچهسازی Google Gemini AI Pro میتواند بر اساس چندین عامل، مانند ویژگیها و قابلیتها، پیچیدگی و سفارشیسازی پروژه، طراحی UI/UX، شرکت توسعه هوش مصنوعی و ادغام با سیستم موجود متفاوت باشد.
میانگین هزینه ادغام Gemini AI Pro Model در یک اپلیکیشن موبایل معمولاً بین 25000 تا 300000 دلار است. در نهایت، Gemini با قابلیتهای چندوجهی پیشرفته، انواع تخصصی و کاربردهای گسترده در صنایع، در هوش مصنوعی متمایز است. ویژگیهای متمایز و رویکرد هوش مصنوعی اخلاقی آن را به ابزاری ارزشمند برای شرکتهایی تبدیل میکند که به دنبال استفاده از هوش مصنوعی برای نوآوری و کارایی هستند.
در عصری که فناوری با سرعتی سرسامآور در حال پیشرفت است، هوش مصنوعی (AI) به عنوان یکی از ستارگان درخشان این عرصه، توانسته است جایگاه ویژهای در زندگی روزمره و کسبوکارها پیدا کند. این فناوری نوظهور، با قابلیتهای بینظیر خود در پردازش زبان طبیعی، تولید محتوا، ترجمه، خلاصهسازی و بسیاری از زمینههای دیگر، توانسته است تحولی شگرف در نحوه تعامل ما با اطلاعات و فناوری ایجاد کند.
در این میان، دو غول قدرتمند هوش مصنوعی، Gemini و ChatGPT، به عنوان پیشگامان این عرصه، توجه بسیاری را به خود جلب کردهاند. این دو مدل، هر دو توسط شرکتهای بزرگ و پیشرو در زمینه فناوری توسعه یافتهاند و قابلیتهای چشمگیری در پردازش زبان طبیعی و تولید متن دارند. اما کدام یک از این دو تایتان برای نیازهای شما مناسبتر است؟
Gemini و ChatGPT هر دو از مدلهای زبانی پیشرفته استفاده میکنند، اما معماری و ساختار آنها متفاوت است. Gemini از یک معماری چندوجهی (Multimodal) استفاده میکند که به آن اجازه میدهد تا دادههای مختلفی مانند متن، تصویر و صدا را درک و پردازش کند. این معماری، Gemini را به یک ابزار قدرتمند برای کاربردهایی تبدیل میکند که نیاز به درک و تولید محتوای چندرسانهای دارند.
از سوی دیگر، ChatGPT بر پایه معماری GPT (Generative Pre-trained Transformer) ساخته شده است. این معماری، به ChatGPT اجازه میدهد تا با حجم عظیمی از دادههای متنی آموزش ببیند و توانایی بالایی در تولید متن، ترجمه، پاسخگویی به سؤالات و خلاصهسازی داشته باشد.
Gemini و ChatGPT هر دو قابلیتهای متنوعی در پردازش زبان طبیعی دارند، اما در برخی زمینهها از یکدیگر متمایز میشوند. Gemini در تولید محتوای خلاقانه و ترکیب قدرت متن و تصویر برتری دارد. این مدل میتواند با توجه به زمینه و موضوع مورد نظر، متونی منحصربهفرد، جالب و خلاقانه تولید کند که در بسیاری از موارد، تشخیص آنها از متون نوشته شده توسط انسان دشوار است. همچنین، Gemini میتواند با ترکیب متن و تصویر، تجربهای بینظیر در تولید محتوا و تعامل با کاربران ایجاد کند.
ChatGPT نیز در تولید متون طولانی و منسجم، تنوع نسخهها و کاربردها و دسترسی آسان به برخی نسخهها برتری دارد. این مدل میتواند با توجه به زمینه و موضوع مورد نظر، داستانها، مقالات، و حتی کتابهای کاملی را تولید کند. همچنین، ChatGPT در نسخههای مختلفی ارائه شده است که هر کدام قابلیتها و کاربردهای متفاوتی دارند. این تنوع، ChatGPT را به یک ابزار چند منظوره برای کاربردهای مختلف تبدیل میکند. برخی از نسخههای ChatGPT به صورت عمومی در دسترس هستند و میتوان از آنها برای تولید محتوا، ترجمه، پاسخگویی به سؤالات و چتباتها استفاده کرد.
Gemini و ChatGPT هر دو نقاط قوت و ضعف خود را دارند و در نظر داشته باشید که مقایسه ما کلیت این دو هوش مصنوعی را در بر میگیرد در حالی که امکانات ارائه شده در نسخه پرمیوم هر دوی این ابزار ها بسیار متفاوت و گسترده تر است.
Gemini و ChatGPT هر دو میتوانند در تولید انواع محتوا، از جمله مقالات، وبلاگها، پستهای شبکههای اجتماعی، توضیحات محصول و ... به شما کمک کنند. با این حال، Gemini در تولید محتوای خلاقانه و ترکیب متن و تصویر برتری دارد. این مدل میتواند متونی منحصربهفرد و جذاب تولید کند که در بسیاری از موارد، تشخیص آنها از متون نوشته شده توسط انسان دشوار است. همچنین، Gemini میتواند با ترکیب متن و تصویر، تجربهای بینظیر در تولید محتوا ایجاد کند.
از سوی دیگر، ChatGPT در تولید متون طولانی و منسجم برتری دارد. این مدل میتواند با توجه به زمینه و موضوع مورد نظر، داستانها، مقالات، و حتی کتابهای کاملی را تولید کند. همچنین، ChatGPT میتواند در خلاصهسازی متون طولانی و استخراج نکات کلیدی آنها به شما کمک کند.
Gemini و ChatGPT هر دو میتوانند در بهینهسازی محتوا برای موتورهای جستجو (سئو) به شما کمک کنند. با این حال، ChatGPT به دلیل توانایی خود در تولید متون طولانی و منسجم، میتواند در تولید محتوای سئو محور که برای موتورهای جستجو جذاب است، موثرتر باشد. همچنین، ChatGPT میتواند در یافتن کلمات کلیدی مناسب و بهینهسازی عناوین و توضیحات متا به شما کمک کند. Gemini نیز میتواند در تولید محتوای سئو محور مؤثر باشد. با این حال، به دلیل محدودیتهای فعلی در دسترسی به این مدل، استفاده از آن برای سئو ممکن است دشوارتر باشد.
در نهایت، انتخاب بین Gemini و ChatGPT به نیازها، بودجه و سطح تخصص شما بستگی دارد. اگر به دنبال یک مدل هوش مصنوعی با قابلیتهای چندوجهی هستید که بتواند در زمینههای مختلفی به شما کمک کند و به تولید محتوای خلاقانه اهمیت میدهید، Gemini گزینه مناسبی است. اما اگر نیاز شما به تولید متن و پاسخگویی به سؤالات محدود میشود و به دنبال یک مدل با دسترسی آسانتر و تنوع نسخهها هستید، ChatGPT میتواند گزینه بهتری باشد. در پرمیوم باکس، میتوانید به اشتراکهای Gemini و ChatGPT دسترسی پیدا کنید و از قابلیتهای بینظیر این دو مدل هوش مصنوعی بهرهمند شوید.
شرکت Open AI مدلی به نام GPT-4Vision را معرفی کرده که میتواند با تصاویر، صدا و متن نیز کار کند. با این وجود، این یک مدل کاملا چند وجهی به روشی که جمینی وعده داده نیست.
برای مثال، در حالی که چت جی پی تی – 4 (Chat GPT-4) که توسط GPT-4V تغذیه میشود میتواند با ورودیهای صوتی کار کند و خروجیهای گفتاری تولید کند، این کار با تبدیل گفتار به متن در ورودی با استفاده از مدل یادگیری عمیق دیگری به نام Whisper انجام میشود. چت جی پی تی – 4 همچنین متن را با استفاده از مدلی متفاوت در خروجی به گفتار تبدیل میکند به این معنی که خود GPT-4V صرفا با متن کار میکند. به همین ترتیب چت جی پی تی – ۴ (ChatGPT-۴) میتواند تصاویر را تولید کند، اما این کار را با تولید پیامهای متنی انجام میدهد که به یک مدل یادگیری عمیق جداگانه به نام Dall-E ۲ منتقل میشوند که توضیحات متن را به تصاویر تبدیل میکند.
در مقابل، گوگل جمینی را به گونهای طراحی کرد که "چند وجهی بومی" باشد بدان معنا که مدل اصلی به طور مستقیم طیفی از انواع ورودی (صوت، تصاویر، ویدئو و متن) را کنترل میکند و میتواند آنها را نیز به طور مستقیم خروجی دهد.
تمایز بین این دو رویکرد ممکن است موردی آکادمیک به نظر برسد، اما مهم است. نتیجه گیری کلی از گزارش فنی گوگل و سایر آزمایشهای کیفی تا به امروز این است که نسخه عمومی فعلی جمینی به نام Gemini 1.0 Pro به طور کلی به خوبی GPT-4 نیست و از نظر قابلیتها بیشتر شبیه به GPT 3.5 است.
گوگل همچنین نسخه قدرتمندتری از جمینی را به نام Gemini 1.0 Ultra معرفی کرد و نتایجی را ارائه نمود که نشان میدهد قدرتمندتر از GPT-4 است. با این وجود، ارزیابی این موضوع به دو دلیل دشوار است. دلیل اول آن که گوگل هنوز Ultra را منتشر نکرده بنابراین، در حال حاضر نمیتوان نتایج را به طور مستقل مورد تایید قرار داد.
دلیل دومی که نشان میدهد چرا ارزیابی ادعاهای گوگل دشوار است آن است که آن شرکت تصمیم گرفت یک ویدئوی تا حدی فریبنده منتشر کند. برای مثال، جمینی از قبل چند کار خاص را یاد گرفته بود مانند ترفند سه فنجان و توپ که در آن ردیابی میکند که توپ زیر کدام فنجان است. برای این کار دنبالهای از تصاویر ثابت ارائه شده بود که در آن دستهای مجری بر روی فنجانهای در حال تعویض است.
علیرغم تمام این موارد جمینی و مدلهای چندوجهی بزرگ گامی رو به جلو برای هوش مصنوعی مولد هستند. این به دلیل قابلیتهای آینده آنان و هم چنین به دلیل چشم انداز رقابتی ابزارهای هوش مصنوعی است. GPT-4 بر روی حدود 500 میلیارد کلمه از تمام متنهای با کیفیت خوب و در دسترس عموم آموزش داده شد. عملکرد مدلهای یادگیری عمیق عموما با افزایش پیچیدگی مدل و مقدار دادههای آموزشی هدایت میشود. این وضعیت منجر به طرح این پرسش شده که چگونه میتوان به پیشرفتهای بیش تری دست یافت، زیرا تقریبا دادههای آموزشی جدید برای مدلهای زبان به اتمام رسیده است. با این وجود، مدلهای چندوجهی ذخایر جدید عظیمی از دادههای آموزشی را در قالب تصاویر، صدا و فیلم باز میکنند.
ابزارهای مبتنی بر هوش مصنوعی مانند جمینی که میتوانند به طور مستقیم بر روی همه این دادهها آموزش ببینند احتمالا در آینده قابلیتهای بسیار بیش تری خواهند داشت. هم چنین، ایجاد چشم انداز رقابتی هوش مصنوعی انسان را هیجان زده میسازد. در سال گذشته علیرغم ظهور بسیاری از مدلهای هوش مصنوعی مولد مدلهای GPT ساخته شده توسط Open AI غالب بوده اند و سطحی از عملکرد را نشان میدهند که سایر مدلها قادر به نزدیک شدن به آن نبوده اند. جمینی گوگل نشان دهنده ظهور یک رقیب بزرگ است که به پیشبرد این چشم انداز کمک میکند. البته Open AI تقریبا به طور قطع بر روی GPT-5 کار میکند و میتوان انتظار داشت که چندوجهی نیز باشد و قابلیتهای جدید قابل توجهی را نشان دهد. هم چنین، برخی از ویژگیهای پیاده سازی جمینی دوست داشتنی هستند. برای مثال، گوگل نسخهای به نام "جمینی نانو" (Gemini Nano) را معرفی کرده که بسیار سبکتر است و میتواند به طور مستقیم بر روی گوشیهای تلفن همراه هوشمند اجرا شود.
بستن *نام و نام خانوادگی * پست الکترونیک * متن پیام |
021-55529569 مشاوره رایگان محصولات
بستن ورود به کاربری
نام کاربری (ایمیل شما)
رمز عبور
نام کاربری (ایمیل شما)
کد امنیتی :
ورود
آیا کلمه عبور خود را فراموش کرده اید ؟
ارسال
بازگشت به ورود.
می خواهید ثبت نام کنید ؟ عضویت |