تحقیقات الگوریتم رتبه بندی گوگل TW-BERT را معرفی می‌کند

فهرست

مقاله تحقیقاتی گوگل چارچوب قابل توجهی به نام TW-BERT را توصیف می‌کند که رتبه بندی جستجو را بدون نیاز به تغییرات عمده بهبود می‌بخشد.

مهم‌ترین بخش اخبار

TW–BERT یک چارچوب وزن دهی عبارت پرس و جوی سرتاسری است که دو پارادایم را برای بهبود نتایج جستجو پیوند می‌دهد.
با مدل های بسط پرس و جو موجود ادغام می‌شود و عملکرد را بهبود می‌بخشد. استقرار چارچوب جدید به حداقل تغییرات نیاز دارد.
گوگل یک چارچوب رتبه بندی قابل توجه به نام Term Weighting BERT (TW-BERT) را معرفی کرد که نتایج جستجو را بهبود می‌بخشد و به راحتی در سیستم های رتبه بندی موجود به کار می‌رود.

اگرچه گوگل استفاده از TW-BERT را تایید نکرده است، این چارچوب جدید پیشرفتی است که فرآیندهای رتبه بندی را در سراسر صفحه بهبود می‌بخشد، از جمله در گسترش پرس و جو. همچنین استقرار آن آسان است، که به نظر من احتمال استفاده از آن را بیشتر می‌کند.

TW-BERT نویسندگان مشترک زیادی دارد، از جمله مارک ناجورک، دانشمند پژوهشی برجسته در Google DeepMind و مدیر ارشد سابق مهندسی تحقیقات در Google Research.

او مقالات تحقیقاتی بسیاری را در زمینه موضوعات مرتبط با فرآیندهای رتبه بندی و بسیاری از زمینه های دیگر تالیف کرده است.

در میان مقالات مارک نایورک به عنوان یکی از نویسندگان ذکر شده است:

در مورد بهینه سازی معیارهای Top-K برای مدل های رتبه بندی عصبی – 2022
مدل‌های زبان پویا برای محتوای در حال تکامل پیوسته – 2021
بازاندیشی جستجو: ساخت متخصصان دامنه از Dilettantes – 2021
تبدیل ویژگی برای مدل‌های رتبه‌بندی عصبی – – ۲۰۲۰
یادگیری تا رتبه با BERT در رتبه بندی TF – 2020
تطبیق متن معنایی برای اسناد طولانی – 2019
رتبه بندی TF: کتابخانه TensorFlow مقیاس پذیر برای یادگیری تا رتبه – 2018
چارچوب LambdaLoss برای رتبه بندی بهینه سازی متریک – 2018
آموزش رتبه بندی با سوگیری انتخاب در جستجوی شخصی – 2016

TW-BERT چیست؟

TW-BERT یک چارچوب رتبه‌بندی است که امتیازهایی (به نام وزن) را به کلمات درون یک عبارت جستجو اختصاص می‌دهد تا با دقت بیشتری مشخص کند چه اسنادی برای آن عبارت جستجو مرتبط هستند.

TW-BERT همچنین در Query Expansion مفید است.

Query Expansion فرآیندی است که یک عبارت جستجو را مجدداً بیان می‌کند یا کلمات بیشتری را به آن اضافه می‌کند (مانند افزودن کلمه “رسپی” به عبارت “سوپ مرغ”) تا جستجوی جستجو را بهتر با اسناد مطابقت دهد.

افزودن امتیاز به پرس و جو به آن کمک می‌کند تا بهتر تشخیص دهد که پرس و جو در مورد چیست.

دو پارادایم بازیابی اطلاعات پل های TW-BERT

مقاله تحقیق دو روش مختلف جستجو را مورد بحث قرار می‌دهد. یکی که مبتنی بر آمار است و دیگری مدل های یادگیری عمیق.

در ادامه بحثی در مورد مزایا و معایب این روش‌های مختلف وجود دارد و پیشنهاد می‌شود که TW-BERT راهی برای پل زدن این دو رویکرد بدون هیچ یک از کاستی‌ها است.

آنها می‌نویسند:

«این روش‌های بازیابی مبتنی بر آمار، جستجوی کارآمدی را ارائه می‌کنند که با اندازه پیکره افزایش می‌یابد و به حوزه‌های جدید تعمیم می‌یابد.

با این حال، عبارات به طور مستقل وزن داده می‌شوند و زمینه کل پرس و جو را در نظر نمی‌گیرند.”

محققان سپس خاطرنشان می‌کنند که مدل های یادگیری عمیق می‌توانند زمینه پرس و جوهای جستجو را کشف کنند.

توضیح داده شده است:

برای این مشکل، مدل‌های یادگیری عمیق می‌توانند این زمینه‌سازی را روی پرس و جو انجام دهند تا بازنمایی بهتری برای اصطلاحات فردی ارائه کنند.

آنچه محققان پیشنهاد می‌کنند استفاده از TW-Bert برای پل زدن این دو روش است.

پیشرفت شرح داده شده است:

ما این دو پارادایم را برای تعیین مرتبط‌ترین یا نامرتبط‌ترین عبارت‌های جستجو در جست‌وجو پیوند می‌دهیم…

سپس این عبارات را می‌توان با وزن بالا یا کاهش وزن کرد تا به سیستم بازیابی ما اجازه دهد نتایج مرتبط تری تولید کند.”

مثالی از وزن عبارت جستجوی TW-BERT

مقاله تحقیقاتی مثالی از عبارت جستجو، “کفش های دویدن نایک” را ارائه می‌دهد.

به عبارت ساده، کلمات “کفش های دویدن نایک” سه کلمه ای هستند که یک الگوریتم رتبه بندی باید به روشی که جستجوگر قصد درک آن را دارد بفهمد.

آنها توضیح می‌دهند که تأکید بر بخش «در حال اجرا» پرس و جو، نتایج جستجوی نامربوطی را نشان می‌دهد که حاوی مارک هایی غیر از نایک است.

در آن مثال، نام تجاری نایک مهم است و به همین دلیل فرآیند رتبه بندی باید مستلزم آن باشد که صفحات وب نامزد دارای کلمه نایک در آنها باشند.

صفحات وب کاندیدا صفحاتی هستند که برای نتایج جستجو در نظر گرفته می‌شوند.

کاری که TW-BERT انجام می‌دهد این است که برای هر قسمت از جستار جستجو امتیازی (به نام وزن دهی) ارائه می‌دهد تا به همان روشی که شخصی که درخواست جستجو را وارد کرده است، منطقی باشد.

در این مثال کلمه نایک مهم در نظر گرفته شده است، بنابراین باید به آن نمره (وزن) بالاتری داده شود.

محققان می‌نویسند:

بنابراین چالش این است که ما باید اطمینان حاصل کنیم که نایک به اندازه کافی وزن دارد و در عین حال کفش‌های دویدن را در نتایج برگشتی نهایی ارائه می‌کند.»

چالش دیگر این است که پس از آن مفهوم کلمات “دویدن” و “کفش” را درک کنید و این بدان معنی است که وزن برای پیوستن دو کلمه به عنوان یک عبارت، “کفش دویدن” به جای وزن کردن دو کلمه به طور مستقل، باید بیشتر متمایل شود.

این مشکل و راه حل توضیح داده شده است:

جنبه دوم این است که چگونه از اصطلاحات n-gram معنادارتر در طول امتیازدهی استفاده کنیم.

در جستار ما، اصطلاحات «دویدن» و «کفش» به طور مستقل مورد استفاده قرار می‌گیرند، که می‌توانند به همان اندازه با «جوراب‌های دویدن» یا «کفش‌های اسکیت» مطابقت داشته باشند.

در این مورد، ما می‌خواهیم که رتریور ما روی سطح عبارت n-gram کار کند تا نشان دهد که «کفش‌های دویدن» باید هنگام گلزنی وزن بیشتری داشته باشند.

حل محدودیت ها در چارچوب های فعلی

مقاله پژوهشی وزن‌دهی سنتی را به‌عنوان محدود بودن در تنوع پرس‌و‌جوها خلاصه می‌کند و اشاره می‌کند که آن روش‌های وزن‌دهی مبتنی بر آمار برای سناریوهای شات صفر عملکرد کمتری دارند.

یادگیری صفر شات اشاره ای به توانایی یک مدل برای حل مسئله ای است که برای آن آموزش ندیده است.

همچنین خلاصه‌ای از محدودیت‌های ذاتی روش‌های فعلی گسترش اصطلاح وجود دارد.

بسط اصطلاح زمانی است که از مترادف ها برای یافتن پاسخ های بیشتر برای پرس و جوهای جستجو یا زمانی که کلمه دیگری استنباط می‌شود استفاده می‌شود. به عنوان مثال، هنگامی‌که شخصی برای “سوپ مرغ” جستجو می‌کند، به معنای “دستور پخت سوپ مرغ” است.

TW-BERT پل دو رویکرد

راه حل پیشنهادی مانند یک رویکرد ترکیبی است. در نقل قول زیر، اصطلاح IR به معنای بازیابی اطلاعات است. آنها می‌نویسند:برای پر کردن شکاف، ما از استحکام بازیابی‌های واژگانی موجود با بازنمایی متن متنی ارائه شده توسط مدل‌های عمیق استفاده می‌کنیم.رتریورهای واژگانی در حال حاضر قابلیت تخصیص وزن به اصطلاحات n-gram را هنگام انجام بازیابی فراهم می‌کنند.ما از یک مدل زبان در این مرحله از خط لوله استفاده می‌کنیم تا وزن‌های مناسبی برای عبارت‌های n-gram پرس و جو ارائه کنیم.این اصطلاح وزن‌سازی BERT (TW-BERT) با استفاده از همان توابع امتیازدهی مورد استفاده در خط لوله بازیابی برای اطمینان از سازگاری بین آموزش و بازیابی بهینه شده است.این منجر به بهبود بازیابی در هنگام استفاده از وزن‌های مدت تولید شده TW-BERT می‌شود و در عین حال زیرساخت IR را مشابه مشابه تولید فعلی خود نگه می‌دارد.الگوریتم TW-BERT وزن‌هایی را به پرس‌و‌جوها اختصاص می‌دهد تا امتیاز مربوط به دقیق‌تری ارائه کند که بقیه مراحل رتبه‌بندی می‌توانند با آن کار کنند.

آیا گوگل در الگوریتم رتبه بندی خود از TW-BERT استفاده می‌کند؟

همانطور که قبلا ذکر شد، استقرار TW-BERT نسبتا آسان است. به نظر من، منطقی است که فرض کنیم سهولت استقرار، احتمال اضافه شدن این چارچوب به الگوریتم گوگل را افزایش می‌دهد.این بدان معناست که گوگل می‌تواند TW-BERT را به بخش رتبه بندی الگوریتم اضافه کند، بدون اینکه نیازی به به روز رسانی الگوریتم اصلی در مقیاس کامل باشد.جدای از سهولت استقرار، کیفیت دیگری که باید در حدس زدن اینکه آیا یک الگوریتم می‌تواند مورد استفاده قرار گیرد یا خیر، این است که الگوریتم تا چه حد در بهبود وضعیت فعلی هنر موفق است.مقالات تحقیقاتی زیادی وجود دارند که موفقیت محدودی دارند یا پیشرفتی ندارند. این الگوریتم‌ها جالب هستند، اما منطقی است که فرض کنیم در الگوریتم گوگل قرار نخواهند گرفت.موارد مورد علاقه آنهایی هستند که بسیار موفق هستند و این مورد در مورد TW-BERT است.TW-BERT بسیار موفق است. آنها گفتند که انداختن آن در یک الگوریتم رتبه‌بندی موجود آسان است و به همان اندازه «رتبه‌بندی عصبی متراکم» عمل می‌کند.

منبع خبر

admin

0 Comments

Submit a Comment لغو پاسخ

برای نوشتن دیدگاه باید وارد بشوید.

دسته بندی‌ها

همه مطالب

وب

سئو

دیزاین و عکاسی

آخرین خبرها

گوگل قراردادی را برای نمایش محتوای بیشتر Reddit اعلام کرد

گوگل به توافقی دست یافت که مجوز دسترسی هم‌زمان به مکالمات Reddit را برای نمایش بیشتر آن در Google و مدل‌های آموزشی صادر کند. مقاله "چگونه از Google Trends برای پیشرفت سئو سایت استفاده کنیم؟" را از دست ندهید. گوگل قراردادی با Reddit برای دسترسی به تمام محتوای خود در...

گوگل از هوش مصنوعی برای تشخیص سریعتر بررسی های آنلاین جعلی استفاده می کند

گوگل بیش از 170 میلیون بررسی های آنلاین جعلی را مسدود می کند و از الگوریتم مبتنی بر هوش مصنوعی برای محافظت از شهرت مشاغل استفاده می کند. حتماً مقاله "چگونه از هوش مصنوعی برای آپدیت کردن محتوا وبلاگ قدیمی استفاده کنیم؟" را مطالعه کنید. هایلایت اخبار گوگل اکنون قادر است...

Google Maps جستجوی کسب و کار محلی مبتنی بر هوش مصنوعی را راه اندازی می کند

گوگل هوش مصنوعی را در Google Maps استفاده می کند تا توصیه های شخصی سازی شده برای کسب و کار محلی را پیشنهاد کند. حتماً مقاله "چگونه از هوش مصنوعی برای آپدیت کردن محتوا وبلاگ قدیمی استفاده کنیم؟" را مطالعه کنید. هایلایت اخبار Google Maps یک ویژگی هوش مصنوعی را برای...

Google Core Web Vitals در 12 مارس Interaction را به Next Paint اضافه می کند

اکنون تاریخ مشخصی را می دانیم که Google چه زمانی FID را با INP به عنوان معیار اصلی Web Vitals جایگزین می کند. در 12 مارس 2024، Google به‌عنوان معیار اصلی Web Vitals، تاخیر ورودی اول (FID) را با Interaction to Next Paint (INP) جایگزین می‌کند. خبر جایگزینی INP به FID...

ویژگی جدید Nearby Events and Deals برای مشاغل محلی

کادر جستجوی تازه معرفی شده "Nearby Events and Deals" دارای چهار بخش است که تبلیغات و رویدادهای کسب و کارهای اطراف را به نمایش می گذارد. گوگل در حال آزمایش روش لوکال سرچ جدیدی به نام رویدادها و معاملات نزدیک است. ویژگی جدید SERP که فقط برای جستجوهای محلی در دستگاه‌های...

آخرین مطالب وبلاگ

15 روش برای ایمن سازی سایت وردپرسی

آیا می‌خواهید از وب سایت وردپرس خود در برابر حملات سایبری مضر محافظت کنید؟ این نکات را دنبال کنید تا هکرها را از خود دور نگه دارید و عملکرد سئوی خود را ایمن کنید. به عنوان یک بازاریاب، کارشناس سئو یا برنامه نویس، می دانید که حفظ امنیت سایت وردپرس چقدر اهمیت دارد. از...

استراتژی UX یا تجربه کاربری چیست و چرا مهم است؟

کاربران مهم‌ترین عامل موفقیت یک وب‌سایت خوب هستند. اما با وجود بیش از 400 میلیون وب‌سایت فعال آنلاین در هر زمان، اجرای استراتژی تجربه کاربری (UX) مناسب برای جلب توجه کاربر دشوار است - چه رسد به اینکه آنها را به اندازه کافی علاقه مند نگه دارد تا آن‌ها را به مشتری شما...

چک لیست یک وب سایت خوب

چک لیست یک وب سایت خوب چیست؟ قبلا در مورد چک لیست سئو داخلی و چک لیست سئو خارجی صحبت کرده‌ایم، اما حالا نوبت چک لیست یک وب سایت خوب است! بر کسی پوشیده نیست که اینترنت کارها را برای مشاغل، دولت‌ها و سایر سازمان‌ها ساده‌تر کرده است. روزهایی که برای به رسمیت شناختن نام...

سرور VPS یا VDS، کدام یک مناسب تر است؟

آیا می‌خواهید در مورد سرور VPS یا VDS (سرور اختصاصی) بیشتر بدانید؟ در ادامه به تفاوت‌های کلیدی بین این دو می‌پردازیم و به شما کمک می‌کنیم تصمیم بگیرید کدام یک برای نیازهای شما مناسب‌تر است. انواع مختلفی از وب هاستینگ وجود دارد، اما سه نوع از محبوب‌ترین آن‌ها...

سایت ساز یا وردپرس، کدام یک بهتر است؟

برای کسانی که می‌خواهند برای اولین بار برای کسب‌وکار خود یک سایت راه بیندازند، همیشه یک چالش سخت وجود داشته است. چالش انتخاب بین سایت‌های وردپرسی و سایت‌های سایت ساز. وردپرس یک سیستم مدیریت محتوای (CMS) رایگان و open-source است و تقریباً یک سوم کل سایت‌های جهان...

مطالب پیشنهادی و داغ

چگونه کمپین گوگل ادز را مدیریت کنیم؟

همه ما گوگل ادز را دیده‌ایم. فرقی نمی‌کند آن را Google AdSense، AdWords یا Ads بنامید، آنها تبلیغاتی هستند که در نتایج جستجوی Google نمایش داده می‌شوند. یادگیری نحوه تنظیم آنها مهم است، اما یادگیری نحوه مدیریت و حفظ عملکرد آنها یک بازی کاملاً متفاوت است. در این...

ریتنشن مارکتینگ چیست؟ همه چیز در مورد بازاریابی حفظ مشتری

بازاریابی حفظ مشتری یا ریتنشن مارکتینگ یک استراتژی جدید نیست، اما قطعاً استراتژی‌ای است که سزاوار عشق و توجه بیشتری از طرف دیجیتال مارکترها است. تفکر اصلی ریتنشن مارکتینگ این است که داشتن 10 طرفدار متعصب برند ارزشمندتر است تا داشتن 100 مشتری ضعیف. 100 مشتری عادی ممکن...

راهنمای کامل انتخاب کلمات کلیدی

کلمات کلیدی اصلی‌ترین و تاثیرگذارترین بخش سئو هستند، اگر کسی به دنبال کاری که شما انجام می‌دهید یا مطالبی که می‌نویسید نگردد، طبیعتاً ترافیکی به دست نمی‌آورید. مهم نیست که محصولات، خدمات یا محتوای ارائه شده توسط شما چقدر باکیفیت باشد، هیچکس شما را نخواهید دید. برای...

چک لیست کامل سئو خارجی در سال 2022

سئو خارجی سایت یکی از مهم‌ترین ارکان هر سایت است. برای داشتن یک استراتژی کاملاً موفق برای پیشرفت وبسایت، آشنا شدن با فاکتورهای سئو خارجی بسیار مهم است. سئو خارجی شامل مجموعه فعالیت‌هایی است که در خارج از محیط وبسایت هدف انجام می‌شوند که در نهایت به پیشرفت سایت منجر...

آپدیت هسته مرکزی گوگل, می ۲۰۲۲

پی‌نوشت: هسته گوگل همان Google Core است. بعد از گذشت شش ماه، آپدیت جدید هسته گوگل منتشر شد. این آپدیت که با نام آپدیت هسته ای می 2022 معرفی شده است، در روز 25 می توسط Danny Sullivan اعلام شد. آخرین آپدیت هسته گوگل در ماه نوامبر 2021 اتفاق افتاده بود. متن اعلامیه آپدیت...