تحقیقات الگوریتم رتبه بندی گوگل TW-BERT را معرفی می‌کند

مقاله تحقیقاتی گوگل چارچوب قابل توجهی به نام TW-BERT را توصیف می‌کند که رتبه بندی جستجو را بدون نیاز به تغییرات عمده بهبود می‌بخشد.

مهم‌ترین بخش اخبار

  • TWBERT یک چارچوب وزن دهی عبارت پرس و جوی سرتاسری است که دو پارادایم را برای بهبود نتایج جستجو پیوند می‌دهد.
  • با مدل های بسط پرس و جو موجود ادغام می‌شود و عملکرد را بهبود می‌بخشد. استقرار چارچوب جدید به حداقل تغییرات نیاز دارد.
  • گوگل یک چارچوب رتبه بندی قابل توجه به نام Term Weighting BERT (TW-BERT) را معرفی کرد که نتایج جستجو را بهبود می‌بخشد و به راحتی در سیستم های رتبه بندی موجود به کار می‌رود.

اگرچه گوگل استفاده از TW-BERT را تایید نکرده است، این چارچوب جدید پیشرفتی است که فرآیندهای رتبه بندی را در سراسر صفحه بهبود می‌بخشد، از جمله در گسترش پرس و جو. همچنین استقرار آن آسان است، که به نظر من احتمال استفاده از آن را بیشتر می‌کند.

TW-BERT نویسندگان مشترک زیادی دارد، از جمله مارک ناجورک، دانشمند پژوهشی برجسته در Google DeepMind و مدیر ارشد سابق مهندسی تحقیقات در Google Research.

او مقالات تحقیقاتی بسیاری را در زمینه موضوعات مرتبط با فرآیندهای رتبه بندی و بسیاری از زمینه های دیگر تالیف کرده است.

در میان مقالات مارک نایورک به عنوان یکی از نویسندگان ذکر شده است:

  • در مورد بهینه سازی معیارهای Top-K برای مدل های رتبه بندی عصبی – 2022
  • مدل‌های زبان پویا برای محتوای در حال تکامل پیوسته – 2021
  • بازاندیشی جستجو: ساخت متخصصان دامنه از Dilettantes – 2021
  • تبدیل ویژگی برای مدل‌های رتبه‌بندی عصبی – – ۲۰۲۰
  • یادگیری تا رتبه با BERT در رتبه بندی TF – 2020
  • تطبیق متن معنایی برای اسناد طولانی – 2019
  • رتبه بندی TF: کتابخانه TensorFlow مقیاس پذیر برای یادگیری تا رتبه – 2018
  • چارچوب LambdaLoss برای رتبه بندی بهینه سازی متریک – 2018
  • آموزش رتبه بندی با سوگیری انتخاب در جستجوی شخصی – 2016

TW-BERT چیست؟

TW-BERT یک چارچوب رتبه‌بندی است که امتیازهایی (به نام وزن) را به کلمات درون یک عبارت جستجو اختصاص می‌دهد تا با دقت بیشتری مشخص کند چه اسنادی برای آن عبارت جستجو مرتبط هستند.

TW-BERT همچنین در Query Expansion مفید است.

Query Expansion فرآیندی است که یک عبارت جستجو را مجدداً بیان می‌کند یا کلمات بیشتری را به آن اضافه می‌کند (مانند افزودن کلمه “رسپی” به عبارت “سوپ مرغ”) تا جستجوی جستجو را بهتر با اسناد مطابقت دهد.

افزودن امتیاز به پرس و جو به آن کمک می‌کند تا بهتر تشخیص دهد که پرس و جو در مورد چیست.

دو پارادایم بازیابی اطلاعات پل های TW-BERT

مقاله تحقیق دو روش مختلف جستجو را مورد بحث قرار می‌دهد. یکی که مبتنی بر آمار است و دیگری مدل های یادگیری عمیق.

در ادامه بحثی در مورد مزایا و معایب این روش‌های مختلف وجود دارد و پیشنهاد می‌شود که TW-BERT راهی برای پل زدن این دو رویکرد بدون هیچ یک از کاستی‌ها است.

آنها می‌نویسند:

«این روش‌های بازیابی مبتنی بر آمار، جستجوی کارآمدی را ارائه می‌کنند که با اندازه پیکره افزایش می‌یابد و به حوزه‌های جدید تعمیم می‌یابد.

با این حال، عبارات به طور مستقل وزن داده می‌شوند و زمینه کل پرس و جو را در نظر نمی‌گیرند.”

محققان سپس خاطرنشان می‌کنند که مدل های یادگیری عمیق می‌توانند زمینه پرس و جوهای جستجو را کشف کنند.

توضیح داده شده است:

برای این مشکل، مدل‌های یادگیری عمیق می‌توانند این زمینه‌سازی را روی پرس و جو انجام دهند تا بازنمایی بهتری برای اصطلاحات فردی ارائه کنند.

آنچه محققان پیشنهاد می‌کنند استفاده از TW-Bert برای پل زدن این دو روش است.

پیشرفت شرح داده شده است:

ما این دو پارادایم را برای تعیین مرتبط‌ترین یا نامرتبط‌ترین عبارت‌های جستجو در جست‌وجو پیوند می‌دهیم…

سپس این عبارات را می‌توان با وزن بالا یا کاهش وزن کرد تا به سیستم بازیابی ما اجازه دهد نتایج مرتبط تری تولید کند.”

مثالی از وزن عبارت جستجوی TW-BERT

مقاله تحقیقاتی مثالی از عبارت جستجو، “کفش های دویدن نایک” را ارائه می‌دهد.

به عبارت ساده، کلمات “کفش های دویدن نایک” سه کلمه ای هستند که یک الگوریتم رتبه بندی باید به روشی که جستجوگر قصد درک آن را دارد بفهمد.

آنها توضیح می‌دهند که تأکید بر بخش «در حال اجرا» پرس و جو، نتایج جستجوی نامربوطی را نشان می‌دهد که حاوی مارک هایی غیر از نایک است.

در آن مثال، نام تجاری نایک مهم است و به همین دلیل فرآیند رتبه بندی باید مستلزم آن باشد که صفحات وب نامزد دارای کلمه نایک در آنها باشند.

صفحات وب کاندیدا صفحاتی هستند که برای نتایج جستجو در نظر گرفته می‌شوند.

کاری که TW-BERT انجام می‌دهد این است که برای هر قسمت از جستار جستجو امتیازی (به نام وزن دهی) ارائه می‌دهد تا به همان روشی که شخصی که درخواست جستجو را وارد کرده است، منطقی باشد.

در این مثال کلمه نایک مهم در نظر گرفته شده است، بنابراین باید به آن نمره (وزن) بالاتری داده شود.

محققان می‌نویسند:

بنابراین چالش این است که ما باید اطمینان حاصل کنیم که نایک به اندازه کافی وزن دارد و در عین حال کفش‌های دویدن را در نتایج برگشتی نهایی ارائه می‌کند.»

چالش دیگر این است که پس از آن مفهوم کلمات “دویدن” و “کفش” را درک کنید و این بدان معنی است که وزن برای پیوستن دو کلمه به عنوان یک عبارت، “کفش دویدن” به جای وزن کردن دو کلمه به طور مستقل، باید بیشتر متمایل شود.

این مشکل و راه حل توضیح داده شده است:

جنبه دوم این است که چگونه از اصطلاحات n-gram معنادارتر در طول امتیازدهی استفاده کنیم.

در جستار ما، اصطلاحات «دویدن» و «کفش» به طور مستقل مورد استفاده قرار می‌گیرند، که می‌توانند به همان اندازه با «جوراب‌های دویدن» یا «کفش‌های اسکیت» مطابقت داشته باشند.

در این مورد، ما می‌خواهیم که رتریور ما روی سطح عبارت n-gram کار کند تا نشان دهد که «کفش‌های دویدن» باید هنگام گلزنی وزن بیشتری داشته باشند.

حل محدودیت ها در چارچوب های فعلی

مقاله پژوهشی وزن‌دهی سنتی را به‌عنوان محدود بودن در تنوع پرس‌و‌جوها خلاصه می‌کند و اشاره می‌کند که آن روش‌های وزن‌دهی مبتنی بر آمار برای سناریوهای شات صفر عملکرد کمتری دارند.

یادگیری صفر شات اشاره ای به توانایی یک مدل برای حل مسئله ای است که برای آن آموزش ندیده است.

همچنین خلاصه‌ای از محدودیت‌های ذاتی روش‌های فعلی گسترش اصطلاح وجود دارد.

بسط اصطلاح زمانی است که از مترادف ها برای یافتن پاسخ های بیشتر برای پرس و جوهای جستجو یا زمانی که کلمه دیگری استنباط می‌شود استفاده می‌شود. به عنوان مثال، هنگامی‌که شخصی برای “سوپ مرغ” جستجو می‌کند، به معنای “دستور پخت سوپ مرغ” است.

TW-BERT پل دو رویکرد

راه حل پیشنهادی مانند یک رویکرد ترکیبی است. در نقل قول زیر، اصطلاح IR به معنای بازیابی اطلاعات است. آنها می‌نویسند:برای پر کردن شکاف، ما از استحکام بازیابی‌های واژگانی موجود با بازنمایی متن متنی ارائه شده توسط مدل‌های عمیق استفاده می‌کنیم.رتریورهای واژگانی در حال حاضر قابلیت تخصیص وزن به اصطلاحات n-gram را هنگام انجام بازیابی فراهم می‌کنند.ما از یک مدل زبان در این مرحله از خط لوله استفاده می‌کنیم تا وزن‌های مناسبی برای عبارت‌های n-gram پرس و جو ارائه کنیم.این اصطلاح وزن‌سازی BERT (TW-BERT) با استفاده از همان توابع امتیازدهی مورد استفاده در خط لوله بازیابی برای اطمینان از سازگاری بین آموزش و بازیابی بهینه شده است.این منجر به بهبود بازیابی در هنگام استفاده از وزن‌های مدت تولید شده TW-BERT می‌شود و در عین حال زیرساخت IR را مشابه مشابه تولید فعلی خود نگه می‌دارد.الگوریتم TW-BERT وزن‌هایی را به پرس‌و‌جوها اختصاص می‌دهد تا امتیاز مربوط به دقیق‌تری ارائه کند که بقیه مراحل رتبه‌بندی می‌توانند با آن کار کنند.

آیا گوگل در الگوریتم رتبه بندی خود از TW-BERT استفاده می‌کند؟

همانطور که قبلا ذکر شد، استقرار TW-BERT نسبتا آسان است. به نظر من، منطقی است که فرض کنیم سهولت استقرار، احتمال اضافه شدن این چارچوب به الگوریتم گوگل را افزایش می‌دهد.این بدان معناست که گوگل می‌تواند TW-BERT را به بخش رتبه بندی الگوریتم اضافه کند، بدون اینکه نیازی به به روز رسانی الگوریتم اصلی در مقیاس کامل باشد.جدای از سهولت استقرار، کیفیت دیگری که باید در حدس زدن اینکه آیا یک الگوریتم می‌تواند مورد استفاده قرار گیرد یا خیر، این است که الگوریتم تا چه حد در بهبود وضعیت فعلی هنر موفق است.مقالات تحقیقاتی زیادی وجود دارند که موفقیت محدودی دارند یا پیشرفتی ندارند. این الگوریتم‌ها جالب هستند، اما منطقی است که فرض کنیم در الگوریتم گوگل قرار نخواهند گرفت.موارد مورد علاقه آنهایی هستند که بسیار موفق هستند و این مورد در مورد TW-BERT است.TW-BERT بسیار موفق است. آنها گفتند که انداختن آن در یک الگوریتم رتبه‌بندی موجود آسان است و به همان اندازه «رتبه‌بندی عصبی متراکم» عمل می‌کند.

منبع خبر

admin

admin

0 Comments

Submit a Comment

دسته بندی‌ها

آخرین خبرها

آخرین مطالب وبلاگ

 مطالب پیشنهادی و داغ