فهرست
مقاله تحقیقاتی گوگل چارچوب قابل توجهی به نام TW-BERT را توصیف میکند که رتبه بندی جستجو را بدون نیاز به تغییرات عمده بهبود میبخشد.
مهمترین بخش اخبار
- TW–BERT یک چارچوب وزن دهی عبارت پرس و جوی سرتاسری است که دو پارادایم را برای بهبود نتایج جستجو پیوند میدهد.
- با مدل های بسط پرس و جو موجود ادغام میشود و عملکرد را بهبود میبخشد. استقرار چارچوب جدید به حداقل تغییرات نیاز دارد.
- گوگل یک چارچوب رتبه بندی قابل توجه به نام Term Weighting BERT (TW-BERT) را معرفی کرد که نتایج جستجو را بهبود میبخشد و به راحتی در سیستم های رتبه بندی موجود به کار میرود.
اگرچه گوگل استفاده از TW-BERT را تایید نکرده است، این چارچوب جدید پیشرفتی است که فرآیندهای رتبه بندی را در سراسر صفحه بهبود میبخشد، از جمله در گسترش پرس و جو. همچنین استقرار آن آسان است، که به نظر من احتمال استفاده از آن را بیشتر میکند.
TW-BERT نویسندگان مشترک زیادی دارد، از جمله مارک ناجورک، دانشمند پژوهشی برجسته در Google DeepMind و مدیر ارشد سابق مهندسی تحقیقات در Google Research.
او مقالات تحقیقاتی بسیاری را در زمینه موضوعات مرتبط با فرآیندهای رتبه بندی و بسیاری از زمینه های دیگر تالیف کرده است.
در میان مقالات مارک نایورک به عنوان یکی از نویسندگان ذکر شده است:
- در مورد بهینه سازی معیارهای Top-K برای مدل های رتبه بندی عصبی – 2022
- مدلهای زبان پویا برای محتوای در حال تکامل پیوسته – 2021
- بازاندیشی جستجو: ساخت متخصصان دامنه از Dilettantes – 2021
- تبدیل ویژگی برای مدلهای رتبهبندی عصبی – – ۲۰۲۰
- یادگیری تا رتبه با BERT در رتبه بندی TF – 2020
- تطبیق متن معنایی برای اسناد طولانی – 2019
- رتبه بندی TF: کتابخانه TensorFlow مقیاس پذیر برای یادگیری تا رتبه – 2018
- چارچوب LambdaLoss برای رتبه بندی بهینه سازی متریک – 2018
- آموزش رتبه بندی با سوگیری انتخاب در جستجوی شخصی – 2016
TW-BERT چیست؟
TW-BERT یک چارچوب رتبهبندی است که امتیازهایی (به نام وزن) را به کلمات درون یک عبارت جستجو اختصاص میدهد تا با دقت بیشتری مشخص کند چه اسنادی برای آن عبارت جستجو مرتبط هستند.
TW-BERT همچنین در Query Expansion مفید است.
Query Expansion فرآیندی است که یک عبارت جستجو را مجدداً بیان میکند یا کلمات بیشتری را به آن اضافه میکند (مانند افزودن کلمه “رسپی” به عبارت “سوپ مرغ”) تا جستجوی جستجو را بهتر با اسناد مطابقت دهد.
افزودن امتیاز به پرس و جو به آن کمک میکند تا بهتر تشخیص دهد که پرس و جو در مورد چیست.
دو پارادایم بازیابی اطلاعات پل های TW-BERT
مقاله تحقیق دو روش مختلف جستجو را مورد بحث قرار میدهد. یکی که مبتنی بر آمار است و دیگری مدل های یادگیری عمیق.
در ادامه بحثی در مورد مزایا و معایب این روشهای مختلف وجود دارد و پیشنهاد میشود که TW-BERT راهی برای پل زدن این دو رویکرد بدون هیچ یک از کاستیها است.
آنها مینویسند:
«این روشهای بازیابی مبتنی بر آمار، جستجوی کارآمدی را ارائه میکنند که با اندازه پیکره افزایش مییابد و به حوزههای جدید تعمیم مییابد.
با این حال، عبارات به طور مستقل وزن داده میشوند و زمینه کل پرس و جو را در نظر نمیگیرند.”
محققان سپس خاطرنشان میکنند که مدل های یادگیری عمیق میتوانند زمینه پرس و جوهای جستجو را کشف کنند.
توضیح داده شده است:
برای این مشکل، مدلهای یادگیری عمیق میتوانند این زمینهسازی را روی پرس و جو انجام دهند تا بازنمایی بهتری برای اصطلاحات فردی ارائه کنند.
آنچه محققان پیشنهاد میکنند استفاده از TW-Bert برای پل زدن این دو روش است.
پیشرفت شرح داده شده است:
ما این دو پارادایم را برای تعیین مرتبطترین یا نامرتبطترین عبارتهای جستجو در جستوجو پیوند میدهیم…
سپس این عبارات را میتوان با وزن بالا یا کاهش وزن کرد تا به سیستم بازیابی ما اجازه دهد نتایج مرتبط تری تولید کند.”
مثالی از وزن عبارت جستجوی TW-BERT
مقاله تحقیقاتی مثالی از عبارت جستجو، “کفش های دویدن نایک” را ارائه میدهد.
به عبارت ساده، کلمات “کفش های دویدن نایک” سه کلمه ای هستند که یک الگوریتم رتبه بندی باید به روشی که جستجوگر قصد درک آن را دارد بفهمد.
آنها توضیح میدهند که تأکید بر بخش «در حال اجرا» پرس و جو، نتایج جستجوی نامربوطی را نشان میدهد که حاوی مارک هایی غیر از نایک است.
در آن مثال، نام تجاری نایک مهم است و به همین دلیل فرآیند رتبه بندی باید مستلزم آن باشد که صفحات وب نامزد دارای کلمه نایک در آنها باشند.
صفحات وب کاندیدا صفحاتی هستند که برای نتایج جستجو در نظر گرفته میشوند.
کاری که TW-BERT انجام میدهد این است که برای هر قسمت از جستار جستجو امتیازی (به نام وزن دهی) ارائه میدهد تا به همان روشی که شخصی که درخواست جستجو را وارد کرده است، منطقی باشد.
در این مثال کلمه نایک مهم در نظر گرفته شده است، بنابراین باید به آن نمره (وزن) بالاتری داده شود.
محققان مینویسند:
بنابراین چالش این است که ما باید اطمینان حاصل کنیم که نایک به اندازه کافی وزن دارد و در عین حال کفشهای دویدن را در نتایج برگشتی نهایی ارائه میکند.»
چالش دیگر این است که پس از آن مفهوم کلمات “دویدن” و “کفش” را درک کنید و این بدان معنی است که وزن برای پیوستن دو کلمه به عنوان یک عبارت، “کفش دویدن” به جای وزن کردن دو کلمه به طور مستقل، باید بیشتر متمایل شود.
این مشکل و راه حل توضیح داده شده است:
جنبه دوم این است که چگونه از اصطلاحات n-gram معنادارتر در طول امتیازدهی استفاده کنیم.
در جستار ما، اصطلاحات «دویدن» و «کفش» به طور مستقل مورد استفاده قرار میگیرند، که میتوانند به همان اندازه با «جورابهای دویدن» یا «کفشهای اسکیت» مطابقت داشته باشند.
در این مورد، ما میخواهیم که رتریور ما روی سطح عبارت n-gram کار کند تا نشان دهد که «کفشهای دویدن» باید هنگام گلزنی وزن بیشتری داشته باشند.
حل محدودیت ها در چارچوب های فعلی
مقاله پژوهشی وزندهی سنتی را بهعنوان محدود بودن در تنوع پرسوجوها خلاصه میکند و اشاره میکند که آن روشهای وزندهی مبتنی بر آمار برای سناریوهای شات صفر عملکرد کمتری دارند.
یادگیری صفر شات اشاره ای به توانایی یک مدل برای حل مسئله ای است که برای آن آموزش ندیده است.
همچنین خلاصهای از محدودیتهای ذاتی روشهای فعلی گسترش اصطلاح وجود دارد.
بسط اصطلاح زمانی است که از مترادف ها برای یافتن پاسخ های بیشتر برای پرس و جوهای جستجو یا زمانی که کلمه دیگری استنباط میشود استفاده میشود. به عنوان مثال، هنگامیکه شخصی برای “سوپ مرغ” جستجو میکند، به معنای “دستور پخت سوپ مرغ” است.
TW-BERT پل دو رویکرد
راه حل پیشنهادی مانند یک رویکرد ترکیبی است. در نقل قول زیر، اصطلاح IR به معنای بازیابی اطلاعات است. آنها مینویسند:برای پر کردن شکاف، ما از استحکام بازیابیهای واژگانی موجود با بازنمایی متن متنی ارائه شده توسط مدلهای عمیق استفاده میکنیم.رتریورهای واژگانی در حال حاضر قابلیت تخصیص وزن به اصطلاحات n-gram را هنگام انجام بازیابی فراهم میکنند.ما از یک مدل زبان در این مرحله از خط لوله استفاده میکنیم تا وزنهای مناسبی برای عبارتهای n-gram پرس و جو ارائه کنیم.این اصطلاح وزنسازی BERT (TW-BERT) با استفاده از همان توابع امتیازدهی مورد استفاده در خط لوله بازیابی برای اطمینان از سازگاری بین آموزش و بازیابی بهینه شده است.این منجر به بهبود بازیابی در هنگام استفاده از وزنهای مدت تولید شده TW-BERT میشود و در عین حال زیرساخت IR را مشابه مشابه تولید فعلی خود نگه میدارد.الگوریتم TW-BERT وزنهایی را به پرسوجوها اختصاص میدهد تا امتیاز مربوط به دقیقتری ارائه کند که بقیه مراحل رتبهبندی میتوانند با آن کار کنند.
آیا گوگل در الگوریتم رتبه بندی خود از TW-BERT استفاده میکند؟
همانطور که قبلا ذکر شد، استقرار TW-BERT نسبتا آسان است. به نظر من، منطقی است که فرض کنیم سهولت استقرار، احتمال اضافه شدن این چارچوب به الگوریتم گوگل را افزایش میدهد.این بدان معناست که گوگل میتواند TW-BERT را به بخش رتبه بندی الگوریتم اضافه کند، بدون اینکه نیازی به به روز رسانی الگوریتم اصلی در مقیاس کامل باشد.جدای از سهولت استقرار، کیفیت دیگری که باید در حدس زدن اینکه آیا یک الگوریتم میتواند مورد استفاده قرار گیرد یا خیر، این است که الگوریتم تا چه حد در بهبود وضعیت فعلی هنر موفق است.مقالات تحقیقاتی زیادی وجود دارند که موفقیت محدودی دارند یا پیشرفتی ندارند. این الگوریتمها جالب هستند، اما منطقی است که فرض کنیم در الگوریتم گوگل قرار نخواهند گرفت.موارد مورد علاقه آنهایی هستند که بسیار موفق هستند و این مورد در مورد TW-BERT است.TW-BERT بسیار موفق است. آنها گفتند که انداختن آن در یک الگوریتم رتبهبندی موجود آسان است و به همان اندازه «رتبهبندی عصبی متراکم» عمل میکند.
منبع خبر
0 Comments