0% Complete
صفحه اصلی
/
پنجمین کنفرانس بین المللی محاسبات نرم
An Analysis of Text Similarity Measures: Introducing a Lin Wang similarity measure
نویسندگان :
Alireza Pakgohar
1
Mehdi Fazli Aghdaei
2
1- دانشگاه پیام نور
2- دانشگاه پیام نور
کلمات کلیدی :
Lin-Wong Divergence،Similarity Measure،Editing Distance،Text Mining،Similarity Algorithm،Distance Measure
چکیده :
Accurately measuring the similarity between texts is crucial for numerous natural language processing tasks, from plagiarism detection to information retrieval. This paper delves into various approaches to calculating text similarity, exploring their strengths and limitations. We begin by analyzing character-based methods, including the Jaro and N-gram algorithms, suitable for detecting typos and minor edits. Semantic and corpus-based approaches are then addressed, offering deeper insights into meaning and context. This includes techniques like Dice coefficient, Euclidean distance, and Cosine distance, which compare texts based on vector representations and set intersections. Finally, we introduce the statistically robust Lin-Wong Similarity measure, which quantifies the commonality between probability distributions of words, providing a powerful tool for capturing semantic similarity. By comparing and contrasting these diverse methods, we highlight the importance of choosing the right measure for the specific task and dataset. Moving forward, the paper identifies promising avenues for future research, suggesting the potential of knowledge graphs and deep learning techniques to further refine and advance the field of text similarity measurement. This comprehensive exploration equips researchers and practitioners with valuable knowledge and insights for analyzing and comparing textual data.
لیست مقالات
لیست مقالات بایگانی شده
انتخاب تامین کننده برای یک شرکت تولیدی در محیط فازی شهودی بازه ای مقدار
مدینه فرنام - مجید دره میرکی
بررسی مقایسهای الگوریتمهای شبکه عصبی کانولوشن و ماشین بردار پشتیبان در پیشبینی شدت تصادفات آزادراههای برونشهری
میثم عفتی - امیرمحمد رمضانپور
محاسبه طرح مربع لاتین در طرح آزمایشات منابع طبیعی با C#
ارغوان حبیبی بی بالانی - قاسم حبیبی بی بالانی
برخی از مسایل پیش روی سیستمهای خاکستری در محاسبات نرم
داود درویشی سلوکلایی - فرید پورافقی
3D intra-retinal layer segmentation of OCT data using modified live wire algorithm
Hamed Fahimi - Jalal Chachi
تشخیص بیماری عروق کرونر قلب با استفاده از تکنیک های داده کاوی
مریم قربانی شرفشاده - سید ابوالقاسم میرروشندل
پیشبینی قیمت طلا با استفاده از معماری ترکیبی حافظه کوتاه بلند مدت و شبکههای عصبی پیچشی
مهران پذیرش - حبیب ایزدخواه - کریم ایواز
کاربرد الگوریتم ژنتیک و شبکه عصبی برای پیش بینی فرار مالیاتی
مهرداد صدرآرا - زهرا جیلانی
استفاده از روش اجزای محدود برای مقایسه ی تاثیر مکانیکی مواد پرکننده متفاوت در بازسازی نقص استخوانی ناشی از تخلیه تومور استخوانی
مرجان پورغلامی - فرزانه صف شکن - احمد باقری - آزاده قوچانی
ارائه یک راهکار نیمه نظارتی جدید برای انتخاب اسپرم مناسب در درمان ناباروری
آصفه توکلی - سید ابوالقاسم میرروشندل - فاطمه قاسمیان
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.0.2