0% Complete
صفحه اصلی
/
پنجمین کنفرانس بین المللی محاسبات نرم
An Analysis of Text Similarity Measures: Introducing a Lin Wang similarity measure
نویسندگان :
Alireza Pakgohar
1
Mehdi Fazli Aghdaei
2
1- دانشگاه پیام نور
2- دانشگاه پیام نور
کلمات کلیدی :
Lin-Wong Divergence،Similarity Measure،Editing Distance،Text Mining،Similarity Algorithm،Distance Measure
چکیده :
Accurately measuring the similarity between texts is crucial for numerous natural language processing tasks, from plagiarism detection to information retrieval. This paper delves into various approaches to calculating text similarity, exploring their strengths and limitations. We begin by analyzing character-based methods, including the Jaro and N-gram algorithms, suitable for detecting typos and minor edits. Semantic and corpus-based approaches are then addressed, offering deeper insights into meaning and context. This includes techniques like Dice coefficient, Euclidean distance, and Cosine distance, which compare texts based on vector representations and set intersections. Finally, we introduce the statistically robust Lin-Wong Similarity measure, which quantifies the commonality between probability distributions of words, providing a powerful tool for capturing semantic similarity. By comparing and contrasting these diverse methods, we highlight the importance of choosing the right measure for the specific task and dataset. Moving forward, the paper identifies promising avenues for future research, suggesting the potential of knowledge graphs and deep learning techniques to further refine and advance the field of text similarity measurement. This comprehensive exploration equips researchers and practitioners with valuable knowledge and insights for analyzing and comparing textual data.
لیست مقالات
لیست مقالات بایگانی شده
انتخاب سوییچهای بهینهسازی مناسب برای کامپایلر gcc با هدف افزایش سرعت اجرای برنامههای محاسباتی با استفاده از الگوریتم ژنتیک موازی
علی متقی - رضا مرتضوی
مدل پیشبینی برای تشخیص کووید19 با استفاده از آزمایشات روتین خون مبتنی بر مدل مخفی مارکوف و منطق فازی
امیرحسین رمضانی - مرضیه فریدی ماسوله - احمد باقری
پیشبینی ترافیک در شرایط نامساعدجوی با تکیه بر دادههای آبوهوایی و شبکه عصبی مصنوعی
میثم عفتی - بهزاد نسجی کاشی
مروری بر مدل های پذیرش سیستم های اطلاعاتی در بیمارستانها
حامد حشمتی - محمد جواد جمشیدی - مهدی حسین پور
حل مسائل کنترل بهینه بنگ-بنگ با استفاده از چندجملهایهای بل
آیتاله یاری - محمود دادخواه - رضا اکبری
Unveiling Superiority: Evaluating Bernoulli Matrix Factorization in Recommender Systems with Ciao Dataset Dominance
Hossein Pirhadi - Alireza Moumivnad - Rooholah Abedian - Amin Ghodousian
حل مسایل کنترل بهینه تاخیری کسری با استفاده از چندجملهایهای آبل
آیت اله یاری - راضیه حیدری
مروری بر تکنیک های کمّی تحلیل مسائل بهره وری در آموزش عالی
رضا طالب سربازی - محمود مرادی - نرجس زمانی
به دست آوردن جواب های تحلیلی دستگاه معادلات بوسینسک – برگرز کسری -زمانی به کمک روش ساده ترین معادله تعمیم یافته
زینب آیاتی
The use of Human Computer Interaction in the Medical Field: Challenges and Future Perspectives
Maryam Kassari - Abdorreza Hesam Mohseni
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.0.2