0% Complete
صفحه اصلی
/
پنجمین کنفرانس بین المللی محاسبات نرم
An Analysis of Text Similarity Measures: Introducing a Lin Wang similarity measure
نویسندگان :
Alireza Pakgohar
1
Mehdi Fazli Aghdaei
2
1- دانشگاه پیام نور
2- دانشگاه پیام نور
کلمات کلیدی :
Lin-Wong Divergence،Similarity Measure،Editing Distance،Text Mining،Similarity Algorithm،Distance Measure
چکیده :
Accurately measuring the similarity between texts is crucial for numerous natural language processing tasks, from plagiarism detection to information retrieval. This paper delves into various approaches to calculating text similarity, exploring their strengths and limitations. We begin by analyzing character-based methods, including the Jaro and N-gram algorithms, suitable for detecting typos and minor edits. Semantic and corpus-based approaches are then addressed, offering deeper insights into meaning and context. This includes techniques like Dice coefficient, Euclidean distance, and Cosine distance, which compare texts based on vector representations and set intersections. Finally, we introduce the statistically robust Lin-Wong Similarity measure, which quantifies the commonality between probability distributions of words, providing a powerful tool for capturing semantic similarity. By comparing and contrasting these diverse methods, we highlight the importance of choosing the right measure for the specific task and dataset. Moving forward, the paper identifies promising avenues for future research, suggesting the potential of knowledge graphs and deep learning techniques to further refine and advance the field of text similarity measurement. This comprehensive exploration equips researchers and practitioners with valuable knowledge and insights for analyzing and comparing textual data.
لیست مقالات
لیست مقالات بایگانی شده
استفاده از روش پویاشناسی سیستمها برای تحلیل بلندمدت بازار برق رقابتی
اسماعیل ابراهیمی - سید سعید محتوی پور
زمان بندی شیفت کاری پرستاران چند مهارته با رویکرد بهره وری نیروی انسانی (مطالعه موردی: بیمارستان قائم رشت)
حمزه امین طهماسبی - صابر ابراهیمی شیخانی
ارائه پروتکل جدید امنیتی به منظور مدیریت اعتماد در اینترنت اشیاء مبتنی بر منطق فازی
مجتبی زاهد خمیرانی - مرضیه فریدی ماسوله
خوشهبندی خودکار دادهها با استفاده از جستجوی محلی و الگوریتم بهینهسازی تبادل حرارتی
مهسا شریفی - مهدی هاشم زاده - شهین پوربهرامی
الگوریتم تقریبی برای مسئله حداقل پوشش راسی با رویکرد استراتژیک مبتنی بر توزیع درجات
معین منعمی - فاطمه ولیپور - روح الله عابدیان
ارائه روشی با استفاده از ترکیب دسته بندها، برای تشخیص و طبقه بندی بیماری تیروئید، مبتنی بر رأی اکثریت
ایمان سهرابی مقدم چافجیری - سید حسین علوی راد
Weighted residual strategy to solve distributed-order fractional differential equations
Reza Moeti
بررسی رفتار آتی قیمت بیت کوین با استفاده از مدل مبتنی بر شبکه های عصبی مصنوعی
نجمه نشاط - حمید توکلی - هانیه نعمت الهی
مروری بر هوشمند سازی مدارس و اثرپذیری آن بر روی خلاقیت دانش آموزان و ارائه راهکارهایی جهت نهادینه کردن آن
مرضیه لمترعلی
تعیین اندازه و مکان بهینه خازن به منظور بهبود ولتاژ و کاهش تلفات در شبکه توزیع با استفاده از الگوریتم های فراابتکاری
حمید حسن زاده فرد - جمشید محمدی اچموش - بهرام رمضانی - موسی شکوری
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.0.2