0% Complete
صفحه اصلی
/
پنجمین کنفرانس بین المللی محاسبات نرم
An Analysis of Text Similarity Measures: Introducing a Lin Wang similarity measure
نویسندگان :
Alireza Pakgohar
1
Mehdi Fazli Aghdaei
2
1- دانشگاه پیام نور
2- دانشگاه پیام نور
کلمات کلیدی :
Lin-Wong Divergence،Similarity Measure،Editing Distance،Text Mining،Similarity Algorithm،Distance Measure
چکیده :
Accurately measuring the similarity between texts is crucial for numerous natural language processing tasks, from plagiarism detection to information retrieval. This paper delves into various approaches to calculating text similarity, exploring their strengths and limitations. We begin by analyzing character-based methods, including the Jaro and N-gram algorithms, suitable for detecting typos and minor edits. Semantic and corpus-based approaches are then addressed, offering deeper insights into meaning and context. This includes techniques like Dice coefficient, Euclidean distance, and Cosine distance, which compare texts based on vector representations and set intersections. Finally, we introduce the statistically robust Lin-Wong Similarity measure, which quantifies the commonality between probability distributions of words, providing a powerful tool for capturing semantic similarity. By comparing and contrasting these diverse methods, we highlight the importance of choosing the right measure for the specific task and dataset. Moving forward, the paper identifies promising avenues for future research, suggesting the potential of knowledge graphs and deep learning techniques to further refine and advance the field of text similarity measurement. This comprehensive exploration equips researchers and practitioners with valuable knowledge and insights for analyzing and comparing textual data.
لیست مقالات
لیست مقالات بایگانی شده
طبقه بندی سلول های خونی با استفاده از ساختار ترکیبی کانولوشنی عمیق مبتنی برمدل توجه کراس و ماشین بردار
سید محمد شاهرخی - وحید مهرداد - عبدالصمد حمیدی
دیداریسازی و ارزیابی نتایج مدلهای یادگیری آماری با استفاده از نقشههای کلاس به همراه ارائه نرمافزار کاربردی با تاکید بر دستنوشتههای فارسی
علیرضا کبورانی - موسی گلعلی زاده
طبقه بندی بتن های توانمند بر اساس معیار اسلامپ با استفاده از شبکه عصبی مصنوعی تشخیص الگو
سید امیر بنی مهد
Enhancing the Performance of Stochastic Iterative Projection Methods Using Quasi Random Numbers for Solving Linear Algebra Problems
Behrouz ّFathi Vajargah - Kolsoum Yousefpanah - Vassil Alexandrov
مدل سازی فازی جهش سلول های سرطانی
زکیه فربودی - حامی تورجی زاده - زهرا گورکانی زرندی
Efficient Transient Analysis of Overhead Lines Terminated with Lightning Arresters under Lightning Return Strokes
Saeed Reza Ostadzadeh
ارزیابی پروتکل های مسیر یابی شبکه های حسگر بیسیم
مائده ملت دوست اکبری - سید عبد الرضا حسام محسنی
An Extension of Fuzzy D-Subalgebras
Siroos Jahanpanah - Rohoollah Daneshpayeh
ترکیب شبکه عصبی کانولوشن و ماشین بردار پشتیبان برای طبقه بندی تصاویر فراطیفی
فرشته شریفی - امین ترابی جهرمی - احمد کشاورز
نواوری تجاری مبتنی بر هوش مصنوعی و چگونگی پیشرفت بلاکچین بواسطه رایانش ابری
مجید معتمدی - حسین عموزادخلیلی - قدسی فیروز
بیشتر
ثمین همایش، سامانه مدیریت کنفرانس ها و جشنواره ها - نگارش 42.0.2