loading...
همه چیز از همه جا
mrx بازدید : 9 سه شنبه 29 دی 1394 نظرات (0)

واژه های مرتبط :  Map-Reduce, tfidf, K-Means clustering

مقدمه :

با توسعه سریع اینترنت، حجم عظیمی از اسناد باید در یک زمان کوتاه پردازش شود. تحقیق در وب کاوی در مورد  روش مقیاس پذیر و قابل انطباق با اسناد جمعی تمرکز دارد [1]. ذخیره سازی و محاسبات جرم داده های اسناد در یک سیستم توزیع شده یک روش جایگزین است [2]. در محاسبات توزیع شده، مشکل تقسیم وظایف است، به طوری که هر کدام توسط یک کامپیوتر حل شود. با این حال، بسیاری از مشکلات مانند برنامه ریزی کار، تحمل خطا و ارتباط بین دستگاه برای برنامه نویسان با تجربه کم، با سیستم موازی و توزیع شده بسیار مشکل است. در این مقاله ما تجربه ها و یافته های Document Clustering را بر اساس  Map-Reduce توصیف می کنیم. Map-Reduce [3] ، یک چارچوب است که برنامه نویسان تنها نیاز به مشخص نمودن تابع Map  و Reduce  دارند تا وظیفه های بزرگ را به صورت موازی در مورد خوشه های بزرگ بر روی ماشین آلات کالا اجرا نمایند. در مرحله پیش پردازش سند ، ما یک الگوریتم تکرار شونده برای محاسبه وزن tfidf در Map-Reduce  به منظور ارزیابی مهم بودن یک دوره برای  یک سند در یک مجموعه طراحی میکنیم. سپس یک Mean Cluster در Map Reduce اجرا می شود تا تمام اسناد رو به k خوشه تقسیم کند که هر سند متعلق به یک خوشه با همین معنا است. از همه مهمتر، در می یابیم که نادیده گرفتن شرایط با بالاترین فرکانس سند نمی تواند سرعت الگوریتم ما در Map-Reduce را بهبود ببخشد ، اما دقت خوشه سند را کمی بهبود می بخشد. آزمایش نشان می دهد که روش مار رشد تقریبا خطی  در زمان مورد نیاز در حال اجرا  با افزایش اندازه مجموعه برای مجموعه های حاوی  چند ده هزار سند خواهد داشت.

قیمت فایل فقط 13,500 تومان

خرید



جهت دانلود اینجا کلیک کنید
مطالب مرتبط
ارسال نظر برای این مطلب

کد امنیتی رفرش
اطلاعات کاربری
  • فراموشی رمز عبور؟
  • نویسندگان
    آمار سایت
  • کل مطالب : 30878
  • کل نظرات : 9
  • افراد آنلاین : 286
  • تعداد اعضا : 1
  • آی پی امروز : 568
  • آی پی دیروز : 504
  • بازدید امروز : 8,010
  • باردید دیروز : 3,458
  • گوگل امروز : 0
  • گوگل دیروز : 1
  • بازدید هفته : 11,468
  • بازدید ماه : 11,468
  • بازدید سال : 117,189
  • بازدید کلی : 2,247,402