پروژه و پایان نامه مهندسی کامپیوتر و آی تی با عنوان ارائه مدلی جهت تخمین ارزش اطلاعات با استفاده از روشهای داده‌كاوی

 
مقدمه 
از هنگامی که رایانه در تحلیل و ذخیره سازی داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پایگاه داده ها دو برابر شد. ولی پس از گذشت دو دهه و همزمان با پیشرفت فن آوری اطلاعات(IT)  هر دو سال یکبار حجم داده ها، دو برابر شد. همچنین تعداد پایگاه داده ها با سرعت بیشتری رشد نمود. این در حالی است که تعداد متخصصین تحلیل داده ها و آمارشناسان با این سرعت رشد نكرد. حتی اگر چنین امری اتفاق می افتاد، بسیاری از پایگاه داده ها چنان گسترش یافته اند که شامل چندصد میلیون یا چندصد میلیارد رکورد ثبت شده هستند و امکان تحلیل و استخراج اطلاعات با روش های معمول آماری از دل انبوه داده ها مستلزم چند روز کار با رایانه- های موجود  است. 
 
حال با وجود سیستم های یکپارچه اطلاعاتی، سیستم های یکپارچه بانکی و تجارت الکترونیک، لحظه به لحظه به حجم داده ها در پایگاه داده های مربوط اضافه شده و باعث به وجود آمدن انبارهای ( توده های ) عظیمی از داده ها شده است به طوری که ضرورت کشف و استخراج سریع و دقیق دانش از این پایگاه داده ها را بیش از پیش نمایان کرده است (چنان که در عصر حاضر گفته می شود « اطلاعات طلاست» ). هم اکنون در هر کشور، سازمان ها، شرکت ها و . . . برای امور بازرگانی، پرسنلی، آموزشی، آماری و . . . پایگاه داده ها ایجاد یا خریداری شده است، به طوری که این پایگاه داده ها برای مدیران، برنامه ریزان، پژوهشگران و . . . جهت تصمیم گیری های راهبردی، تهیه گزارش های مختلف، توصیف وضعیت جاری خود و . . . می تواند مفید باشد. داده کاوی  یا استخراج و کشف سریع و دقیق اطلاعات با ارزش و پنهان از این پایگاه داده ها از جمله اموری است که هر کشور، سازمان و شرکتی به منظور توسعه علمی، فنی و اقتصادی خود به آن نیاز دارد. 
 
در کشور ما نیز سازمان ها، شرکت ها و مؤسسات دولتی و خصوصی به طور فزاینده ولی آهسته در حال ایجاد یا خرید نرم افزارهای پایگاه داده ها و مکانیزه کردن سیستم های اطلاعات خود هستند، همچنین با توجه به فصول دهم و یازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهای الکترونیکی و همچنین تأکید بر برخورداری کشور از فن آوری های جدید اطلاعات برای دستیابی آسان به اطلاعات داخلی و خارجی، دولت مکلف شده است امکانات لازم برای دستیابی آسان به اطلاعات، زمینه سازی برای اتصال کشور به شبکه های جهانی و ایجاد زیر ساخت های ارتباطی و شاهراه های اطلاعاتی فراهم کند. واضح است این امر باعث ایجاد پایگاه های عظیم داده ها شده و ضرورت استفاده از  داده کاوی  را بیش از پیش نمایان می سازد.
 
 
 
کلمات کلیدی:

پایگاه داده

خوشه بندی

روشهای داده‌كاوی

تخمین ارزش اطلاعات

کشف دانش و داده کاوی

 
 
 
 

سابقه داده کاوی

داده کاوی و کشف دانش در پایگاه داده ها از جمله موضوع هایی هستند که همزمان با ایجاد و استفاده از پایگاه داده ها در اوایل دهه 80 برای جستجوی دانش در داده ها شکل گرفت.شاید بتوان لوول (1983) را اولین شخصی دانست که گزارشی در مورد داده کاوی تحت عنوان « شبیه سازی فعالیت داده کاوی » ارائه نمود. همزمان با او پژوهشگران و متخصصان  علوم رایانه، آمار، هوش مصنوعی، یادگیری ماشین و . . . نیز به پژوهش در این زمینه و زمینه های مرتبط با آن پرداخته اند.پژوهش جدی روی موضوع داده کاوی از اوایل دهه 90 شروع شد. پژوهش ها و مطالعه های زیادی در این زمینه صورت گرفته، همچنین سمینارها، دوره های آموزشی و کنفرانس هایی نیز  برگزار شده است.
 
 نتایج پایه های نظری داده کاوی در تعدادی از مقاله های پژوهشی آورده شده است. مثلاً سال 1991 پیاتتسکی و شاپیرو  استقلال آماری قاعده ها در داده کاوی ا بررسی نموده اند. 1995 هافمن و نش استفاده از داده کاوی و داده انبار  توسط بانک های آمریکا را بررسی نموده و بیان کردند که چگونه این سیستم ها برای بانک های آمریکا قدرت رقابت بیشتری ایجاد می کنند. چت فیلد مشکلات ایجاد شده توسط داده کاوی را بررسی نمود و همچنین مقاله ای تحت عنوان « مدل های خطی غیر دقیق داده کاوی و استنباط آماری » ارایه نمود. هندری نیز دیدگاه اقتصاد سنجی روی داده کاوی را تهیه کرد. در این سال انجمن داده کاوی همزمان با اولین کنفرانس بین المللی «کشف دانش و داده کاوی» شروع به کار کرد. این کنفرانس توسعه یافته چهار دوره آموزشی بین المللی در پایگاه های داده درسال 1989 تا 1994 بود. انجمن مذكور، یک سازمان علمی به نام   ACM- SIGKDD را ایجاد نمود. سال 1996 ایمیلنسکی  و منیلا  دیدگاهی از داده کاوی به عنوان    «پرس و جو کننده از پایگاه های استنتاجی » را پیشنهاد کردند. فایاد، پیاتتسکی – شاپیرو، اودوراُسامی پیشرفت های کشف دانش و داده کاوی را عنوان کردند. در سال 1997 منیلا خلاصه ای از مطالعه روی اساس داده کاوی ارایه نمود. باربارا و همکاران نیز دیدگاه کاهش داده ها روی داده کاوی را در گزارش کاهش داده های نیوجرسی ارایه نمودند.
 
 
 
فهرست مطالب
مقدمه 1

فصل اول 9 1-1) داده کاوی و دلایل پیدایش آن10

2-1) پردازش اطلاعات، از فایلهای متنی  تا داده کاوی11
3-1) جایگاه داده کاوی12
4-1) مراحل یک فرآیند داده کاوی13
5-1)پایه های یک فرآیند داده کاوی13
6-1)خلاصه مطالب14
 
فصل دوم15

1-2) کاربردهای داده کاوی16

2-2) تکنیکهای داده کاوی20
3-2)درخت تصمیم – ابزار دسته بندی21
4-2)قوانین تداعی (انجمنی) 23
 
فصل سوم25

1-3) خوشه بندی 26

2-3)خوشه بندی سلسله مراتبی 28
3-3)انواع خطا در تشخیص ناهمگونی33
4-3)داده کاوی توزیع شده34
5-3)تکنیکها و رویکردها در داده کاوی توزیع شده36
 
فصل چهارم38

1-4) فناوری اطلاعات چیست؟39

2-4) زمینه‌های فناوری اطلاعات42
3-4)فناوری اطلاعات در دانشگاه‌های ایران42
 
فصل پنجم44  

1-5) اطلاعات چیست؟45

2-5) مسئلة و هدف پژوهش48
3-5)روش و گام‌های تحقیق49
4-5)ارزش اطلاعات نمونه در تصمیم‌گیری50
5-5)توسعة مدل51
6-5) روش آزمون مدل54
7-5)كاربرد‌های مدل60
8-5) راهكاری برای یافتن بهترین تركیب ارزش اطلاعات61
نتیجه گیری 64
منابع و مراجع  65