داده کاوی ، مفهوم و کاربرد آن

از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها در پايگاه داده ها دو برابر شد. ولي پس از گذشت دو دهه و همزمان با پيشرفت فن آوري اطلاعات(IT)  هر دو سال يکبار حجم داده ها، دو برابر شد. همچنين تعداد پايگاه داده ها با سرعت بيشتري رشد نمود. اين در حالي است که تعداد متخصصين تحليل داده ها و آمارشناسان با اين سرعت رشد نكرد. حتي اگر چنين امري اتفاق مي افتاد، بسياري از پايگاه داده ها چنان گسترش يافته اند که شامل چندصد ميليون يا چندصد ميليارد رکورد ثبت شده هستند و امکان تحليل و استخراج اطلاعات با روش هاي معمول آماري از دل انبوه داده ها مستلزم چند روز کار با رايانه- هاي موجود  است. حال با وجود سيستم هاي يکپارچه اطلاعاتي، سيستم هاي يکپارچه بانکي و تجارت الکترونيک، لحظه به لحظه به حجم داده ها در پايگاه داده هاي مربوط اضافه شده و باعث    به وجود آمدن انبارهاي ( توده هاي ) عظيمي از داده ها شده است به طوري که ضرورت کشف و استخراج سريع و دقيق دانش از اين پايگاه داده ها را بيش از پيش نمايان کرده است (چنان که در عصر حاضر گفته مي شود « اطلاعات طلاست» ).

هم اکنون در هر کشور، سازمان ها، شرکت ها و . . . براي امور بازرگاني، پرسنلي، آموزشي، آماري و . . . پايگاه داده ها ايجاد يا خريداري شده است، به طوري که اين پايگاه داده ها براي مديران، برنامه ريزان، پژوهشگران و . . . جهت تصميم گيري هاي راهبردي، تهيه گزارش هاي مختلف، توصيف وضعيت جاري خود و . . . مي تواند مفيد باشد. داده کاوي[1] يا استخراج و کشف سريع و دقيق اطلاعات با ارزش و پنهان از اين پايگاه داده ها از جمله اموري است که هر کشور، سازمان و شرکتي به منظور توسعه علمي، فني و اقتصادي خود به آن نياز دارد.

در کشور ما نيز سازمان ها، شرکت ها و مؤسسات دولتي و خصوصي به طور فزاينده ولي آهسته در حال ايجاد يا خريد نرم افزارهاي پايگاه داده ها و مکانيزه کردن سيستم هاي اطلاعات خود هستند، همچنين با توجه به فصول دهم و يازدهم قانون برنامه سوم توسعه در خصوص داد و ستدهاي الکترونيکي و همچنين تأکيد بر برخورداري کشور از فن آوري هاي جديد اطلاعات براي دستيابي آسان به اطلاعات داخلي و خارجي، دولت مکلف شده است امکانات لازم براي دستيابي آسان به اطلاعات، زمينه سازي براي اتصال کشور به شبکه هاي جهاني و ايجاد زير ساخت هاي ارتباطي و شاهراه هاي اطلاعاتي فراهم کند. واضح است اين امر باعث ايجاد پايگاه هاي عظيم داده ها شده و ضرورت استفاده از  داده کاوي  را بيش از پيش نمايان مي سازد.

سابقه داده کاوي

داده کاوي و کشف دانش در پايگاه داده ها از جمله موضوع هايي هستند که همزمان با ايجاد و استفاده از پايگاه داده ها در اوايل دهه 80 براي جستجوي دانش در داده ها شکل گرفت.

شايد بتوان لوول (1983) را اولين شخصي دانست که گزارشي در مورد داده کاوي تحت عنوان « شبيه سازي فعاليت داده کاوي » ارائه نمود. همزمان با او پژوهشگران و متخصصان  علوم رايانه، آمار، هوش مصنوعي، يادگيري ماشين و . . . نيز به پژوهش در اين زمينه و زمينه هاي مرتبط با آن پرداخته اند.

پژوهش جدي روي موضوع داده کاوي از اوايل دهه 90 شروع شد. پژوهش ها و مطالعه هاي زيادي در اين زمينه صورت گرفته، همچنين سمينارها، دوره هاي آموزشي و کنفرانس هايي نيز  برگزار شده است. نتايج پايه هاي نظري داده کاوي در تعدادي از مقاله هاي پژوهشي آورده شده است. مثلاً سال 1991 پياتتسکي و شاپيرو [2] « استقلال آماري قاعده ها در داده کاوي» را بررسي نموده اند. سال 1995 هافمن و نش استفاده از داده کاوي و داده انبار[3] توسط بانک هاي آمريکا را بررسي نموده و بيان کردند که چگونه اين سيستم ها براي بانک هاي آمريکا قدرت رقابت بيشتري ايجاد مي کنند. چت فيلد مشکلات ايجاد شده توسط داده کاوي را بررسي نمود و همچنين مقاله اي تحت عنوان            « مدل هاي خطي غير دقيق داده کاوي و استنباط آماري » ارايه نمود. هندري نيز ديدگاه اقتصاد سنجي روي داده کاوي را تهيه کرد. در اين سال انجمن داده کاوي همزمان با اولين کنفرانس بين المللي «کشف دانش و داده کاوي» شروع به کار کرد. اين کنفرانس توسعه يافته چهار دوره آموزشي بين المللي در پايگاه هاي داده درسال 1989 تا 1994 بود. انجمن مذكور، يک سازمان علمي به نام                  ACM- SIGKDD را ايجاد نمود. سال 1996 ايميلنسکي[4] و منيلا[5] ديدگاهي از داده کاوي به عنوان    «پرس و جو کننده از پايگاه هاي استنتاجي[6]» را پيشنهاد کردند. فاياد، پياتتسکي – شاپيرو، اودوراُسامي پيشرفت هاي کشف دانش و داده کاوي را عنوان کردند. در سال 1997 منيلا خلاصه اي از مطالعه روي اساس داده کاوي ارايه نمود. باربارا و همکاران نيز ديدگاه کاهش داده ها روي داده کاوي را در گزارش کاهش داده هاي نيوجرسي ارايه نمودند. همچنين مي توان براي كاربرد  داده کاوي

در مديريت مالي مي توان، تحليل داده هاي مالي و مدل سازي مالي بنينگاه و چاچ کز و هيگينز [7] را ملاحظه کرد فريدمن نيز مقاله اي در ارتباط با مفهوم آمار و داده کاوي ارايه نمود. سال 1998 هند [8] مقاله اي تحت عنوان « داده کاوي : آمار يا بيشتر؟ » ارائه نمود. کلينبرگ[9] پائوديميتريو و راغان [10] ديدگاه اقتصاد سنجي روي داده کاوي و عملکرد داده کاوي به عنوان يک مسئله بهينه را ارايه نمودند. در اين سال نيز کنفرانس هاي ناحيه اي و بين المللي در مورد داده کاوي برگزار شد که از جمله مي توان به کنفرانس آسيا و اقيانوسيه درباره کشف دانش و داده کاوي اشاره کرد. سال 2000 هند و همکاران و اسميت بحث هاي مقايسه اي بين آمار و داده کاوي را ارايه کردند. سري و استاوا، کولي، رش پاند و تن استفاده از وب در کاوش داده ها و کاربردهاي آن را ارايه کردند. سال 2002 کلاديو کانورسانو و همکاران « مدل آميخته چندگانه جمع پذير تعميم يافته » براي داده کاوي را بررسي نمودند. پائلو و گيانلوکاپاسرون، « داده کاوي ساختارهاي پيوند براي مدل رفتار مصرف کننده » را ارايه نمودند.

مفهوم داده کاوي

 عبارت داده کاوي مترادف با يکي از عبارت هاي استخراج دانش، برداشت اطلاعات، وارسي داده ها و حتي لايروبي کردن داده هاست که در حقيقت کشف دانش در پايگاه داده ها[11] (KDD ) را توصيف مي کند. بنابراين ايده اي که مبناي داده کاوي است يک فرآيند با اهميت از شناخت الگوهاي بالقوه مفيد، تازه و درنهايت قابل درک در داده هاست. واژه کشف دانش در پايگاه داده ها در اوايل دهه 80 در مراجعه به مفهوم کلي، گسترده، سطح بالا و به دنبال جستجوي دانش در اطلاعات شکل گرفته است. داده كاوي كاربرد سطح بالاي فنون و ابزار بكار برده شده براي معرفي و تحليل داده ها ي تصميم گيرندگان است.  اصطلاح داده کاوي را آمار شناسان، تحليل گران داده ها و انجمن سيستم هاي اطلاعات مديريت به کار برده اند در حالي که پژوهشگران يادگيري ماشين و هوش مصنوعي از KDD بيشتر استفاده مي کنند. در ادامه چند تعريف از داده کاوي ارائه مي شود.

1-                     «داده کاوي يا به تعبير ديگر کشف دانش در پايگاه داده ها، استخراج غير بديهي اطلاعات بالقوه مفيد از روي داده هايي است که قبلاً، ناشناخته مانده اند. اين مطلب برخي از روش هاي فني مانند خوشه بندي، خلاصه سازي داده ها، فراگيري قاعده هاي رده بندي، يافتن ارتباط شبکه ها، تحليل تغييرات و کشف بي قاعدگي را شامل مي شود » ( پياتتسکي شاپيرو، ماتئوس کريستوفر)

2-         « داده کاوي در حقيقت کشف ساختارهاي جالب توجه، غير منتظره و با ارزش از داخل مجموعه وسيعي از داده ها مي باشد و فعاليتي است که اساساً با آمار و تحليل دقيق داده ها منطبق است» هند (1998)

3-         « داده کاوي فرآيند کشف رابطه ها، الگوها و روندهاي جديد معني داري است که به بررسي حجم وسيعي از اطلاعات ذخيره شده در انبارهاي داده با فناوري هاي تشخيص الگو ( مانند رياضي و آمار )  مي پردازد». ( سايت[12] http://www.spss.com)

کشف دانش در پايگاه داده ها در جهت کشف اطلاعات مفيد از مجموعه بزرگ داده هاست. دانش کشف شده مي تواند قاعده اي باشد تا ويژگي هاي داده ها، الگوهايي که به طور متناسب رخ  مي دهند، خوشه بندي موضوع هاي درون پايگاه داده ها و غيره را توصيف مي کند.

يک کاربر سيستم KDD بايستي درک بالايي از قلمرو داده ها به منظور انتخاب زير مجموعه صحيحي از داده ها، رده مناسبي از الگوها و معيار خوبي براي الگوهاي جالب داشته باشد. بنابراين سيستم KDD بايد ابزارهايي با اثر تعاملي داشته باشد نه سيستم هاي تجزيه و تحليل خودکار. لذا کشف دانش از پايگاه داده ها بايد مثل يک فرآيند شامل گام هاي زير باشد:

1-    درک قلمرو

2-  آماده کردن مجموعه داده ها

3-  کشف الگوها (داده کاوي)

4-  پردازش بعد از کشف الگو

5-  استفاده از نتايج .

 

 

    

فرآيند داده‌كاوي

مي‌توان فرآيند داده‌كاوي را طي مراحل زير به صورت نمودار نشان داد.

منابع داده‌هاي خام

داده‌هاي مهيا شده

انبار داده‌ها

الگوي كشف شده

طرح يك فرضيه، پيشگويي

استخراج، ترجمه

و فراخواني

مهيا كردن داده‌ها

كشف الگو

تجزيه و تحليل الگو بو بهبود آن

 

 

 

 

 

 


در فرآيند بالا، داده‌هاي خام از منابع مختلفي جمع‌آوري مي‌شوند و از طريق استخراج، ترجمه و فرآيندهاي بازخواني به انبار داده‌ها وارد مي‌شوند. در بخش مهياسازي داده‌ها، داده‌ها از انبار خارج شده و به صورت يك فرمت مناسب براي داده‌كاوي درمي‌آيند. در بخش كشف الگو با روش‌هاي داده‌كاوي براي پاسخ به سؤال‌هاي خاصي كه به ذهن مي‌رسند، الگوريتم‌هايي را استخراج مي‌كنند و از اين الگوريتم‌ها براي ساخت الگو استفاده مي‌شود. در بخش تجزيه و تحليل الگو، الگوها به يك دانش مفيد و قابل استفاده تبديل مي‌شوند و پس از بهبود آن‌ها، الگوهايي كه كارا محسوب مي‌شوند در يك سيستم اجرايي به كار گرفته خواهند شد.

نرم‌افزارهاي داده‌كاوي

طي سال‌هاي گذشته جريان سريعي از تمايل به داده‌كاوي در بازارهاي نرم‌افزاري به وجود آمده است. بيشتر كاربران نرم‌افزارهاي داده‌كاو با تفكر استفاده تجاري از اين نرم‌افزارها، خواهان استفاده از آن شده‌اند. نرم‌افزارهاي داده‌كاو معمولاً سه روش مختلف را براي استفاده از داده‌كاوي به كار مي‌برند. 1) اكتشاف 2) استفاده از مدل‌هاي پيشگويي 3) استفاده از آناليز بحث و جدل.

اكتشاف،  فرآيند جستجو در داده‌هاست تا الگوهاي مخفي موجود در داده‌ها را بدون هيچ ايدة از پيش تعيين شده‌اي مشخص نمايد. در نرم‌افزارهاي داده‌كاوي مبتني بر مدل‌هاي پيشگويي، الگوهايي كه از يك بانك داده  كشف مي‌شوند، براي پيش‌بيني آينده به كار مي‌روند. مدل‌هاي پيش‌بيني به كاربر اجازه مي‌دهند تا داده‌هاي نامشخص را به كار ببرد و اين مقادير نامشخص توسط نرم‌افزار كشف شود.

در مدل‌هاي جدلي نيز الگوهاي يافت شده از داده‌ها براي تعيين مقادير غيرعادي به كار مي‌رود. براي تعيين مقادير غير عادي، ابتدا مي‌بايست مقادير عادي شناخته شود تا بر اين اساس مقادير غيرعادي و منحرف شناخته شوند.

نرم‌افزارهاي داده‌كاو در حال حاضر از فعاليت‌ كمتري نسبت به ساير نرم‌افزارهاي هوشمند برخوردار هستند. با اين وجود فعاليت تجاري اين نرم‌افزار را مي‌توان در شش بخش كلي، دسته‌بندي داده‌ها، برآورد مقادير نامشخص، پيش‌بيني مقادير نامشخص,  گروه‌بندي تقريبي داد‌ه‌ها، خوشه‌بندي داده‌ها و تشريح روابط بين داده‌ها تقسيم كرد.

داده‌كاوي و مديريت دانش

اگر چه دانش به طور انحصاري محصول فناوري اطلاعات نيست، ولي فناوري اطلاعات به طور لاينفكي در ايجاد دانش و فرآيند مديريت دانش از سال هاي اول مشاركت داشته است. امروزه مديريت دانش از مسئوليت هاي فناوري اطلاعات به شمار مي‌رود. زيرا در جمع‌آوري، تبديل دانش و انتقال داده‌ها، اطلاعات و دانش نقش كليدي دارد.

از منظر مديريت دانش‌، هدف داده‌كاوي، كشف دانش سازماني پنهان در اطلاعات خام است. اينگونه نيست كه هر بينش حاصل از داده‌كاوي دانش مي‌سازد، بلكه در عوض بسياري از نتايج به دست آمده، اطلاعات مديريت، يا هوش سازماني است. مثلاً در سازمان‌هاي تجاري، دانش با ارزش

مورد مشتري، محصول و بازار را مي‌توان از طريق داده‌كاوي به دست آورد. داده‌كاوي ابزار مفيدي براي مديران دانش است كه كشف را با تحليل تلفيق مي‌كنند. تلفيقي كه اغلب منجر به ايجاد دانش مي‌شود.

كاربرد داده‌كاوي در آموزش عالي

با توجه به اينكه آموزش عالي همواره با داده‌ها و اطلاعات بسيار زيادي در مورد دانشگاه‌ها، دانشجويان، اعضاي هيئت علمي، پرسنل، منابع مادي و... روبروست و در اكثر مواقع اين داده‌ها مي‌تواند حامل اطلاعات و الگوهاي باارزشي باشند، لذا به نظر مي‌رسد يكي از مهمترين كاربردهاي داده‌كاوي در آموزش عالي است. امروز بانك‌هاي اطلاعاتي وسيعي از ويژگي‌هاي دانشجويان موجود است كه اطلاعات مربوط به ويژگي‌هاي خانوادگي، تحصيلي و ... را شامل مي‌شود. پيدا كردن الگوها و دانش نهفته در اين اطلاعات مي‌تواند به تصميم‌گيرندگان عرصه آموزش عالي كمك شاياني بكند. استفاده از تكنيك‌هاي پيشرفته داده‌كاوي مانند خوشه‌بندي، طبقه‌بندي، و ... مي‌تواند در طبقه‌بندي دانشگاه‌ها، يافتن الگوهاي خاص و با ارزش در مورد دانشجويان موفق، يافتن يك برنامه يا روش موفق تدريس، يافتن نقاط بحراني در مديريت مالي دانشگاه‌ها و موارد ديگر كاربرد داشته باشد.

نتيجه گيري

شركت‌ها، سازمان‌ها، دانشگاه‌ها و مؤسسات آموزش عالي امروزي غرق در انبوه داده‌ها و اطلاعاتي هستند كه استفاده از آنها در بيشتر موارد محدود به انجام كارهاي جاري مي‌باشد و هنوز از داده‌ها در تصميم‌گيري استراتژيك استفاده نمي‌شود. داده‌كاوي كه استفاده از آن روز به روز توسعه مي‌يابد مي‌تواند به استفاده از اطلاعات موجود در مؤسسات و مراكز آموزش عالي در زمينه‌هاي

تصميم‌گيري  استراتژيك منجر شود.

 

 

 

 

 

 

 

 

 

 

منابع:

1-    مهريزي، حائري، علي اصغر ، «داده‌كاوي: مفاهيم، روش‌ها و كاربردها» (1382) پايان‌نامه كارشناسي ارشد آمار اقتصادي و اجتماعي، دانشكده اقتصاد، دانشگاه علامه طباطبائي.

2- زعفريان، رضا و زعفريان،قاسم، «مروري بر داده‌كاوي» (1380) فصلنامه صنايع، شماره 29

3- شاه‌سمندي، پرستو «داده‌كاوي در مديريت ارتباط با مشتري» (1384)، مجله تدبير شماره 156.

4-    گودرزي، حميدرضا، مترجم «داده‌كاوي چيست»، نشريه گزيده مطالب آماري، مركز آمار ايران، شماره 52. 

5) Hand. D.J (1998): "Review of Data mining", The American statistician, 52, 112-118.



[1] - Data mining

[2] - piatetsky-shapiro

[3]- Data warehouse

[4]- Imielnski

[5] - Mannila

[6] - Inductive databases

[7] - Benninga, Czaczkes, Higgins

[8] - Hand

[9] - Kleinberg

[10] - Paodimitriou , Raghavan

[11] - Knowledge Discovery of Database

1- اين سايت يکي از معتبرترين سايت ها در زمينه آمار و داده کاوي است.


مطالب مشابه :


آموزش نرم افزار داده کاوی وکا weka

پروژه های داده کاوی انجام پروژه های داده کاوی با نرم افزار rapidminer ،clementine12، weka




انجام پروژه های داده کاوی با نرم افزار وکا weka

انجام پروژه های داده کاوی با نرم افزار weka clementine12 spss modeler14.2 rapidminer توسط مهندس حسینی در کوتاه




آشنایی با نرم افزار های داده کاوی

انجام پروژه های داده کاوی كارهايي كه Weka تاكنون در اين بخش انجام داده است با برچسب




انجام پروژه های داده کاوی

انجام پروژه های داده کاوی با قیمت مناسب و ارزان و با کیفیت بالا انجام می شود:-پروژه با موضوع




داده کاوی ، مفهوم و کاربرد آن

از هنگامي که رايانه در تحليل و ذخيره سازي داده ها بکار رفت (1950) پس از حدود 20 سال، حجم داده ها




آشنایی با داده کاوی

الگوريتم‌هاي وابستگي با بررسي داده‌ها و محاسبه‌ي اطمينان و پشتيباني، و با مرتب كردن آنها




سیستم مدیریت پایگاه داده

اجزای سیستم مدیریت پایگاه داده. وظایف dbms توسط تعدادی مولفه نرم افزاری انجام می شود.




داده‌كاوي در مديريت ارتباط با مشتري

انجام پروژه های داده کاوی نظير تحليل‌هايي كه برحسب كالاهاي خريداري شده انجام مي‌شود.




جايگاه داده‌كاوي در مديريت دانش

انجام پروژه های داده کاوی براي انجام داده‌كاوي از ابزار مختلف نظير:




برچسب :