روش های آماری گیری

800x600
فصل اول: روش های آماری اهداف این فصل · توضیح روش های استنتاج آماری که معمولاً در داده کاوی استفاده می شود. · تشخیص پارامترهای آماری مختلف به منظور تقریب سازی اختلاف موجود در داده ها. · توصیف مولفه ها و اصول اساسی ممیز کننده های Navia Bayesian و روش رگرسیون Logistic. · معرفی مدل های log خطی با استفاده از تحلیل متناظر جداول توافقی. · بحث و بررسی در مورد مفاهیم آنالیز واریانس (Anova) و تحلیل ممیزی خطی نمونه های چند بعدی. آمار علم جمع آوری و سازماندهی داده ها و استخراج نتایج از این مجموعه های داده ها است. سازماندهی و توصیف مشخصات عمومی مجموعه داده ها از اهداف آمار توصیفی و چگونگی استخراج نتایج از داده ها، از اهداف استنتاج آماری است. در این فصل، تاکید روی اصول اساسی استنتاج آماری است و عناوین مرتبط دیگر به طور خلاصه و فقط برای درک مفاهیم اساسی توضیح داده خواهد شد. دامنه این تحلیل ها از تحلیل داده های یک بعدی تا تحلیل داده های چند متغیره تشکیل شده است. علم آمار روش های مختلفی را برای داده کاوی پیشنهاد می کند که شامل انواع مختلف رگرسیون و تحلیل ممیزی مبین می باشد. ایم بازبینی کوتاه از روش های آماری که فرآیند داده کاوی را پیشنهاد می کند همه روش ها را پوشش نخواهد داد و تکنیک هایی که بیشتر در داده کاوی جهان واقعی استفاده می شود بیان شده است. 1. استنتاج آماری تمام مشاهداتی که در تحلیل آماری مورد استفاده قرار می گیرند، اعم از این که تعداد این مشاهدات متناهی یا غیر متناهی باشند تشکیل دهنده چیزی هستند که ما آن را جامعه می نامیم. این اصطلاح به گروهی از افراد اشیا یا رویدادها اطلاق می شود. تعداد مشاهدات در جامعه به عنوان اندازه جامعه تعریف می شود. عموما جامعه ممکن است متناهی یا نا متناهی باشد، اما در تئوری، جامعه متناهی خیلی بزرگ را نامتناهی فرض می کنیم. در استنتاج آماری علاقه مندیم هنگامی که مشاهده کلی مشاهدات جامعه غیر ممکن یا غیر عملی است، به نتایجی در مورد جامعه برسیم. به عنوان مثال هنگام مبادرت به تعیین میانگین طول عمر لامپ های روشنایی مارک خاصی، تست همه لامپ ها غیر عملی خواهد بود. بنابراین ما باید به زیر مجموعه مشاهدات جامعه برای تحلیل آماری بسنده کنیم. در آمار مجموعه ای از یک جامعه نمونه نامیده می شود و این بردارهای n بعدی را از مجموعه داده های متناهی توصیف می کند. در سراسر این کتاب ما این زیر مجموعه از جامعه را مجموعه داده ها می نامیم. ما از جامعه یک مدل آماری می سازیم که به ما در تعمیم استنتاج به جامعه مشابه این جامعه کمک می کند و برای این که برداشت ما از مجموعه داده ها درست باشد باید نمونه ای انتخاب کنیم که نماینده جامعه باشند. چنانچه سعی به انتخاب مجموعه ای با مناسب ترین اعضای جامعه را داشته باشیم، از آنجایی که یک شیوه ممکن است منجر به استنتاج نادرست و تعمیم آن به جامعه شود و هر رویه ای که موجب زیاد برآورد کردن یا کم برآورد کردن بعضی مشخصات جامعه شود گفته می شود که به یک طرف متمایل شده است، برای رفع هر گونه انحرافی در روال یا فرآیند نمونه گیری مطلوب است که مجموعه داده ها به طور تصادفی و مستقل انتخاب گردد. هدف اصلی انتخاب نمونه های تصادفی استخراج اطلاعات درباره پارامترهای ناشناخته جامعه است. ارتباط میان مجموعه داده ها و سیستم ممکن است توسط استدلال قیاسی توصیف شود: از داده های مشاهده شده به دانش یک سیستم ناشناخته (تا حدودی ناشناخته) استنتاج آماری صورت اصلی استدلال مربوط به تحلیل داده ها است. تئوری استنتاج آماری شامل روش هایی برای استنتاج یا تعمیم نتایج به جامعه است. این روش ها در دو دسته اصلی قرار میگیرند: برآورد و آزمون فرضیه ها. در فرآیند برآورد می خواهیم از یک مقدار محتمل یا بازه ای از مقادیر محتمل به پارامترهای ناشناخته سیستم برسیم، هدف اصلی دستیابی به اطلاعات از مجموعه T برای برآورد یک یا چند پارامتر W که به مدلی از سیستم واقعی تعلق دارد می باشد. (X,w)f. یک مجموعه داده T به وسیله مقادیر n تایی برای متغیرهای x={x1,x2,…,xn} توصیف می شود (صفات موجودیت ها در جامعه): این عبارت می تواند در یک جدول به عنوان مجموعه ای از نمونه ها با مقادیر متناظر برای هر مشخصه سازماندهی شود. هنگامی که پارامتر های مدل، تخمین زده شوند، می توانیم از آن ها برای پیشگویی در مورد متغیر تصادفی y از مجموعه اولیه صفات Y € X براساس دیگر متغیرها یا مجموعه ای از متغیرها X = X – Y استفاده کنیم اگر Y یک کمیت عددی باشد در مورد رگرسیون صحبت می کنیم و اگر مقادیری از یک مجموعه گسسته، نادرست باشد در مورد بسته بندی صحبت خواهیم نمود. هرگاه تخمین هایی برای مدل پارامترهای w از مجموعه داده T به دست آوریم، ممکن است از مدل منتج شده برای پیشگویی در مورد Y استفاده کنیم. وقتی که مقدار متناظر بردار X را داریم. اختلاف میان پیشگویی (X,w)f و مقدار واقعی Y خطای پیشگویی نامیده می شود. این خطا باید ترجیحا مقادیر نزدیک به صفر به خود بگیرد. یک برآورد و سنجش کیفیت طبیعی از یک مدل (X,w)f به عنوان یک پیشگویی کننده Y میانگین مربع خطای قابل انتظار برای هر مجموعه داده T است. آزمون های آماری قصد دارند تا فرض مربوط به مقدار مشخصه جامعه در یک تحلیل از مجموعه داده ها را قبول یا رد کنند. یک فرض آماری یک ادعا یا حدس مربوط به یک یا چند جامعه است. صحت و سقم یک فرض آماری هرگز با اطمینان مطلق قابل بررسی نیست مگر این که همه جامعه را امتحان کنیم که البته این در حداکثر مواقع غیر عملی است و گاهی اوقات حتی غیر ممکن است. در عوض ما فرض را روی مجموعه داده های انتخاب شده به طور تصادفی امتحان می کنیم. چنانچه مدارک به دست آمده از مجموعه داده متناقض با فرض اظهار شده باشد، آن فرض رد می شود و چنانچه تأیید کننده فرض باشند این موجب پذیرش آن فرض می شود، به طور دقیق تر باید گفت که داده ها مدارک کافی برای رد آن فرض را ندارد. ساختار آزمون فرض با استفاده از عبارت فرض تهی تنظیم می شود. این بدین معنی است فرضی که بخواهیم تست کنیم با H0 فقط در صورتی که فرض نادرست نباشد رد می شود. رد H0 منجر به پذیرش یک فرض دیگر در جامعه می شود. در این فصل بعضی روش های تخمین آماری و آزمون فرض با جزئیات بیشتر توضیح داده می شوند. که این روش ها بر پایه تکنیک های کاربردی در فرآیند داده کاوی روی مجموعه داده بزرگ انتخاب شده اند. 2. تشخیص تفاوت ها در مجموعه داده در تعداد زیادی از وظایف داده کاوی بررسی مشخصه های عمومی بیشتری در مورد مجموعه داده ها هم در مورد گرایش اصلی و هم در مورد پراکندگی آنها یک امر کاملاً مفید است. این پارامترهای ساده از مجموعه داده توصیف گرهای واضحی برای شناخت تفاوت های میان مجموعه های داده مختلف هستند. سنجش های موردی گرایش اصلی شامل میانگین، میانه و مد (نما) و مشخص کننده های پراکندگی شامل واریانس و انحراف معیار می باشد. متداول ترین و موثرترین سنجش عددی برای مرکز مجموعه داده ها، مقدار میانگین آن است که میانگین حسابی نیز نامیده می شود. برای مجموعه با n مقدار عددی x1,x2,…,xn برای مشخصه معلوم X میانگین عبارت است از: و این تابع پیش ساخته در ابزارهای نرم افزاری آماری جدید می باشد. برای هر ویژگی عددی در مجموعه نمونه n بعدی، محاسبه مقدار میانگین به عنوان خصیصه گرایش مرکزی برای این ویژگی امکان پذیر است. گاهی ممکن است به هر مقدار Xi در مجموعه وزن Wi اختصاص داده شود که میزان اهمیت یا فراوانی مقدار را منعکس می کند. در این حالت میانگین حسابی وزنی یا مقدار متوسط وزن ها عبارت است از: اگر چه میانگین مفیدترین مقداری است که ما می توانیم برای مجموعه ای از داده ها در نظر بگیریم، ولی باید توجه داشت که این تنها مقدار ممکن نیست. برای مجموعه داده های نا متقارن، شاخص مرکزی بهتری به نام میانه وجود دارد. اگر تعداد عناصر مجموعه فرد باشد، مقدار میانه مجموعه مرتب شده از مقادیر ویژگی می باشد و در مجموعه با تعداد عناصر زوج برابر است با میانگین دو عدد وسط. اگر x1,x2,…,xn یک مجموعه با n عضو را نشان دهد، به ترتیب صعودی مرتب می گردند و سپس میانه عبارت است از: سنجش دیگر گرایش مرکزی مجموعه داده ها مد می باشد. مد برای مجموعه ای از داده ها مقداری است که بالاترین فراوانی را در مجموعه داشته باشد. هنگامی که میانه و میانگین مشخصه های مجموعه داده های عددی باشند، مد می تواند بر روی داده های رده بندی نیز اعمال شود. اما این باید با دقت تفسیر گردد. زیرا داده ها مرتب نمی شود. ممکن است بزرگترین فراوانی متناظر با مقادیر مختلف در مجموعه داده باشند. نتیجتا برای یک مجموعه داده بیشتر از یک مد وجود دارد. بنابراین مجموعه های داده را به صورت تک نمایی و چند نمایی دسته بندی می کنیم. مجموعه داده های چند مدی ممکن است دقیقا به صورت دو نمایی، سه نمایی و غیره نمایش داده شوند. برای منحنی های فراوانی تک نمایی که تا حدودی همواره باشند رابطه تجربی زیر را برای مجموعه های داده عددی داریم: ممکن است برای یک تحلیل توزیع مجموعه داده ها و برآورد سنجش یک گرایش مرکزی مبتنی بر دو تای دیگر استفاده شود. به عنوان مثال اجازه دهید این سه مشخصه را روی مجموعه داده های ساده T که شامل مقادیر عددی زیر هستند، تحلیل کنیم: بعد از فرآیند مرتب سازی مجموعه داده ها عبارت است از: شاخص ها و سنجش های آماری توصیفی متناظر برای گرایش مرکزی عبارتند از: درجه که در حقیقت میزان گرایش داده های عددی به انتشار می باشد، پراکندگی داده ای نامیده می شود و متداول ترین سنجش های پراکندگی، انحراف معیار و واریانس می باشند. واریانس n مقدار عددی x1,x2,…,xn به صورت زیر می باشد: انحراف معیار، ریشه دوم واریانس می باشد. خواص اصلی انحراف معیار به عنوان یک سنجش توزیع و پراکندگی به صورت زیر می باشد. 1. انحراف معیار، پراکندگی مربوط به میانگین را مورد سنجش قرار داده و میتواند تنها زمانی مورد استفاده قرار گیرد که میانگین به عنوان سنجش یک مرکز انتخاب شود. 2. =0σ می باشد تنها زمانی که هیچگونه پراکندگی در داده ها وجود نداشته باشد یعنی زمانی که تمام سنجش ها و اندازه گیری ها دارای مقدار یکسانی باشد، در غیر اینصورت >0σ می باشد. برای مجموعه داده های ارائه شده در مثال واریانس و انحراف معیار به صورت زیر می باشد: در بسیاری از ابزارهای نرم افزاری، یک ابزار تجسم سازی مورد استفاده مرسوم از آمار توصیفی برای گرایش مرکزی مورد سنجش قرار می گیرد و پراکندگی یک ترسیم جعبه ای می باشد که در شکل 1ـ5 ارائه شده است. 3. استنتاج Bayesian تصور وضعیتی که در آن مجموعه داده ها تنها منابع در دسترس درباره جامعه یا درباره سیستم های تحت مدل سازی باشند کار آن چنان سختی نمی باشد. شیوه Bayesian نشان دهنده روش و راهی است که اطلاعات خارجی را به شکلی با فرآیند تحلیل داده ها مرتبط کند. این فرآیند کار خود را با توزیع احتمال مشخصی برای مجموعه داده های تحلیل شده شروع می کند. همان گونه که این توزیع قبل از هیچ تفکری در خصوص داده ها، آماده می شود توزیع پیشین نامیده می شود. مجموعه داده جدید توزیع پیشین را به توزیع پسین تغییر می دهد. ابزار اصلی برای این تغییر قضیه بیز است. قضیه بیز زمینه تئوری را برای شیوه آماری به استنباط استقرایی مسائل رده بندی بیان می کند. ما ابتدا مفاهیم اصلی قضیه بیز را توضیح خواهیم داد و سپس از این قضیه در توضیح فرآیند رده بندی Naïve Bayesian یا رده بندی ساده Bayesian استفاده خواهیم کرد. فرض کنید X نمونه داده ای است که کلاس آن نامشخص است و فرض کنید که H فرضیه ای باشد که نمونه داده X به کلاس معین c تعلق دارد. ما می خواهیم (H / X)P یعنی احتمال اینکه فرضیه H نمونه داده های مشاهده شده X را برقرار کنند تعیین می کنیم. (H / X)P احتمال پسین نشان دهنده اطمینان ما در فرض بعد از این که X ارائه شده می باشد. در این مقایسه P(X) احتمال پیشین H برای هر نمونه صرفنظر از چگونگی دیده شده داده در نمونه و احتمال پسین (H / X)P بر پایه اطلاعات بیشتر از احتمال پیشین P(H) می باشد. تئوری بیز برای محاسبه احتمالی پسین (H / X)P از احتمالات P(X) ، P(H) و (X / H)P را استفاده می کنند رابطه اصلی عبارت است از: فرض کنید یک مجموعه m نمونه ای مانند S = {S1,S2,…,Sm} وجود داشته باشد به نحوی که هر نمونه Si به عنوان یک بردار n بعدی {X1,X2,…,Xn} نشان داده می شود. مقادیر Xi به ترتیب به صفات A1,A2,…An مربوط است. یک نمونه داده X اضافی ارائه شده است. امکان پیشگویی این مسئله وجود دارد که کلاس X بیشترین احتمال شرطی P(Ci / K) را دارا باشد. در جایی که i = 1,…,k این اساس نظریه رده بندهای Naïve Bayesian است که با استفاده از قضیه بیز محاسبه می شود. P(X) برای تمام کلاس ها ثابت است. فقط نیاز است که حاصل P(Ci). P(X / Ci) به حداکثر رسانی شود. ما احتمال پسین کلاس را به صورت زیر محاسبه می کنیم: تعداد کل نمونه ها / تعداد نمونه های کلاسP(Ci) = از آن جا که محاسبه P(X / Ci) بینهایت پیچیده است، به ویژه برای مجموعه داده بزرگ استقلال شرطی بین صفات در نظر گرفته می شود. در نتیجه می توان P(X / Ci) را با فرمول زیر بیان کرد.: به نحوی که Xt مقادیری برای صفات در نمونه X هستند. احتمال P(Xt / Ci) می تواند از مجموعه داده آموزشی تخمین زده شده باشد. در تئوری رده بند Bayesian حداقل میزان خطا را نسبت به تمام رده بندهای دیگر در داده کاوی داراست. گرچه عملا این موضوع همیشه به علت اشتباه در فرض های صفات و استقلال کلاس شرطی درست نیست. 4. رگرسیون پیشگو پیشگویی مقادیر پیوسته می تواند توسط تکنیک های آماری که رگرسیون نامیده می شود، مدل سازی شود. هدف تحلیل رگرسیون، تعیین بهترین مدلی است که بتواند متغیر خروجی با متغیرهای ورودی متعدد را تعیین کند. در بیشتر حالات تحلیل رگرسیون فرآیندی است که تعیین کننده چگونگی ارتباط متغیر Y با یک یا چند متغیر X1,X2,…,Xnباشد. Y معمولا خروجی پاسخ یا متغیر وابسته نامیده می شود و Xi – Y ورودی ها، برگشت کننده ها، متغیرهای توضیحی یا متغیرهای مستقل نامیده می شوند. دلایل عمومی برای انجام تحلیل رگرسیون شامل موارد زیر می باشد. 1. اندازه گیری خروجی برعکس ورودی پرهزینه است و بنابراین سعی می شود یک پیشگویی کم هزینه و ارزان از خروجی انجام شود. 2. مقادیر ورودی قبل از شناخت خروجی شناخته می شوند و یک پیشگویی عملی و کارا از خروجی لازم می باشد. 3. کنترل متغیرهای ورودی ما می توانیم رفتار خروجی های وابسته را پیشگویی کنیم. 4. پیوند سببی میان تعدادی از ورودی ها و خروجی امکان پذیر است و ما می خواهیم این پیوندها را مشخص کنیم. معمولا بیشترین تکنیک های آماری مورد استفاده مدل های خطی هستند. این مدل ها برای توصیف و شرح ارتباط میان گرایش یک متغیر و مقادیر به کار برده شده توسط چندین متغیر دیگر استفاده می شوند. مدل سازی این نوع از ارتباط اغلب رگرسیون خطی نامیده می شود. برازش مدل ها تنها وظیفه و عملکرد مدل سازی آماری نیست. ما اغلب می خواهیم یکی از چند مدل ممکن را به عنوان بهترین مدل انتخاب کنیم. یک روش انتخاب از میان مدل های مختلف تحلیل واریانس می باشد که در بخش 5 توضیح داده شده است. رابطه ای که بر مجموعه داده ها منطبق می باشد توسط مدل پیشگویی که معادله خط رگرسیون نامیده می شود مشخص گردد. مدل رگرسیونی که بیشتر استفاده می شود مدل خطی عمومی است که به شکل زیر نوشته می شود: با به کار بردن این معادله برای هر نمونه معلوم و مشخص یک معادله جدید به دست می آید: به نحوی که در این جا، خطاهای رگرسیون به ازای m نمونه است. مدل خطی از آن جهت خطی نامیده می شود که Yj یک تابع خطی است یعنی مجموع وزنی از مقادیر ورودی. رگرسیون خطی با یک متغیر ورودی ساده ترین شکل رگرسیون است که متغیر تصادفی Y را به عنوان تابع خطی از متغیر تصادفی X دیگر مدل سازی می کند. برای نمونه به شکل (X1,Y1),(X2,Y2),…,(Xn,Yn) به ازای Xi € X و Yi € Y رگرسیون خطی عبارت است از: به نحوی که α و β ضریب رگرسیون هستند. با فرض این که واریانس Y ثابت است این ضرایب می توانند با روشی حداقل مربعات حل شود تا خطای بین داده های واقعی و خطای تخمین زده شده را به حداقل رسانند. باقیمانده مجموع مربعات اغلب مجموع مربعات انحراف از خط رگرسیون نامیده می شود که با SSE مشخص می شود. به نحوی که Yi مقدار خروجی واقعی مورد نظر در مجموعه داده ها است و Yi جواب حاصل از این مدل با مشتق گیری از SSE نسبت به α و β می باشد: مشتقات جزیی را معادل صفر قرار می دهیم معادلات زیر به دست می آید: که از حل این دو معادله دو مجهول α و β محاسبه می شود. ضریب همبستگی برای این حالت ساده عبارت است از: به نحوی که mean x و mean y مقادیر میانگین متغیر تصادفی X و Y یک مجموعه داده هستند. لازم به یادآوری است که مقادیر α و β یک مجموعه معلوم فقط برای پارامترهای واقعی کل جامعه برآورد هستند. معادله و xβ+α y = ممکن است برای پیشگویی میانگین Y0به ازای ورودی X0 استفاده شود که لزوماً در نمونه های مجموعه آغازی وجود ندارد. تلاش اصلی به کارگیری تکنیک رگرسیون چندگانه در تعریف متغیر های مستقل مربوط از مجموعه اولیه و انتخاب مدل رگرسیونی است که فقط استفاده کننده متغیرهای مربوط هستند. دو شیوه و رهیافت برای این فعالیت وجود دارد: 1. شیوه جست و جو دنباله ای: که شامل اصول ساخت مدل رگرسیون با مجموعه اولیه ای از متغیرها و سپس اضافه یا حذف متغیرها تا وقتی که معیار رضایت بخش یا بهینه شود. 2. شیوه ترکیبی: که از نظر ماهیتی یک شیوه brute-force است. در حالی که در میان همه ترکیبات ممکن متغیرهای مستقل برای تعیین بهترین مدل رگرسیون جست و جو انجام می شود. صرفنظر از اینکه شیوه ترکیبی یا دنباله ای استفاده می شود حداکثر بهره وری در ساخت مدل از یک درک مناسب از دامنه کاربرد ناشی می شود. مراحل پس پردازش های اضافی امکان برآورد کیفی از مدل رگرسیون خطی را ممکن می سازد. تحلیل همبستگی مبادرت به اندازه گیری میزان استحکام ارتباط میان دو متغیر را دارد. پارامتری که این میزان استحکام وابستگی خطی میان دو متغیر را با یک عدد نشان می دهد ضریب همبستگی نامیده می شود. محاسبه آن نیازمند تعدادی نتایج میانی در یک تحلیل رگرسیون است. در این جا مقدار r بین 1 و 1- است مقادیر منفی برای r خطوط رگرسیون با شیب منفی و r مثبت تا شیب مثبت را نشان می دهد. ما باید در تفسیر مقدار r دقت کنیم. 5. تحلیل واریانس اغلب مسائل تحلیلی بررسی کیفیت خط رگرسیون تخمین زده شده و تأثیر متغیرهای مستقل در رگرسیون نهایی از طریق شیوه تجزیه واریانس مورد بررسی قرار می گیرد. این رویه که مجموع اختلافات در متغیرهای وابسته را به عناصر معنی دار تقسیم می کند در یک مدل سیستمی مشاهده و به صورت متقارن با آن عمل می شود. تحلیل واریانس یک ابزار قوی در بعضی مباحث داده کاوی می باشد. تحلیل واریانس یا ANOVA یک روش تعیین ضریب B با مقدار غیر صفر در مدل رگرسیون خطی می باشد. فرض کنید پارامتر B قبلاً به وسیله الگوریتم کمترین توان دوم خطا تخمین زده شده است آنگاه باقیمانده از اختلاف مقادیر خروجی قابل مشاهده و مقادیر برازش شده محاسبه می شود که به صورت فرمول زیر می باشد: اندازه و مقدار باقیمانده برای همه m نمونه در مجموعه داده به واریانس σ ارتباط دارد و با فرمول زیر تخمین زده می شود: با فرض این که عبارت فوق یک مدل غیر پارامتری باشد، صورت مجموع تفاضل ها نامیده می شود و مخرج درجه آزادی باقیمانده نامیده می شود. عبارت S2 اجازه مقایسه مدل های خطی متفاوت را به ما می دهد. اگر مدل برازش شده مناسب باشد آنگاه S2 یک تخمین درست برای σ می باشد. اگر در مدل برازش شده عبارت اضافی و زائد داشته باشیم آنگاه S2 هنوز یک تخمین مناسب و نزدیک به σ2 می باشد. تنها اگر در مدل برازشی یک یا چند ورودی نداشته باشیم مقدار S2 از مقدار حقیقی σ2 اهمیت بیشتری خواهد داشت. این معیار ها گام های تصمیم اصلی در الگوریتم ANOVA می باشد به نحوی که تأثیر متغیرهای ورودی در مدل نهایی تحلیل و بررسی می شود. در این مدل ابتدا با تمام ورودی ها شروع می کنیم و S2 را محاسبه می کنیم و سپس ورودی ها را یکی یکی حذف کنیم در تخمین ما تأثیر چندانی نخواهد داشت. حذف یک ورودی در مدل باعث گرایش β به سمت صفر می شود و در اصل در هر تکرار دو مقدار برای S2 محاسبه و اختلاف بین آن ها بررسی و تحلیل می شود. برای این منظور یک آزمون –F نسبت یا –F آمار به شکل زیر معرفی می شود: اگر مدل جدید مناسب باشد F با مقدار یک بسته خواهد شد و در صورتی که مقدار به طور معنی داری از یک بزرگتری باشد مدل معنی داری نیست. با استفاده از مدل مکرر تکراری ANOVA می توانیم تعیین کنیم در چه حالتی متغیرهای مستقل به پاسخ ها مرتبط هستند و در چه حالتی مرتبط نیستند. اگر مدل های مورد مقایسه تودرتو باشند، تحلیل ANOVA تنها مدل موثر و معتبر می باشد. به عبارت دیگر یک مدل حالت خاصی از دیگری است. در اینجا مجموعه داده با سه متغیر مستقل X3,X2,X1 و یک خروجی Y را در نظر بگیرید برای به کارگیری روش رگرسیون خطی لازم است تا یک مدل ساده با تعدادی متغیر مستقل تخمین بزنیم. نتایج تحلیل ANOVA چنین نشان می دهد به علت اینکه مقدار نسبت F- نزدیک به یک است صفت ورودی X3 برای تخمین پاسخ کافی نبوده و اثر گذار نمی باشد. به عبارت دیگر زیر مجموعه های متغیرهای مستقل اهمیت F- را افزایش می دهد و بنابراین کاهش تعداد ابعاد متغیرهای مستقل بدون اهمیت چگونگی مدل غیر ممکن است. مدل رگرسیون نهایی برای این مثال به صورت زیر محاسبه می شود: تحلیل چند متغیره واریانس یک تعمیم از تحلیل ANOVA توضیح داده شده قبلی است که به تحلیل داده ها اهمیت می دهد و پاسخ به جای یک مقدار منفرد یک بردار است. یک راه تحلیل این نوع از داده ها این است که هر عنصر پاسخ به صورت جداگانه مدلسازی شوند، اما این مسئله از رابطه بین خروجی ها صرفنظر می کند. به عبارت دیگر در این روش فرض کنید که پاسخ ها هیچ ارتباطی با یکدیگر ندارند. تحلیل چند متغیره واریانس، شکلی از تحلیل است که برای ارتباط بین پاسخ ها و در حقیقت همبستگی بین آن ها به کار می رود. یک تعداد متغیر مستقل و پاسخ ارائه شده است. حالا با یک مجموعه داده قابل دسترس مدل خطی چند متغیره را تحلیل می کنیم. در این مجموعه n تعداد ابعاد متغیر مستقل m تعداد نمونه ها، Yj یک بردار با ابعاد c * 1 و c تعداد پاسخ ها است. این مدل طوری برازش داده شده است که در آن از روش حداقل مربعات برای برآورد پارامترها دقیقا مثل مدل خطی استفاده شده است. یک روش برای این برازش انطباق یک مدل خطی به هر C بعد هر پاسخ و خروجی می باشد. باقیمانده متناظر برای هر بعد به صورت (Yj - Ýj) می باشد به نحوی که Yj مقدار دقیق و Ýj مقدار برآورد شده برای هر بعد می باشد. نظیر مجموع مربعات باقیمانده مدل خطی تک متغیره ماتریسی از مجموع مربعات باقیمانده های مدل خطی چند متغیره می باشد. ماتریس R باقیمانده مربع مجموعه ها برای c بعدی می باشد که در یک قطر اصلی قرار می گیرند. عناصر غیر قطری از باقیمانده مجموع ضرب برداری برای هر جفت از ابعاد به دست می آید. اگر بخواهیم دو مدل خطی تودرتو را برای زمانی که sβ صفر است مقایسه کنیم می توانیم یک جمع اضافی از توان دوم ماتریس را ایجاد کنیم و یک روش مشابه به نام ANOVA چند متغیره یا MANOVA فراهم آوریم. در حالی که ما یک نسبت F- روش ANOVA داریم MANOVA براساس ماتریس R می باشد. با 4 نسبت آزمون که در زیر عنوان شده است معمولا استفاده می شود: 1. بزرگترین ریشه نسبت به Reys 2. اثر Lawley-Hotteling 3. اثر Pillai 4. نسبت Wilks lambda جزئیات محاسبه این آزمون در این کتاب توضیح داده نشده است، اما راجع به آزمون در مراجع و کتب متعدد آماری توضیح داده شده است. تحلیل MANOVA و 4 آزمون آن به تفضیل در بسته های آماری استاندارد ارائه شده است. آنالیز چند بعدی کلاسیک روشی از مولفه آنالیز اصلی است که مجموعه ای از مثال های برداری را به مجموعه جدیدی با ابعاد کمتر انتقال می دهد. در فصل 3 زمانی که راجع به کاهش داده ها و انتقال آنها در پیش پردازش داده کاوی بحث گردید روش فوق به طور کامل ارائه گردید. 6. رگرسیون Logistic مدل رگرسیون تعمیم یافته اساس تئوری مدل رگرسیون خطی را نشان می دهد که شیوه رگرسیون خطی می تواند برای مدل هایی که برای متغیر پاسخ آن ها گسسته می باشد استفاده شود. یک مدل عمومی از مدل خطی تعمیم یافته رگرسیون لجستیک می باشد. مدل رگرسیون لجستیک احتمال وقایع اتفاق افتاده در یک تابع خطی از مجموع متغیرهای پیشگویی شده را نشان می دهد. مدل رگرسیون لجستیک به جای پیشگویی مقادیر متغیرهای وابسته سعی در برآورد احتمال P در متغیرهای وابسته که دارای مقدار معینی هستند دارد. به عنوان مثال در جایی که برای یک مشتری رتبه اعتباری خوب یا بد را پیشگویی می کنیم رگرسیون لجستیکی احتمال درجه خوب را برای آن تخمین می زند. حالت واقعی متغیر وابسته با احتمال تخمین زده شده به دست می آید. اگر احتمال تخمین زده شده بیشتر از 50/0 باشد پیشگویی به YES نزدیکتر است در غیر این صورت به NO نزدیک است. بنابراین در رگرسیون لجستیکی احتمال P یک احتمال موفق نامیده می شود. هنگامی رگرسیون لجستیکی استفاده می شود که متغیرهای خروجی در دسته های دوتایی تعریف شوند. بنابراین دلیلی برای اینکه داده ها کمی نباشند وجود ندارد و بنابراین رگرسیون خطی یک مجموعه داده ورودی جامع را پیش بینی می کند. فرض کنید که خروجی Y دارای دو مقدار ممکن 1 و 0 باشد براساس داده های قابل دسترس احتمال برای هر دو مقدار از نمونه P(Yj = 0)= 1 – Pj و Pj(Y = 1)= Pj محاسبه می شود. مدلی که برای احتمال مورد نظر مناسب می باشد، رگرسیون خطی می باشد که به صورت زیر محاسبه می گردد: این معادله رگرسیون لجستیکی خطی نامیده می شود. تابع (Pj/(1 – Pj))log اغلب به صورت logit(p) نوشته می شود و علت استفاده از خروجی logit این است که به این دامنه [0,1] , Pj است از ایجاد دامنه دیگری برای پیشگویی احتمال Pj جلوگیری می شود. در اینجا مدل تضمینی براساس مجموع داده ترتیبی و به کارگیری تابع رگرسیون خطی در نظر بگیرید. معادله خطی زیر ارائه شده است. نمونه جدید برای دسته بندی مقادیر ورودی را به صورت {X1,X2,X3} = {1,0,1} فرض کنید. با به کارگیری رگرسیون لجستیکی خطی احتمال خروجی مقدار 1 و (p(Y = 1)) برای این نمونه تخمین زده می شود. ابتدا logit (p) را براساس معادله زیر محاسبه کنید: احتمال مقدار 1 برای خروجی به صورت زیر می باشد: براساس مقدار نهایی برای احتمال p ممکن است به این نتیجه برسیم که احتمال Y = 1 کمتر از دیگر مقادیر رده بندی با مقدار Y = 0 می باشد. این مثال چنین بیان می کند که رگرسیون لجستیکی یک ابزار دسته بندی خیلی ساده ولی قوی در کاربردهای داده کاوی دارد. با مجموعه داده مدل رگرسیون لجستیکی را بیان می کنیم و با مجموعه داده دیگر چگونگی مدل پیشگویی مقادیر دسته بندی شده را تحلیل می کند و نتیجه رگرسیون لجستیکی با دیگر روش های داده کاوی برای دسته بندی فعالیت هایی مانند قوانین تصمیم گیری و شبکه های عصبی و رده بندهای Bayesian مقایسه می شود. فصل دوم: قوانین انجمنی اهداف این فصل · توضیح مدلسازی کاراکتر محلی مربوط به تکنیک های قوانین انجمنی. · تحلیل خاصیت های اصلی از پایگاه داده های تراکنشی بزرگ. · توضیح الگوریتم های Apriori و توصیف همه مراحل آن به وسیله مثال های تصویری. · مقایسه الگوریتم Apriori با روش الگوی افزایشی متناوب. · ارائه و تدوین راه حل هایی برای تولید قوانین انجمنی از مجموعه اقلام متناوب. · بررسی امکان وب کاوی با استفاده از LOGSOM,HITS و الگوریتم پیمایش مسیر. · فرمول بندی قالب های خاص کاوش متن با تأکید بر مراحل پالایش و استخراج. قوانین انجمنی یکی از تکنیک های اصلی داده کاوی است و البته احتمالا مهمترین شکل از کشف و استخراج الگوهای محلی در سیستم های یادگیری غیر هدایت شده می باشد. در این روش از داده کاوی شباهت خیلی نزدیک به فرآیندهایی دارد که اغلب مردم وقتی سعی می کنند فرآیندهای داده کاوی را بفهمند درباره آن فکر می کنند. برای مثال می توان به کاوش طلا در پایگاه داده وسیع اشاره نمود. در این حالت طلا یک قاعده است که مطالبی در مورد بعضی چیزهای پایگاه داده به شما می گوید که تا به حال از آن بی خبر بوده اید و شاید به طور صریح نمی توانید آن را مطرح کنید. این روش تمام الگوهای ممکن جالب در پایگاه داده را بازیابی می کند. در واقع توانایی بالایی است که هیچ نکته نامفهومی را باقی نمی گذارد اما آن را می توان به عنوان یک ضعف هم دید. چرا که کاربر به راحتی می تواند با مقدار زیادی از داده های جدید سرگردان شود و مسلماً تحلیل سودمند آن سخت و زمان گیر خواهد بود. در کنار روش های استاندارد مانند تکنیک Apriori برای کاوش قوانین انجمنی در این فصل به بعضی از روش های داده کاوی که به کاوش وب و کاوش متن ارتباط دارند خواهیم پرداخت. دلیل اینکه در این فصل به این تکنیک ها اشاره می شود خاصیت مدلسازی محلی آن است و بنابراین شباهت بنیادی نزدیکی با قوانین انجمنی دارد، اگرچه روش ها و تکنیک های آن متفاوت میباشد. 1. تحلیل سبد خرید سبد خرید مجموعه ای از اقلام خریداری شده به وسیله مشتری در یک تراکنش ساده است که به عنوان یک فعالیت تجاری مناسب و خوب تعریف شده معرفی می گردد. برای مثال یک مشتری که به یک سایت یک خواربار فروشی مراجعه و به صورت بر خط از یک فروشگاه مجازی در Web خرید می کند در حقیقت نمونه هایی از تراکنش مربوط خرید را ارائه می دهد. خرده فروشی ها مجموعه ای از تراکنش ها را هر بار با ثبت فعالیت تجاری آن ها نگهداری می کنند. یک تحلیل معمولی که بر روی پایگاه داده تراکنش ها اجرا می شود، این است که مجموعه ای از اقلام اطلاعاتی یا اصطلاحاً مجموعه اقلام که همراه با خیلی از تراکنش ها ظاهر می شود را پیدا کند. یک فروشگاه یا کسب و کار می تواند در مورد این الگوها اطلاع داشته تا موقعیت اقلام فوق را در فروشگاه خود با طرح صفحات کاتالوگ خود را در سفارش کالا از طریق پست الکترونیکی و در صفحات Web بهبود بخشد. مجموعه اقلامی که شامل I نمونه از اقلام است را مجموعه اقلام I تایی می نامند. همچنین درصدی از تراکنش ها که شامل یک مجموعه اقلام را پشتیبان می نامند. برای اینکه مجموعه اقلام مفید باشند، پشتیبان آن باید از حداقل تعریف شده کاربر بیشتر باشد. چنین مجموعه اقلام هایی گفته شده را مکرر یا تکرار می نامند. چرا یافتن مجموعه اقلام مکرر مسئله مهم است؟ اول این که تناوب تراکنش های مشتری خیلی زیاد بوده و در حافظه کامپیوتر قرار نمی گیرد. دوم این که تعداد بالقوه مجموعه اقلام مکرر توانی از تعداد اقلام متفاوت است. اگر چه تعداد واقعی مجموعه اقلام مکرر می تواند خیلی کمتر از آن باشد بنابراین در اینجا الگوریتم هایی مورد نیاز است که مقیاس پذیر بوده و با مجموعه اقلام غیر مکرر و تکراری خیلی کم قابل بررسی باشد. قبل از این که بعضی از الگوریتم های موثر را توضیح دهیم اجازه دهید مسئله فوق را واضح تر بیان کرده و یک مدل ریاضی مناسب را توسعه دهیم. از یک پایگاه داده تراکنش های فروش می خواهیم وابستگی های مهم میان اقلام را مشخص کنیم به نحوی که حضور بعضی از اقلام در تراکنش ها بر حضور بعضی اقلام در همان تراکنش ها دلالت دارد. فرض کنید I = {i1,i2,…,im} یک مجموعه حرفی بوده که اقلام نامیده می شود و نیز DB مجموعه ای از تراکنش ها باشد به طوری که هر تراکنش T مجموعه از اقلام است به نحوی که T می باشد. توجه داشته باشید که مقادیر اقلام خریداری شده در یک تراکنش مورد ملاحظه نیست به این معنی که هر یک از اقلام یک متغیر دودویی است که مشخص می کند آیا آن مورد خریداری شده یا خیر؟ هر تراکنش متناظر با شناسه هایی است که به آن شناسه تراکنش یا TID می گویند. یک نمونه برای پایگاه داده های تراکنش های در جدول 1 نشان داده شده است. ضریب اطمینان توان دلالت و ایجاب را مشخص می کند و پشتیبان تکرار الگوها در قاعده را مشخص می کند. معمولا مناسب است که فقط به روابطی توجه کنیم که پشتیبان حد معقول بالایی داشته باشد. به این چنین روابطی که ضریب اطمینان بالا و پشتیبان قوی دارند قوانین محکم و قوی گفته می شود. وظیفه کاوش قوانین انجمنی ذاتا برای کشف قوانین انجمنی نیرومند در پایگاه داده های بزرگ می باشد. مشکل کاوش قوانین انجمنی ممکن است به دو مرحله تجزیه شود: 1. کشف مجموعه اقلام های بزرگ یعنی مجموعه ای از اقلامی که دارای پشتیبانی تراکنشی S بالاتر از حداقل آستانه از قبل تعیین شده می باشد. 2. به کارگیری مجموعه اقلام بزرگ برای تولید قوانین انجمنی در پایگاه داده هایی که دارای ضریب اطمینان C بالاتر از حداقل آستانه از قبل تعیین شده می باشد. اجرا و کارایی کلی کاوش قوانین انجمنی اصولا توسط مرحله اول صورت می گیرد، بعد از این که مجموعه اقلام بزرگ شناسایی شدند قوانین انجمنی متناظر را می توان به روش های آسان به دست آورد شمارش کارا و موثر مجموعه اقلام بزرگ به این صورت است که بر روی الگوریتم های کاوش مهم متمرکز می شود و راه حل های سودمندی برای رسیدن به معیارهای قبلی مطرح می کند. الگوریتم Apriori یک راه حل اولیه برای مسئله فراهم می کند که در این فصل به تفصیل به توضیح آن می پردازیم. الگوریتم بعدی که بر روی الگوریتم Apriori ساخته شده اصلاحاتی روی روش های حل اصلی نشان داده که آن را در بحث مفصلی در بخش 12 توضیح می دهیم. 2. الگوریتم Apriori الگوریتم Apriori تناوب مجموعه اقلام را در بین چندین تکرار در پایگاه داده محاسبه می کند. تکرار i همه تناوب I مجموعه اقلام را محاسبه می کند. هر تکرار دو مرحله دارد: تولید کاندید و انتخاب و شمارش کاندید. در مرحله اول از اولین تکرار مجموعه تولید شده از مجموعه اقلام های کاندید همه I مجموعه اقلام را شامل می شود. در مرحله شمارش الگوریتم جست و جوی پشتیبان خودش را در بین مقادیر همه پایگاه داده می شمارد. در پایان فقط 1-itemset هایی با s بالایی مقدار آستانه مورد نیاز انتخاب می شود. بنابراین بعد از اولین تکرار همه 1-itemset تکراری شناخته خواهند شد. مجموعه اقلامی که در تکرار دوم تولید می شوند، کدامند؟ به بیان دیگر یک کاندید 2-itemset چگونه تولید می شود؟ اساسا همه جفت های اقلام کاندید محسوب می شوند، مبتنی بر دانشی درباره مجموعه اقلام بدون تکرار از تکرارهای قبلی به دست می آید. الگوریتم Apriori مجموعه اقلام کاندید را به وسیله هرس کردن مجموعه اقلام کاندید که نمی توانند تکرار شوند کاهش می دهد. ایم هرس براساس مشاهد صورت می گیرد به نحوی که اگر مجموعه ای از اقلام تکراری باشد همه زیر مجموعه ها می توانند تکراری باشند، بنابراین قبل از ورود به مرحله شمارش کاندید الگوریتم همه مجموعه اقلام کاندید که دارای زیر مجموعه های غیر تکراری هستند را حذف و خارج می کند. 3. مجموعه اقلام های تکراری و روابط انجمنی مرحله دوم در کشف قوانین و روابط انجمنی بر پایه همه itemset های اقلام تکراری که در مرحله اول با استفاده از الگوریتم Apriori یا الگوریتم های مشابه دیگر به دست می آیند، بنا شده است که نسبتا ساده و آسان است. برای اصل و قاعده ای که {X1,X2,X3} = X4 دلالت می کند لازم است که هر دو مجموعه اقلام های {X1,X2,X3,X4} و {X1,X2,X3} تکراری باشند. پس ضریب اطمینان c از این روابط به عنوان خارج قسمت پشتیبان های مجموعه اقلام c = s(X1,X2,X3,X4) / s(X1,X2,X3) تعریف می شود. روابط انجمنی قوی روابطی با ضریب اطمینان c بالاتر از حد آستانه معلوم می باشند. 4. افزایش راندمان و کارایی الگوریتم Apriori از آنجا که میزان داده های پردازش شده در کاوش مجموعه اقلام تکراری در حال افزایش است لازم است تا برای رسیدن به این گونه داده ها الگوریتم های کارایی ابداع شود. الگوریتم Apriori که پایگاه داده را چند بار بررسی و پویش می کند به اندازه بزرگترین مجموعه اقلام تکراری وابسته است. چندین پالایش یا اصلاح داده بر کاهش تعداد بررسی های پایگاه داده تعداد مجموعه اقلام کاندید شمارش شده در هر بررسی و یا هر دو مورد تأکید دارد. الگوریتم Apriori مبتنی بر بخش پذیری فقط به دوبار بررسی پایگاه داده تراکنشی نیاز دارد. پایگاه داده به دو بخش مجزا که هر بخش به اندازه حافظه در دسترس کوچک است تقسیم می شود. در بررسی و پویش اول الگوریتم هر بخش را می خواند و مجموعه اقلام تکراری محلی هر بخش را محاسبه می کند و در بررسی دوم الگوریتم پشتیبان های مجموعه اقلام تکراری محلی را نسبت به یک پایگاه داده ای کامل محاسبه می کند. اگر یک مجموعه اقلام نسبت به پایگاه داده تکراری باشد، حداقل در یک بخش باید تکراری باشد. این ابتکارها در الگوریتم به کار رفته بنابراین پویش و بررسی دوم پایگاه داده یک ابر مجموعه ها را در مجموعه اقلام تکراری شمارش می کند. در بعضی کاربرد ها پایگاه داده های تراکنشی باید به طور مکرر کاوش شود تا رفتار مشتری را به دست آورد. در این کاربردها کارایی و راندمان کاوش داده ها خیلی مهمتر صحت نتایج است. به علاوه در بعضی کاربردها دامنه مسئله ممکن است به طور مبهم تعریف شده باشد. از دست دادن موارد حاشیه ای که ضریب اطمینان و پشتیبان آن ها در خطوط کناری قرار گرفته کمترین اثری است که روی کیفیت حل مسئله اصلی روی می دهد. توجه داشته باشید که نتایج غیر صحیح می توانند در حقیقت به طور عمده راندمان الگوریتم کاوش را بالا ببرد. با افزایش اندازه پایگاه داده ها نمونه گیری روش جالبی برای کاوش داده ها محسوب می شود. الگوریتم هایی که بر مبنای نمونه گیری کار می کنند، معمولا به دوبار بررسی پایگاه داده نیازمندند. الگوریتم ابتدا از پایگاه داده نمونه گیری می کند و مجموعه ای از اقلام کاندید که احتمال زیاد در پایگاه داده تکراری هستند را تولید می کنند. در یک سری پویش و بررسی پشت سر هم روی پایگاه داده الگوریتم پشتیبان های دقیق این مجموعه اقلام و پشتیبان های سر حد منفی آن ها را می شمارد. اگر هیچ مجموعه اقلام در ناحیه سرحد منفی تکراری نباشد، الگوریتم همه مجموعه اقلام تکراری را پیدا می کند. به بیان دیگر بعضی ابر مجموعه های یک مجموعه اقلام در سر حد منفی می تواند تکراری باشد اما پشتیبان آن شمرده نمی شود. الگوریتم نمونه گیری همه مجموعه اقلام تکراری را در بررسی های پشت سر هم پایگاه داده می شمارد. به خاطر این که جست و جوی مجموعه اقلام تکراری در پایگاه داده های بزرگ پر هزینه است تکنیک بهنگام سازی افزایشی را برای کشف مجموعه اقلام های تکراری همچنین برای اجتناب از بررسی مجدد پایگاه داده به هنگام شده توسعه می دهیم. به هنگام رسانی پایگاه داده ممکن است نه تنها باعث بی اعتبار شدن بعضی از مجموعه اقلام های موجود می شود بلکه بعضی مجموعه اقلام جدید را به نمونه مکرر و تکراری تبدیل می کنند. بنابراین مشکل نگهداری مجموعه اقلام تکراری کشف شده قبلی در پایگاه داده بزرگ و پویا مهم است. هدف این است که اطلاعات مجموعه اقلام تکراری قدیمی دوباره استفاده شوند و اطلاعات پشتیبان مجموعه اقلام های تکراری جدید را به ترتیب تولید می کند تا اساسا منابع کاندید برای بررسی دوباره کاهش یابد. در خیلی از کاربردها روابط انجمنی جالب در بین اقلام داده اغلب در سطح مفهومی نسبتا بالایی روی می دهد. 5. روش الگوی افزایش تکراری 6. کاوش قوانین انجمنی چند بعدی 7. کاوش وب (وب کاوی) در یک محیط اطلاعاتی توزیع شده معمولا اشیا یا مستندات به منظور تسریع در دسترسی تعاملی به یکدیگر پیوند زده می شوند. نمونه ها و مثال هایی برای چنین فراهم سازی اطلاعات محیطی شامل وب جهانی و خدمات برخطی مانند American online می باشد به نحوی که زمانی کاربران به دنبال اطلاعات مورد نیاز و مورد علاقه خود هستند از یک شی به شی دیگر با استفاده از امکاناتی مانند ابراتصال ها و آدرس های URL در حرکت هستند. اطلاعات آن بالغ بر شش ترابایت می باشد که بر روی حدود سه میلیون سرویس دهنده قرار گرفته است. تقریبا یک میلیون صفحه روزانه به این حجم از اطلاعات اضافه می شود و نوعا هر چند ماه یک بار این صفحات تغییر می یابند و در نتیجه چند صد گیگابایت ماهانه به روز و به هنگام می شوند. مادامی که اطلاعات ارائه شده در وب روزانه در حال تغییر می باشد به دست آوردن این اطلاعات تا حدود زیادی کسل کننده خواهد شد. حتی بزرگترین موتور های جست و جو مانند آلتاویستا و هات بات کمتر از 18% از صفحات وب قابل دسترس را در ماه خاصی مانند فوریه ثبت کرده اند. باید توجه داشت که مشکل اصلی در این رابطه در محتویات غیر ساخت یافته و یا شبه ساخت یافته وب نهفته است که به نظم درآوردن آن کار بسیار ساده ای نخواهد بود و همچنین اعمال یک ساختار یا استاندارد مناسب بسیار مشکل به نظر می رسد. مجموعه ای از صفحات وب از یک ساختار واحد رنج برده و از سبک و شیوه نگارشی و تنوع محتوایی نسبت به آنچه که در مجموعه مستندات کاغذی مرسوم مشاهده می شوند فاصله زیادی دارند. این سطح از پیچیدگی موجب ایجاد یک مدیریت بانک اطلاعاتی در دسترس و آماده می گردد و راه حل های بازیابی اطلاعات بسیار دشوار بوده و می توان ادعا نمود که به کارگیری آن ها تقریبا غیر ممکن می باشد. مسلما با این شرایط روش ها و شیوه های جدید کاملا ضروری به نظر می رسند. در حقیقت وب کاوی ممکن است به عنوان به کارگیری تکنیک های داده کاوی و به منظور کشف و استخراج خودکار اطلاعات از مستندات محتویات و سرویس های وب معرفی گردد. به تعبیر دیگر وب کاوی به فرآیندی کلی اکتشاف و استخراج خودکار اطلاعات از مستندات، محتویات و سرویس های وب معرفی گردد. به تعبیر دیگر وب کاوی به فرآیند کلی اکتشاف و استخراج اشاره دارد نه تنها به کاربردهای ابزار کاوش داده های استاندارد. بعضی از نویسندگان فرآیند وب کاوی را به چهار وظیفه زیر تجزیه میکنند: 1. پیدا کردن منبع: این زیر وظیفه شامل فرآیند بازیابی داده هایی که می تواند به صورت بر خط یا غیر بر خط از منبع چند رسانه ای بر روی وب باشد در نظر گرفته می شود مانند خبرنامه های الکترونیکی گروه های خبری و محتویات متن اسناد HTML حاصل از حذف برچسب های HTML. 2. انتخاب و پیش پردازش اطلاعات: این مرحله فرآیندی است که توسط انواع گوناگونی از داده های اصلی بازیابی شده در زیر وظیفه قبلی تبدیل و تغییر وضعیت داده می شود. این تبدیل و تغییر وضعیت می تواند یا یک نوع پیش پردازش مانند حذف کلمات توقف، کلمات هم ریشه یا غیره انجام شود یا یک پیش پردازش با هدف به دست آوردن نمایش دلخواه مانند پیدا کردن یک عبارت در متن و بدنه آموزشی نمایش متن در شکل منطقی اولیه و غیره صورت گیرد. 3. تعمیم سازی (عمومیت سازی): تعمیم سازی به فرآیند جست و جو و کشف خودکار الگوهای عمومی در داخل سایت های وب مجزا علاوه بر سایت های چند گانه متقاطع اطلاق می گردد. در این خصوص تکنیک های یادگیری ماشین همه منظوره مختلف تکنیک های داده کاوی و روش های با گرایش وب خاص مورد استفاده قرار می گیرد. 4. تحلیل: این مورد مرحله ای است که درآن معتبر سازی و / یا تفسیر الگوهای کاوش شده اجرا می شود. باید توجه داشت که در این جا سه عامل بر روی روشی که یک کاربر سایت های وب را از طریق فرآیند داده کاوی ارزیابی و درک می کنند اثر گذار می باشد: 1. محتوای صفحه وب 2. طراحی صفحه وب 3. طراحی کلی سایت شامل ساخت آن عامل اول در برگیرنده کالاها خدمات یا داده های ارائه شده توسط سایت است. عوامل دیگر روشی را در نظر می گیرند که درآن سایت محتویات خود را برای کاربرانش قابل دسترس و قابل درک می سازند. در حقیقت در اینجا تفاوتی بین طراحی صفحات مجزا و طراحی کلی سایت وجود دارد. دلیل این امر این است که یک سایت به سادگی مجموعه ای از صفحات نبوده بلکه شبکه ای از صفحات به هم پیوسته و مرتبط می باشد. کاربران مسلما درگیر جست و جوی یک سایت نخواهند شد مگر ساختار آن را ساده و قابل درک دریابند. به طور روشن درک الگوهای دسترسی کاربر در یک چنین محیطی تنها به بهبود طراحی سیستم کمک نخواهد کرد. اما همچنین قادر خواهند بود که به یک بازاریابی تصمیم بهتر هدایت شوند. نتایج تجاری با گذاشتن تبلیغات در محل ها و موقعیت های مناسب دسته بندی بهتر کاربران/ مشتریان و درک نیازمندی های واقعی کاربران از طریق تحلیل های رفتاری آن ها بهبود خواهد یافت. باید توجه داشت که شرکت ها دیگر علاقمند به وب سایت هایی که ترافیک را به سادگی هدایت و سفارشات را انجام دهند نیستند. در حال حاضر آن ها به دنبال حداکثر رسانی منافع و سود خود بوده و همچنین آن ها مایل هستند که رفتار و عملکر

روش های آماری گیری

مطالب مشابه :

هرس و مبارزه زمستانه

مقاله درباره باغبانی عمومی .......مقاله درباره پرورش انگور

تحقیق در مورد آب

آموزش باغداری

طرح درس سالانه حرفه و فن

مقاله ای در مورد پرورش سیب

تحقیق در مورد گردو

روش های آماری گیری