رگرسیون و درخت تصمیم

خرید بک لینک

رگرسیون

پیش بینی مقدار یک متغیر پیوسته بر اساس مقادیر سایرمتغیرها بر مبنای یک مدل وابسته خطی یا غیر خطی رگرسیون نامیده می شود. رگرسیون درعلوم آمار و شبکه های عصبی به صورت وسیع مورد مطالعه و بررسی قرار می گیرد. درواقع یک بردار X به عنوان ورودی داریم که به متغیرخروجی Y نگاشت شده است. هدف محاسبه Y یا همان (X)F است که از روی تخمین تابع مقدار آن محاسبه می شود. دراینجا می بایست به ازای یک بردار X ، مقدار دقیق Y قابل محاسبه باشد. این کاربرد نیز مانند دسته بندی یککاربرد از نوع پیش بینی یا با ناظر است. دلیل آن هم کاملا روشن است ، چرا که بایدمقدار یک متغیر که در اینجا با Y نشان دادهشده ، از روی مقادیر متغیرهای دیگر که آن را با بردار X مشخص می کنیم ، پیش بینی شود. بنابراین در رگرسیون همدو مرحله آموزش و ارزیابی وجود خواهد داشت که طی آنها از مجموعه داده های آموزشی ومجموعه داده های آزمایشی استفاده می شود. روش های موجود در رگرسیون بیشتر مبتنی برریاضیات آماری هستند. یک نوع خاصی از رگرسیون ، پیش بینی سری های زمانیاست. در مسائل پیش بینی سری های زمانی یکی از متغیرهای اصلی زمان می باشد. در اینمسائل یک مجموعه از X ها و Y ها به صورت یک تابع ریاضی وجود دارند. به عبارت دیگر بهازای هر X فقط و فقط یک Y موجود می باشد. هدف این است که به ازای یک X جدید مقدار Yآن را پیش بینی کنیم (صنیعی, محمودی, & طاهرپور, 1394).

انواع رگرسیون :

· روش همزمان ( Enter Method ) : در اینروش کلیه متغیرهای مستقل به طور همزمان وارد مدل می شوند.

· روش گام به گام ( Stepwise Method ) : در اینروش متغیرها را یک به یک وارد مدل می کنیم.

· روش حذف ( Remove Method ) : با اینروش می توان متغیرهای یک بلوک را از مدل رگرسیون حذف کرد.

· روش پس رونده ( Backward Method )

· روش پیش رونده ( Forward Method ) : ابتداهم بستگی ساده بین هر یک از متغیرهای مستقل را با متغیرهای وابسته محاسبه می کنیم.

· رگرسیون خطی ساده / دو متغیره ( SimpleLiner Regression ) : زمانی مورد استفاده قرار می گیرد که یک متغیر وابسته و مستقلداشته باشیم (اسماعیلی, 1391).

هدف :

تحلیل رگرسیونی فن و تکنیکی آماری برای بررسی و مدل سازی ارتباط بین متغیروابسته و متغیر مستقل بوده و هدف آن پیش بینی متغیر وابسته از روی متغیر و یامتغیرهای مستقل می باشد. مهمترین تفاوت رگرسیون و هم بستگی در این است که رگرسیونماهیت پیش بینی میزان متغیر وابسته از روی مدلی که متغیر مستقل یکی از مؤلفه هایآن است را دارد. در حالی که هم بستگی صرفا نشان دهنده شدت رابطه متغیر ( متغیرهای) مستقل و وابسته می باشد (شیرازی, 1389).

مثال هایی از رگرسیون عبارتند از :

- پیش بینی میزان فروش یک محصول جدید بر اساس میزان فروش محصولات گذشته، مشخصاتمحصولات گذشته و میزان تبلیغات انجام شده برای آنها .

- پیش بینی سرعت باد به عنوان تابعی از دما، رطوبت و فشار هوا .

- مسائل مربوط به پیش بینی سری های زمانی از قبیل : بورس اوراق بهادار، تغییراتجوی آب و هوا و ...

درخت تصمیم :

درخت تصمیم یکی از مشهورترین و قدیمی ترین روش های ساخت مدل دسته بندی است. درالگوریتم های دسته بندی مبتنی بر درخت تصمیم دانش خروجی به صورت یک درخت از حالاتمختلف مقادیر ویژگی ها ارائه می شود. نمایش دانش به شکل درخت سبب شده است که دستهبندهای مبتنی بر درخت تصمیم کاملا قابل تفسیر باشند. در حالت کلی درخت تصمیم رسمشده برای یک مجموعه داده آموزشی، واحد و یکتا نیست. بر اساس یک مجموعه داده، درختهای تصمیم مختلفی می توان به دست آورد. به طور کلی الگوریتم های تولید درخت تصمیممختلفی از جمله SPRINT, SLIQ , C4.5 , ID3 , CART , HUNT وجود دارند. برای درک هر الگوریتم درخت تصمیم می بایستابتدا پایه ای ترین الگوریتم تولید درخت تصمیم یعنی الگوریتم HUNT را به خوبی بشناسیم (شهرابی & شکورنیاز, 1386).

یک استراتژی حریصانه برای ساخت در خت تصمیم وجود دارد. بر اساس این استراتژی،رکوردها همیشه بر اساس یک ویژگی کاندید که یک معیار خاص را بهینه می کند، شکسته میشوند. بنابراین اولین ویژگی ها برای انتخاب شدن، بستگی به همین معیار خواهد داشت. ویژگیکه با توجه به بهترین بهبود را برای درخت به ارمغان می آورد، شایسته ترین ویژگیخواهد بود. قبل از معرفی انواع انواع مختلف معیارهای انتخاب بهترین ویژگی لازم استکه روش های متنوع شکست ویژگی ها به چند حالت مختلف تشریح شود. روش هایگوناگون شکست ویژگی ها به انواع مختلف ویژگی ها وابستگی کاملی دارد.

انواع روش های شکست برای ویژگی های اسمی :

دو روش شکست « چند انشعابی » و شکست « دو انشعابی » برای ویژگی های اسمی وجوددارد.

انواع روش های شکست برای ویژگی های ترتیبی :

برای ویژگی های ترتیبی نیز همانند ویژگی های اسمی، دو روش شکست « چند انشعاب »و شکست « دو انشعابی » وجود دارند.

انواع روش های شکست برای ویژگی های بازه ای و نرخی :

روش های مختلفی برای مدیریت ویژگی های بازه ای و نرخی وجود دارد. این روش هابرای هر نوع ویژگی مشابه هستند. به همین دلیل انواع روش های شکست را برای این دونوع ویژگی در کنار یکدیگر تشریح می کنیم. دو روش مطرح در این زمینه، روش های «گسسته سازی » و « تصمیم گیری دودویی » هستند (صنیعی, محمودی, & طاهرپور, 1394).

مسائل مناسب برای یادگیری درخت تصمیم :

· مسائلی که در آنها نمونه هایی به شکل جفت های صفت مقدار بازنمایی می شوند.مثال صفت دما مقدار : ( گرم ، معتدل ، خنک )

· مسائلی که در آنها تابع هدف ، مقادیر خروجی گسسته دارد. مثال : خروجی یک تابعهدف فرضی : ( بلی ، خیر )

هدف اصلی دسته بندهای مبتنی بر درخت تصمیم چیست؟

· دسته بندی صحیح نمونه های آموزشی تا حد امکان .

· عام سازی نمونه های آموزشی به شکلی که نمونه های دیده نشده بتوانند با دقت هرچه بیشتر دسته بندی شوند .

· به روز رسانی آسان درخت، در صورت فراهم شدن نمونه های آموزشی جدید .

· داشتن یک ساختار تا سر حد امکان ساده .

معایب درخت تصمیم نسبت به روش های داده کاوی چیست؟

1. در مواردی که هدف از یادگیری، تخمین تابعی با مقادیر پیوسته است مناسب نیستند.

2. در مواردی با تعداد دسته های زیاد و نمونه های آموزشی کم، احتمال خطا بالاست .

3. تولید درخت تصمیم گیری، هزینه محاسباتی بالایی دارد .

4. هرس کردن درخت هزینه بالایی دارد .

5. در مسائلی که دسته های ورودی با نواحی مکعبی به خوبی جدا نشوند و دسته ها همپوشانی داشته باشند، خوب عمل نمی کنند .

6. در صورت هم پوشانی گره ها تعداد گره های پایانی زیاد می شود .

7. در صورتی که درخت بزرگ باشد امکان دارد خطاها از سطحی به سطح دیگر جمع شوند .( انباشته شدن خطای لایه ها بر روی یکدیگر ) .

8. طراحی درخت تصمیم گیری بهینه دشوار است. کارایی یک درخت دسته بندی کننده بهچگونگی طراحی خوب آن بستگی دارد .

9. احتمال تولید روابط نادرست وجود دارد .

10. بازنمایی درخت تصمیم دشوار است .

11. هنگامی که تعداد دسته ها زیاداست، می تواند باعث شود که تعداد گره های پایانی بیشتر از تعداد دسته های واقعیشده و بنابراین زمان جستجو و فضای حافظه افزایش یابد .

چرا از دسته بند درخت تصمیم استفاده می کنیم؟

· نواحی تصمیم پیچیده سراسری ( خصوصا در فضاهای با ابعاد زیاد ) می توانند بااجتماع نواحی تصمیم محلی ساده تر، در سطوح مختلف درخت تقریب زده شوند .

· بر خلاف دسته بندی کننده های تک مرحله ای رایج، که هر نمونه داده ای روی تمامدسته ها امتحان می شود، در یک دسته بند مبتنی بر درخت تصمیم، یک نمونه فقط روی زیرمجموعه های خاصی از دسته ها امتحان شده و محاسبات غیر ضروری حذف خواهد شد .

· در دسته بندهای تک مرحله ای، فقط از زیر مجموعه ای از صفات، برای تفکیک بیندسته ها استفاده می شود که معمولا با یک معیار بهینه سراسری انتخاب خواهد شد. دردسته بندهای مبتنی بر درخت، انعطاف پذیری انتخاب زیر مجموعه های مختلفی از صفات درگره های داخلی مختلف درخت وجود دارد. به گونه ای که زیر مجموعه انتخاب شده به شکلبهینه، دسته های این گره را تفکیک می کند. این انعطاف پذیری ممکن است نسبت به دستهبندهای تک مرحله ای در کارایی بهبودی ایجاد کند .

مزایای درخت تصمیم :

1. درخت تصمیم توانایی کار با داده های پیوسته و گسسته را دارد .

2. درخت تصمیم از نواحی تصمیم گیری ساده استفاده می کند .

3. مقایسه های غیر ضروری در این ساختار حذف می شوند .

4. از ویژگی های متفاوت برای نمونه های مختلف استفاده می شود .

5. نیازی به تخمین تابع توزیع نیست .

6. آماده سازی داده ها برای یک درخت تصمیم ، ساده یا غیر ضروری است .

7. درخت تصمیم یک مدل جعبه سفید است. توصیف شرایط در درختان تصمیم به آسانی و بامنطق بولی امکان پذیر است. در حالی که شبکه های عصبی به دلیل پیچیدگی در توصیفنتایج آنها، مدل جعبه سیاه می باشد .

8. تایید یک مدل در درخت های تصمیم بااستفاده از ارزیابی های آماری امکان پذیر است .

9. ساختارهای درخت تصمیم برای تحلیل داده های بزرگ در زمان کوتاه قدرتمند میباشند .

10. روابط غیر منتظره یا نا معلوم رامی یابند .

11. درخت های تصمیم قادر به شناساییتفاوت های زیر گروه ها می باشند .

12. درخت های تصمیم قادر به سازگارکردن داده ها فاقد مقدار هستند .

13. روش های درخت تصمیم به ویژه درآشکار کردن تراکنش های پیچیده بین متغیرها، بسیار توانمند هستند. هر شاخه ای ازدرخت می تواند شامل ترکیبات مختلفی از متغیرها باشد و متغیرهای یکسان می توانندبیش از یک بار در قسمت های مختلف درخت ظاهر شوند. این امر می تواند مشخص کند کهچگونه یک متغیر می تواند وابسته به متغیری دیگر باشد (صنیعی, محمودی, & طاهرپور, 1394) .

منابع

اسماعیلی, م. (1391). انبار داده ها وداده کاوی. تهران: انتشارات سافت گذر.

شهرابی, & شکورنیاز.(1386). مرور بر مفاهیم، وظایف و فرآیند داده کاوی سازمانی. تهران: دانشگاهامیر کبیر - 5 .

شیرازی, م. (1389). دادهکاوی : مفاهیم، روش ها و کاربردها. تهران: انتشارات دانشگاه خواجه نصیرالدینطوسی.

صنیعی, م., محمودی, س., &طاهرپور, م. (1394). داده کاوی کاربردی. تهران: انتشارات نیاز دانش.

مدیریت فناوری اطلاعات...

ما را در سایت مدیریت فناوری اطلاعات دنبال می‌کنید

برچسب: رگرسیون درختی,درخت رگرسیون و طبقه بندی, نویسنده: بازدید: 278 تاريخ: سه شنبه 30 آذر 1395 ساعت: 23:34

صفحه بندی