با افزایش چشمگیر حجم اطلاعات و توسعه وب، نیاز به روش ها و تکنیک هایی که بتوانند امکان دستیابی کارا به دادهها و استخراج اطلاعات از آنها را فراهم کنند، بیش از پیش احساس می شود. وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویسهای وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می شوند. طی این گزارش پس از معرفی وب کاوی و بررسی مراحل آن، ارتباط وب کاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها، مشکلات و کاربردهای این زمینه تحقیقاتی اشاره می شود. همچنین هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند که در این پروژه بیشتر به وب کاوی در صنعت می پردازم. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند.
فصل اول:مقدمه
مقدمه. 1
فصل دوم:داده کاوی
2- 1 مقدمه ای بر داده کاوی.. 6
2-1-1 چه چیزی سبب پیدایش داده کاوی شده است؟. 7
2-2 مراحل کشف دانش... 9
2- 3 جایگاه داده کاوی در میان علوم مختلف.. 12
2-4 داده کاوی چه کارهایی نمی تواند انجام دهد؟. 14
2-5 داده کاوی و انبار داده ها 14
2-6 داده کاوی و OLAP. 15
2-7 کاربرد یادگیری ماشین و آمار در داده کاوی.. 16
2-8 توصیف داده ها در داده کاوی.. 16
2-8-1 خلاصه سازی و به تصویر در آوردن داده ها 16
2-8-2 خوشه بندی.. 17
2-8-3 تحلیل لینک... 18
2-9 مدل های پیش بینی داده ها 18
2-9-1 دسته بندی.. 18
2-9-2 رگرسیون.. 18
2-9-3 سری های زمانی.. 19
2-10 مدل ها و الگوریتم های داده کاوی.. 19
2-10-1 شبکه های عصبی.. 19
2-10-2 درخت تصمیم. 22
2-10-3 Multivariate Adaptive Regression Splines(MARS) 24
2-10-4 Rule induction. 25
2-10-5 K-nearest neibour and memory-based reansoning(MBR)