دانشگاه فردوسی مشهد، دانشکده کشاورزی، گروه مهندسی آب
چکیده
روش مرسوم برآورد میانگین رطوبتنسبی روزانه معدلگیری از رطوبتنسبی ساعت های استاندارد(6:30،12:30،18:30) است. منحنی رطوبتنسبی روزانه چولگی دارد ومتقارن نیست. بنابراین استفاده از ضرایب مساوی برای برآورد متوسط روزانه دقیق نیست. همچنین فقط رطوبتنسبی نیمی از شبانهروز دراین روشها درنظر گرفته میشود. افزون براین منحنیهای رطوبتنسبیروزانه بهشرایط اقلیمی (خوشهبندی) و ماه نیز وابسته است. 149 ایستگاه همدید ایران مطالعه شد. ابتدا خوشه بندی ایران برای تعیین ناحیههای همگن و همنوا با نه عامل هوا و اقلیم شناسی در دسترس (دما، بارش، تبخیر، رطوبت نسبی، دامنه تغییرات دمای سالانه، ارتفاعایستگاه و سه نمایه اقلیمبندی دومارتن، ایوانف و تورنتوایت) انجام شد. روش افرازی میانه محور با سه خوشه (نوارساحلی، کوهستانی و بیابانی-نیمهبیابانی) به حجمهای42، 60،48 بهدست آمد. این مقاله ناحیه کوهستانی را انتخاب و الگوهایی جدید برای برآورد رطوبت نسبی روزانه ارائه داده است. چون حجم داده های خوشه کوهستانی زیاد است ناچار به استفاده از طرح نمونهگیری سیستماتیک دوری شد. الگوهای مختلف رگرسیونی خطی و غیرخطی (خطیپذیر) پس از غربال و آماده سازی بر دادههای ساعتی برازش و سیزده الگوی برتر در ماههای مختلف و سالانه انتخاب شدند.مقادیر بالای ضریب تعیین تصحیح شده (Adj-R2) و آماره F قدرت بالای الگوها را نشان میدهد. کمترین ضریب تعیین این 13 الگو (989/0) مربوط به ماه ژانویه و بیشترین آن (997/0) مربوط به ماه سپتامبر است. واسنجی و مقایسه الگوهای ارائه شده دراین مقاله با الگوهای مرسوم قدیمی نشان از دقت بیشتر الگوهای ارائه شده در این پژوهش دارد. معیار مقایسه میانگین مربعخطا است.این معیار نشان داد که الگوهای ارائه شده در این مقاله خطای کمتری دارند به طوری که MSE ماه های مختلف تقریبا نصف الگوی قدیمی (رابطه1) و بسیار کمتر از آرگون (رابطه 2) است. متغیرهای مورد استفاده در الگوهای رگرسیونی رطوبت نسبی روزانه عبارت انداز: رطوبت نسبی ساعتی، معدل واقعی رطوبتنسبی روزانه. معدل رطوبت نسبی روز قبل، دمای حداکثر، حداقل و میانگین روزانه و بارش روزانه.
The relative humidity (RH) is one of the important variables of atmosphere. Average weekly, monthly and annually relative humidity is usually required. These averages calculated based on averaging daily relative humidity (DRH). Thus increasing the accuracy in estimating DRH causes the accuracy of the above averages. Conventional methods for estimating the DRH is mean relative humidity for local standard hours of Iran (6:30, 12:30 and 18:30) by equation (1). This equation is a global standard procedure that using by Iran Meteorological Organization and the Ministry of Energy (e.g., [1], [2]).
(1)
There are some weakness points in relation (1) witch causes large errors. Yao (1974) showed that the beta function has good fitting to the DRH. The behavior of DRH curve is skewed, so it is nonsymmetrical. Therefore, using the eq.1 increases errors [3].
Corvallis (2008) proposed the relationship (2) as a default for eq.1 [4]. It has little bias for several months [4]. Eq.2 shows that the DRH is dependent only to 3 and 15 Greenwich hours (morning and afternoon). It is observed that the effect of morning RH is approximately 2-times of afternoon RH.
(2)
The DRH curves is dependent on the climatic conditions and the months of years.
Court and Waco (1956) Said that DRH which is obtaining by averaging the morning and afternoon DRH is not accurate and it is greater than the actual DRH. They also found that the DRH is greater than the average of daily minimum and maximum RH and they stated that it is depends to the months too [5].
Day (1917) calculated the average monthly RH and concluded that it is dependent to the month, season and geographical coordinates and has errors. The errors are negative in some places and regions [6].
2 - Materials and methods
The previous studies show that the estimation of DRH by the standard three hours is not accurate and dependent to the month and climate. The Purpose of the present paper is to establish a new relationship for estimating DRH with the standard hours and also adding the temperatures and daily precipitation into these relationships. Moreover, the climates and months are also involved in relationships. We presented an equation for every month too.
Iran was partitioned by around medoids clustering method (PAM) with 9 variables and it is separated into three clusters [7]. The relationships that presented in this paper are suitable for the Mountainous cluster. The Spss.18 Software (step by step method) fitted patterns. This was done after data screening.
3- Results and discussion
Survey tables show the model acceptance and powerful fitting (for annual pattern with). Transformation at several predictors causes the increasing the goodness of fit some monthly patterns. The table (1) shows annual pattern of DRH.
Table.1) The annual pattern and the main statistic DRH in the mountainous region of Iran.
month
The end of the month daily average relative humidity
AdjR2
Std Err.
Durbin-Watson
VIF
F
P-value
Annual
0.995
1.54
1.784
<5.9
5.642E5
.000
4 – Conclusion
The DRH in the months depends on the logarithm of a day before DRH (RHY). The patterns witch presented in this paper were compared and calibrated with the old traditional and Oregon patterns (equation 1 and 2). The mean square error criteria (MSE) were used for these purposed. The results showed that our patterns are more accurate. MSE of our patterns are the lowest. The intercept of our patterns are nonzero and so it has physical meaning. Because the zero-DRH is not possible in the mountain regions. Moreover the RH of 15-hours has the greatest impact on the estimating DRH. This has been inconsistent with traditional and Oregon's patterns.
The all Patterns that presented in this paper are purposed for Iran's mountainous regions. These equations decrease the errors of DRH.
رطوبت نسبی یکی از متغیرهای مهم جًو است که در مطالعات و پژوهشهای کشاورزی، سدسازی، هیدرولوژی، شهرسازی، تعیین تبخیر از سطح آزاد آب و تبخیر و تعرق و... بهکار میرود. اغلب متوسط روزانه، هفتگی، ماهانه و سالانه رطوبت نسبی مورد نیاز است. معدل روزانه اساس و پایه سایر فاصلههای زمانی فوق است. بنابراین افزایش دقت در برآورد روزانه سبب افزایش دقت در سایر فواصل زمانی است. روش مرسوم و قدیمی برای برآورد میانگین رطوبت نسبی روزانه (رابطه1) معدل گیری از رطوبت نسبی سه ساعت استاندارد (6:30،12:30،18:30)است که بهعنوان یک دستورالعمل استاندارد جهانی در سازمان هواشناسی ایران و وزارت نیرو استفاده میشود (آرشیو وزارت نیرو و سالنامه های آماری، سازمان هواشناسی کشور، 2006).
(1)
نقطه ضعفهایی در رابطه (1) وجود دارد که سبب بزرگی خطای محاسبه توسط این رابطه میشود. منحنی رطوبت نسبی روزانه چوله است و رفتار غیرخطی دارد. یائو نشان داد که تابع بتا برازش خوبی بر منحنی رطوبت نسبی روزانه دارد (1974, Yao). لذا استفاده از رابطه استاندارد شده (1) خطا آمیز است و استفاده از ضرایب مساوی برای محاسبه متوسط روزانه دقیق نیست. هم چنین رابطه (1) فقط رطوبت نسبی نیمی از شبانهروز را در نظر میگیرد. افزون براین منحنیهای رطوبتنسبیروزانه بهشرایط اقلیمی و به ماههای مختلف سال نیز وابسته است. بنابراین نیاز به خوشهبندی اقلیمی است تا روابط مناسب در هراقلیم با توجه به دادههای مربوط ارائه شود. ناحیه بندی یا تفکیک زمانی- مکانی به واحدهای نسبتا مستقل براساس یک یا چند معیار مفروض اقلیم شناسی و جغرافیایی همواره در کانون توجه اقلیم شناسان بوده است. امروزه اقلیم شناسان واقعیت های موجود در پهنه های اقلیمی را با استفاده از روشهای نوین آماری با حداقل خطا به کار می برند(Theodoridis & Koutroumbas, 2009) خوشه به مجموعهای از دادهها گفته میشود که از نظر ویژگی های مورد بررسی به هم شبیه باشند.
محققین مختلف روشهایی را برای محاسبه رطوبت نسبی به طور مستقیم و غیرمستقیم برای کاهش خطای رابطه (1) ارائه داده اند. این موارد هیچ کدام خوشه بندی را رعایت نکردند. چند نمونه به شرح زیر است. سازمان تحلیل اقلیمهای فضایی دردانشگاه ایالتی آرگون رابطه (2) را برای بهعنوان جانشین رابطه (1) برای محاسبه متوسط رطوبتنسبی روزانه پیشنهاد کرد که برای ماه های مختلف کمی اریب است (با مقدار واقعی اختلاف دارد)،2008) ,(Corvallis. این رابطه نشان میدهد که متوسط روزانه فقط به رطوبتنسبی ساعت 3و 15 گرینویچ (صبح و بعدازظهر) وابسته است. همچنین مشاهده میشود که اثر رطوبتنسبی صبح تقریبا 2 برابر رطوبت نسبی بعدازظهر است.
(2)
ادواردلینارس دو رابطه (3)و(4) را برای تخمین رطوبتنسبی بهکمک دمای نقطهشبنم ودمای هوا ارائه داد (Linarce,1991).
(3)
(4)
Tdمیانگین ماهانه دما، Tمیانگین ماهانه دما، دامنه تغییرات سالانه دما، دامنه تغییرات روزانه دما و H ارتفاع ایستگاه (متر) است. دماها برحسب درجه سلسیوس است. هولمبو و همکاران(1945) رابطه بین دما و لگاریتم رطوبت نسبی را مطابق رابطه (5) بررسی کردند، (Holomboe, 1945) . cو d دو پارامتر ثابتاند که به دمای نقطهشبنم و دمایهوا وابسته هستند.
(5)
کورت و واکو اظهار داشتند که میانگین رطوبت نسبی روزانه که از معدل قرائتهای صبح و بعد از ظهر بهدست میآید دقیق نیست و بیشتر از معدل واقعی 24 ساعته است. همچنین آنها متوجه شدند که این معدل نیز بیشتر از معدل کمینه و بیشینه رطوبت نسبی روزانه است. آنها شهر شیکاگو را محل پژوهش خود قرار دادند و بیان کردند که میانگین روزانه به ماه مورد نظر نیز بستگی دارد (Court and Waco, 1956). دی میانگین رطوبت نسبی ماهانه را محاسبه و نتیجه گرفتند که این میانگین به ماه، فصل و مختصات جغرافیایی وابسته است و خطا آمیز است. این خطا در برخی از نقاط و در برخی مناطق منفی است. آنها جداول و نمودارهایی برای تصحیح محاسبه میانگین رطوبت نسبی روزانه در امریکا ارائه دادند (Day,1917). بلانک میانگین رطوبت نسبی ایستگاهی را با رطوبت نسبی 24 ساعته در چند نقطه امریکا مقایسه کرد. او اظهار داشت که میانگین حاصل از روشهایی که فقط بعضی از ساعات روز را در نظر میگیرد با معدل واقعی 24ساعته تفاوت دارد. این تفاوت به محل بررسی (موقعیت جغرافیایی) بستگی دارد (Blanc,1961).
تعیین نواحی اقلیمی در دوسده گذشته عمدتًا مرهون الکساندر فون همبولت (۱۸۱۷)، ولادیمیرکوپن (۱۸۴۶-۱۹۴۰)، کارلوس لینه (۱۷۳۵)، لورک هوارد ( ۱۸۱۵ )، تورنتوایت(۱۹۳۱) و پنمن (۱۹۸۴-1909) بوده است. این روشها بهدلیل استفاده از معیارها و آستانههای از پیش تعیین شده بهعنوان روشهای سنتی قلمداد میشوند (مسعودیان و عطایی، 1384). گوسن کشورهای حاشیه مدیترانه را با روشهای تحلیل خوشهای و مولفههای اصلی طبقه بندی کرد. او آمار90 ایستگاه را به کاربرد و حاشیه مدیترانه را به پنج ناحیه تقسیم کرد. این پنج ناحیه توسط بردارهای ویژه معنی دار انتخاب شدند(Goossens, 1985). جکسن و ویناند (1995) پهنهبندی بارش ایستگاههای مدیترانهای را براساس 34 متغیراقلیمی جغرافیایی با روش خوشهبندی ساده انجام و سپس با سه روش وارد، پیوند متوسط و لنس-ویلیامز مقایسه نموده است (Jackson & Weinand,1995). فریوان و کادی اوغلو (2008) کشور اردن را بر پایه متغیرهای بارش، رطوبت نسبی، حداقل وحداکثر دمای 16 ایستگاه با طول دوره آماری 30 سال به 3 ناحیه بارش همگن تقسیم نمودند. روش آنها براساس رسم منحنیهای هم ضریب تغییرات و هم ضریب چولگی بنا شده است. آنها براساس این ترسیمات ناحیهها را بهدست آوردند ( Freiwan, & Kadioglu, 2008).
پژوهشهای قبل نشان میدهد که برآورد رطوبت نسبی از روی سه ساعت استاندارد دقیق نیست و به ماه و اقلیم نیز وابسته است. هدف مقاله حاضر ارائه روابط جدیدی برای برآورد رطوبت نسبی روزانه از روی رطوبت ساعات مختلف روز، همچنین اضافه کردن دما و بارش روزانه در این روابط است. افزون براین اقلیم و ماه را نیز در روابط دخالت داده و روابطی مناسب برای ماههای مختلف در اقلیم (خوشه) کوهستانی ارائه شده است. ایران با روش افرازبندی میانه محور (با 9 متغیر) خوشهبندی و به سه خوشه تفکیک شده است. مقاله حاضر روابط را برای خوشه کوهستانی در نظر گرفته است. روش نمونهگیری سیستماتیک برای انتخاب نمونه مناسب استفاده شده است. مقایسه نتایج حاصل از روابط ارائه شده در این مقاله با رابطه (1) نیز توسط میانگین مربعات خطا (MSE) انجام که نشان از دقت روابط ارائه شده است.
2- مواد و روشها
2-1- منطقه مورد مطالعه و داده ها
کشور ایران با وسعت 1648000 کیلومترمربع در نیم کره شمالی، در قاره آسیا و در قسمت غربی فلات ایران واقع شده است. این کشور بین دو نصف النهار 44 و64 شرقی و دو مدار 25 و40 شمالی قرار دارد. حدود90درصد خاک ایران در محدوده فلات ایران واقع شده و کشوری کوهستانی محسوب میشود. رشته کوه های البرز و زاگرس مهمترین تاثیر را در آب و هوایی ایران دارند. این دو به ترتیب از شمال غربی به شمال شرقی و از شمال غربی به جنوب شرقی کشیده شدهاند (بختیاری، 1383). ایران هم اکنون 289 ایستگاه همدید داردکه آمار آنها دقت بالایی دارند. آنها به همین دلیل انتخاب شدهاند. تقریبا نیمی از ایستگاهها دارای آمار ناقص یا بسیار کوتاه مدتاند. حدود149 ایستگاه دارای آمار کامل با طول متوسط 25 سال است. ایستگاهها در سراسر ایران پراکندهاند. آمار ساعتی رطوبتنسبی، دمای حداقل، حداکثر و متوسط روزانه، بارشروزانه و رطوبتنسبی روزانه این ایستگاهها در اختیار است(پایگاه اطلاع رسانی سازمان هواشناسی کشور).
2-2- خوشه بندی افرازی میانه محور
روش خوشهبندی افرازی میانه محور[1] در آب و هواشناسی توصیه شده است (Rao and Srinivas,2008). این خوشه بندی بر روی ماتریس عدم تشابه مجموعه داده ها با تعریف یک ماتریس عدم تشابه عمل میکند. این روش استوارتر از سایر روش هاست. زیرا مجموع عدم تشابهات را کمینه میکند. در حالی که برخی از روش ها مانند روش میانگین محور فاصله اقلیدسی را کمینه میکند. همچنین عرض سیلهوت و نمودار سیلهوت را برای انتخاب تعداد اعضای بهینه خوشه نیز در بر میگیرد. برای هر خوشه یک شیئ یا مبنا (میانه) وجود دارد. این روش ابتدا k شیئ را به نام Medoids محاسبه می کند (برای k خوشه). هر میانه به صورت یک شیئ از یک خوشه تعریف می شود که متوسط عدم تشابه آن نسبت به سایر اشیا خوشه کمینه است. این نوع نمایش را در خوشه بندی (مرکز نوعی[2]) مینامند. پس از یافتن مجموعه میانهها هر عضو مجموعه داده ها به نزدیک ترین میانه خود مطابق رابطه (6) نسبت داده میشود.
(6)
شیئ i در خوشه vi قرار میگیرد هنگامیکه میانه mvi از هر میانه دیگر مانند mw به این خوشه نزدیک تر باشد. k باید به گونه ای باشد که تابع هدف () کمینه شود(Elgar, 2008 & Everitt, et.al, 2011). قطر خوشه بزرگ ترین عدم تشابه بین اشیا داخل این خوشه و تفکیک خوشه کوچکترین عدم تشابه بین دو شیئ داخل و خارج خوشه است. هم چنین معدل فاصله تمام اشیا خوشه را از میانه، متوسط فاصله می نامند.
2-3- اعتبارسنجی خوشهبندی
قبول یا رد خوشهبندی با آزمونهای آماری انجام میشود. این آزمونها متنوع اند. مهمترین آنها: ضریب همبستگیکوفنتیک[3]، عرضسیلهوت[4]، ناهمگنی[5] و ناهمنوایی[6] ناحیهای گشتاوری خطی است(Romesburg, 2004). دادههای هر خوشه باید از نظر همگنی و همنوایی بررسی شوند. روش گشتاوری خطی یک از کارامدترین روشهای تعیین همگنیوهمنوایی است (Hosking and Wallis, 1997).
2-4- عرض سیلهوت
عرض سیلهوت اندازهای برای یک بردار ویژگی است که مقدارمشابهت را با سایر بردارهای خوشه مربوط به خود و بردارهای سایر خوشهها مقایسه میکند. عرض سیلهوت s(i) برای بردار ویژگی iام در خوشه Kام مطابق رابطه (7) است.
(7)
a(i) متوسط فاصله بردار ویژگی iام نسبت بهسایر بردارهای ویژگی درخوشه kام است. b(i) کمترین متوسط فاصله از بردار ویژگی iام نسبت به سایر بردارهای ویژگی درخوشههای دیگر است. عرض سیلهوت بین 1- و 1 است. اگر s(i) نزدیک بهیک باشد، نشان دهنده خوشه بندی موفق است. اگر s(i) نزدیک به (1-) باشد، خوشه بندی بد و رد میشود. اگر s(i) نزدیک به صفر باشد، یعنی بردار ویژگی iام بهطور مساوی بین دو خوشه قرار دارد (روسیو، 1987).
2-5- آزمونهای همگنی براساس روش گشتاورهای خطی
داده های هر خوشه باید از نظر همگنی و همنوایی بررسی شوند. روش گشتاوری خطی یکی از کارامد ترین روش های تعیین همگنی و همنوایی است. گشتاور های خطی[7] به صورت ترکیب خطی از گشتاور های وزن دار احتمالی[8] تعریف میشود (Hosking and Wallis, 1997) . کاربرد گشتاورهای خطی آسان تر از گشتاورهای وزن دار احتمالی است. اگر امید ریاضی یک متغیر تصادفی متناهی باشد، آنگاه تمام گشتاورهای خطی آن وجود دارد و میتوان تابع چگالی این متغیر را به طور کامل برحسب گشتاورهای خطی اش نوشت. پارامترهای موقعیت، مقیاس و شکل یک تابع توزیع با نسبتهای گشتاوری خطی تفسیر میشود (رضایی پژند،1380). امروزه محققان رشته های هواشناسی و هیدرولوژی برای تایید ناحیه بندی و تحلیل فراوانی از روش گشتاور هایخطی بهره می برند. گشتاور های خطی به داده های پرت و حجم اندک نمونه حسّاسیّت کمی دارند. درحالی که گشتاورهای معمولی چنین نیستند. تخمین پارامترهای توزیع احتمالی منتخب، بویژه برای نمونه های کوچک با این روش قابل اطمینانتر از روشهای گشتاوری معمولی است. برآوردگرهای گشتاورهای خطی کاملاً نااریب هستند (هاسکینگ و والیس، 1997).
2-6- اندازه ناهمنوایی
نسبتهای گشتاورهای خطی نمونه هر ایستگاه (ضریب تغییرات LCV، چولگی LCS و کشیدگی LCK) یک نقطه در یک فضای سه بعدی در نظر گرفته میشود. یک گروه از ایستگاهها ابری از این نقاط را تولید میکنند. نشانه ناهمنوایی هرنقطه (ایستگاه) میزان دوری آن از مرکز ابر است. دوری در اینجا مفهوم همبستگی بین نسبتهای گشتاورهای خطی نمونهای را تداعی میکند. اندازه ناهمنوایی یک ایستگاه به صورت روابط (8) تا (10) محاسبه میشود.
(8)
(9)
(10)
N تعداد ایستگاههای گروه، بردار نسبتهای گشتاوری خطی ایستگاه iام،معدل بردارهای ، وارون ماتریس کوواریانس ایستگاهها و اندازه ناهمنوائی ایستگاه iام است. اگر بزرگ باشد، آنگاه ایستگاه iام ناهمنوا تلقی میشود. تعریف مقدار بزرگ بودن بستگی به تعداد ایستگاههای موجود در گروه دارد. مقدار حداکثر تابعی از و n است. میتوان آن را در سطح از آماره به دست آورد. چندک توزیع فیشر با 3 و () درجه آزادی واقع در بالای این توزیع است، (Hosking and Wallis, 1997) .
اندازه نا همگنی تخمین درجه نا همگنی در یک گروه از ایستگاه ها و ارزیابی همگن بودن ناحیه است. این معیار، تغییرات بین ایستگاهی گشتاور خطی نمونه را برای گروهی از ایستگاهها با مقدار مورد انتظار برای یک ناحیه همگن مقایسه میکند. تمامی ایستگاه های واقع در یک ناحیه همگن جامعه، گشتاور خطی یکسانی دارند. در حالی که گشتاورهای خطی نمونه آنها میتوانند متفاوت باشند. اندازه ناهمگنی با شبیه سازی منطقه ای به کمک توزیع کاپا چهار پارامتری انجام، آماره محاسبه و ناهمگنی بر حسب آماره H1 آزمون می شود. و بهترتیب میانگین و انحراف معیار دادههای شبیه سازی شده است (هاسکینگ ،1997).
الف- اگر باشد، ناحیه همگن تلقی میشود.
ب- اگر باشد، ناحیه مشکوک به ناهمگنی است.
پ- اگر باشد : قطعاً ناهمگن است.
2-8- متوسط واقعی رطوبت نسبی روزانه
رفتار رطوبتنسبی در طول شبانهروزیک تابع غیرخطی و نامتقارن مانند با دامنهاست(توتونیان، 1371). مقدار دقیق این متوسط از انتگرال سطح زیرمنحنی مطابق رابطة (11) بهدست میآید.
(11)
حل انتگرال فوق برای محاسبة رطوبت نسبی متوسط روزانه به روش عددی (قائده سیمسون) محاسبه شده است. دادههای دردسترس سهساعته هستند. بنابراین تقریب سیمسون انتگرال فوق مطابق رابطه (12) است (حبیبی، 1387). رطوبت نسبی ساعتiام و عدد 24 طول شبانروز (دامنه تابع) است.
(12)
2-9- الگوهای رگرسیون چندمتغیری
تحلیل رگرسیونی یک روش آماری برای پیشبینی مقادیر یک یا چند متغیر پاسخ (وابسته) از مجموعهای از مقادیر متغیرهای پیشبینی کننده (مستقل) است. رگرسیون خطی برآورد و نتایج استنباط پارامترهای را در الگوی (13) فراهم میکند.
(13)
در این الگو متغیرتصادفی، نمایش پاسخ در حالت n ام با است که از دو قسمت قطعی و تصادفی (خطا) تشکیل میشود. مولفه قطعی (یعنی) به پارامتر و متغیرهای مستقل (پیشگو) ، ، بستگی دارد. مولفه تصادفی یا خطا، اخلالی است که انحراف پاسخ را در آن حالت بیان میکند. بالانویس T نشان دهنده ترانهاده ماتریس است. صورت ماتریسی رگرسیون خطی چند متغیره مطابق رابطه (14) است که معمولا از نماد ماتریسی استفاده می شود.
(14)
فرضهای پایه زیر برای برازش الگوی رگرسیونی پذیرفته میشود. معدل خطاها صفر است ()، واریانس خطاها ثابت است (). خطاها دوبه دو مستقلاند. متغیرپاسخ بهصورت نرمال توزیع شده است. بنابراین باید برقراری این فرضها را در هنگام تحلیل دادهها آزمون کرد. افزون براین آزمون همخطی و داده پرت نیز باید انجام شود (نیرومند، 1384 و رضایی پژند و بزرگ نیا، 1380).
2-10- نرم افزارهای مورد استفاده
نرمافزار"R.12.1" برای خوشهبندی استفاده شدهاست (www.r-project.org). نقشه خوشهبندی ایران با نرمافزار “ArcView” رسم و ارائه شده است. نرم افزار SPSS.18 برای الگوبندی رطوبت نسبی روزانه استفاده شدهاست.
3- تجزیه و تحلیل و نتایج
- خوشه بندی: خوشهبندی149ایستگاه همدید ایران با شش متغیر دما، بارش، تبخیر، رطوبت نسبی و دامنه تغییرات دمای سالانه، ارتفاع ایستگاه و سه نمایه اقلیم بندی دومارتن، ایوانف و تورنت وایت با چند روش انجام شده است. انتخاب این متغیرها به علت در دسترس بودن و رابطه آنها با رطوبت نسبی است. نتایج روشها نشان میدهد که خوشهبندی به روش افرازی میانهمحور نسبت به سایر روشها برتری دارد. آزمونهای مناسب مانند عرض سیلهوت، همگنی و همنوایی گشتاورهای خطی نشان از برتری این روش دارد. خوشهبندی با روش میانهمحور منجر به تقسیم ایران بهسه ناحیه به نام مناطق ساحلی (دریای مازندران با بارش زیاد، خلیج فارس و دریای عمان با بارش کم)، نواحی کوهستانی (البرز، زاگرس، کپهداغ و نواحی مجاور آنها) و نواحی بیابانی و نیمه بیابانی (نواحی داخلی کشور ایران) تقسیم شدهاند. ارتفاع ایستگاه بهترین معیار برای تشخیص خوشههاست. عرض سیلهموت و آمارههای ناهمگنی (H1) برای هر سه خوشه در جدول (2) آمده است که نشان از همگنی سه خوشه دارد. آماره ناهمنوایی (Di) را برای این خوشه نشان نیز محاسبه شد. چهار ایستگاه درسه خوشه ناهمنوا تشخیص داده شد. ایستگاه تبریز در خوشه کوهستانی ناهمنوا بااندازه ناهمنوایی آن 468/4 استکه از این خوشه حذف شد (شکل 1). خوشه کوهستانی برای تحلیل انتخاب و الگوهای ماهانه بر داده های آن برازش داده شد. موارد تحلیل خوشه کوهستانی به شرح زیر است.
- نمونه گیری: روش سیستماتیک دوری در این تحقیق با توجه به حجم نمونه و حجم جامعه بهکمک بستههای نرم افزاری R صورت گرفته است. برای اینکار ناچار بودهایم که بستههای نرم افزاری را نیز تا نیل به هدف دلخواه تغییر دهیم. تعداد 5 ایستگاه به روش نمونه گیری سیستماتیک دوری برای خوشه کوهستانی انتخاب و تحلیل رگرسیون روی داده های ساعتی این پنج ایستگاه انجام شده است.
- آمادهسازی و غربال دادهها: اولین گام برای انجام هرتحلیل است. بررسی صحت، دقت، دادههای مشکوک و سایر موارد در غربال دادهها انجام شدهاست. این عمل منجر به حذف تعدادی از دادهها شد. تعداد دادههای مشکوک حذف شده در خوشه کوهستانی حدود 15% کل دادههاست. تعداد 18487 روز- داده برای تحلیل الگوی سالانه بهدست آمد. دادههای قابل قبول برای هرماه تفکیک شدند. تقریبا حدود1550 داده-روز برای هرماه در تحلیل شرکت داده شدند.
- تحلیل رگرسیون: رگرسیونخطی چندمتغیره برای الگوبندی انتخاب شده است. هدف بهدست آوردن رابطه رگرسیونی بین متوسط واقعی رطوبت نسبی روزانه () بهعنوان متغیرپاسخ و عوامل دیگر بهعنوان متغیرهای پیشگوست. این متغیرها به ترتیب عبارتاند از رطوبت نسبی ساعات3،9،15 گرینویچ و متوسط رطوبتنسبی روز قبل که بهترتیب با نمادهای ، ، و نشان داده شدهاند. همچنین چهار متغیر دمایحداقل، حداکثر، متوسطروزانه (سلسیوس) و بارش روزانه به میلیمتر (با نمادهای ،، و RAIN) نیز دراین تحلیل استفاده شدهاند. متوسط رطوبتنسبی واقعی روزانه با انتگرالگیری سیمسون واز روی دادههایساعتی مطابق رابطه (4) بهدرصد حساب شده است.
الگوهای مختلف رگرسیونیخطی وغیرخطی (خطی پذیر) با نرمافزار Spss.18 به روش گام به گام بردادههای ماهانه و سالانه برازش دادهشد. نتایج نهایی سیزده الگوی برتر سالانه و ماهانه به همراه آمارههای مهم در جدول (4) آمده است.
دادههای ماه سپتامبر برای شرح الگوی برتر بهعنوان نمونه ارائه میشوند. نتایج تحلیل دادههای این ماه در جداول(5) تا (8) ونمودارهای (2) تا (4) ارائه شدهاند. شکل(2) نمودار ماتریسیپراکنش متغیرهای ورودی درالگو و رفتار آنها را نسبت بههم نشان میدهد. ضرایبتعیین و اصلاح شدة (Adj-R2) درجدول (5) آمده است ضریبتعیین اصلاح شده مربوط به الگوی پذیرفته شده مساوی997/0است که نشان دهندة قدرت خوب الگوست. زیرا فقط03/0% تغییرات متغیرپاسخ توسط متغیرهای پیشگو بیان نمیشود. مقدار کم انحراف استاندارد برآورد نیز مؤید قوی بودن الگوست. مقادیر موجود در داخل جدول تحلیل واریانس (جدول6) نشاندهندة قدرت الگوست. ضرایبالگو در جدول (7) بههمراه خطایاستاندارد آنها و مقادیراحتمال مربوط آمده است که نشان از حضورقوی متغیرهای پیشگوی شرکت کننده در الگو دارد. آمارههایVIF (عامل تورم واریانس[10]) عدم همخطی متغیرهای پیشگو را نشان میدهند، زیرا کمتر از10هستند. برقراری فرضهایپایه درخصوص باقیماندهها باید بررسی شوند. جدول(8) رفتار باقیماندهها را نشان میدهد. دادهپرت در باقیماندهها وجود ندارد. معیار، باقیماندههای حذف شده استیودنتایز و دامنه این باقیماندهها بازه است. فاصله کوک در دامنه مناسبی قرار دارد. مقادیر اهرمگون نیز نشان از رفتار خوب باقیماندههاست. شکل (3) نمودار مستطیلی و چندک-چندک باقیماندههاست که نشان از پیروی باقیماندهها از توزیع نرمال دارد. شکل (4) نمودار پراکنش باقیماندههای حذف شده استیودنتایز درمقابل متغیرپاسخ است. این نمودار نشان میدهد که پراکندگی نقاط دریک نوارمستطیلی افقی قرار دارد. بنابراین تثبیت واریانس و نیاز به تبدیل در الگو احساس نمیشود. الگوی نهائی رطوبتنسبی روزانه برای ماهسپتامبر (جدول4) مطابق رابطه (15) است.
(15)
موارد زیر از اینالگو استنباط میشود. 1- نسبت ضریببهضرایبوبهترتیب برابر4/1 و 84/1 است که اهمیت بیشتررا درالگو نشان میدهد. این اهمیت درکلیه الگوهای ماهانه و سالانه برقرار است. 2- الگوی ارائه شده توسط دانشگاه آرگون (رابطه2) تاکید براهمیت بیشتر رطوبتنسبی صبح (ساعت 3) دارد که این مطلب با نتایج رابطه (15) درتناقض است. 3- الگوهای رابطه (1) و (2) بدون عرض از مبدا هستند. یعنی رطوبتنسبی روزانه میتواند صفر شود. درحالیکه الگوی (15) این مطلب را قویا رد میکند. این موضوع از نظر فیزیکی نیز تایید میشود. زیرا هیچگاه رطوبتنسبی روزانه درمناطق کوهستانی صفر نمیشود. نتیجه نهایی ارائه 13 الگوی برآورد رطوبت نسبی روزانه برای خوشه است که 12 الگوی ماهانه و یک الگوی سالانه در هر خوشه پیشنهاد شده است.
- واسنجی و مقایسه الگوها: الگوهای مرسوم قدیمی (رابطه1)، الگویآرگون (رابطه2) و الگوهای ارائه شده در این مقاله مقایسه و واسنجی شدند. دادههای جدول (6) این مقایسة عملی را برای کلیه ماهها و الگوی سالانه نشان میدهد. میانگین مربع خطا (MSE) معیار کارایی الگوهاست. مقادیر MSE1، MSE2و MSE3به ترتیب میانگین مربع خطا برای الگوی قدیمی (رابطه1)، الگوی آرگون (رابطه2) و الگوهای مقاله حاضر (الگوهای جدول4) است. مقایسه و واسنجی این 13 الگو با الگوهای مرسوم قدیمی (روابط 1و2) با معیار مجموع کمترین مربعات خطا (MSE) انجام شد. این مقایسه و واسنجی نشان داد که این 13 الگو خطای کمتری ارائه می کنند (جدول9)، به طوری که MSE ماه های مختلف تقریبا نصف الگوی قدیمی (رابطه1) و بسیار کمتر از آرگون (رابطه 2) است. جدول (9) نشان میدهد که الگوهای جدول (4) خطای کمتری از الگوهای (1) و (2) دارند. مثلا در مقیاس سالانه MSE الگوهای (1)، (2) و الگوی سالانه در مقاله حاضر به ترتیب 1/4، 7/22 و 4/2 است که کمترین خطا مربوط به الگوی سالانه پیشنهادی است.
4- نتیجهگیری
خوشهبندی 149 ایستگاه همدید ایران با شش متغیر دما، بارش، تبخیر ، رطوبت نسبی و دامنه تغییرات دمای سالانه، ارتفاع ایستگاه و سه نمایه اقلیم بندی دومارتن، ایوانف و تورنت وایت با روش افرازی میانه محور انجام شده است. آزمونهای مناسب مانند عرض سیلهوت، همگنی و همنوایی گشتاورهای خطی برای قبول خوشه بندی به کار رفته است. ایران به سه خوشه تقسیم شد (شکل 1). اطلاعات کلی سه خوشه در جدول (1) آمده است. آمارههای ناهمگنی (H1) برای هر سه خوشه در جدول (2) آمده است که نشان از همگنی سه خوشه دارد.
مقاله حاضر خوشه کوهستانی (خوشه دوم) را انتخاب و تحلیل کرده است. شکل (1) پراکندگی این خوشه را نشان میدهد. میانگین عرض سیلهوت خوشه دوم 36/0 است. آماره ناهمنوایی (Di) برای خوشه دوم نیز محاسبه شد. این آماره نشان داد که ایستگاه تبریز با اندازه ناهمنوایی 468/4 یک ایستگاه ناهمنواست و حذف شد. غربال نشان داد که 15% از دادههای خوشه کوهستانی مشکوک و نادرستاند (جدول3). پنج ایستگاه همدید اردبیل، ارومیه، شهرضا، لردگان و قروه در خوشه دوم پس از محاسبه حجم نمونه مورد نیاز به روش نمونهگیری سیستماتیک دوری به منظور الگوبندی (تحلیل رگرسیونی) انتخاب شد. الگوها در مقیاس ماه و سال تبیین بر داده ها برازش داده شد (جدول4). نرمافزار Spss.18 به روش گام به گام الگوها را تبیین نمود. ضرایبتعیین و اصلاح شده (Adj-R2) درجدول (4) آمده است. مقادیر بالای ضریب تعیین تصحیح شده (Adj-R2) و آماره F در جداول تحلیل واریانس قدرت بالای الگوها را نشان میدهد. کمترین ضریب تعیین این 13 الگو (989/0) مربوط به ماه ژانویه و بیشترین آن (997/0) مربوط به ماه سپتامبر است. کمترین مقدار آمارهF (2500) مربوط به ماه فوریه و بیشترین آن (564000) مربوط به الگوی سالانه است. مقدار کم انحراف استاندارد آماره F نیز مؤید قوی بودن الگوهاست. ضرایبالگو بههمراه خطایاستاندارد آنها و مقادیراحتمال مربوط نشان از حضورقوی متغیرهای پیشگوی شرکت کننده در الگو دارد. آمارههای VIF عدم همخطی متغیرهای پیشگو را نشان میدهند. مقدار آن برای همه الگوها کمتر7/9 است (جدول4). تبدیلاتی روی بعضی از متغیرهای پیشگو دربعضی از ماهها قدرت الگو را افزایش داد. جدول (4) نشان میدهد رطوبت نسبی روزانه در اکثر ماهها به لگاریتم رطوبت نسبی روز قبل (RHY) بستگی دارد. مقایسه و واسنجی الگوهای ارائه شده دراین مقاله با الگوهای مرسوم قدیمی وآرگون (رابطه 1و2) با معیار مقایسه MSE نشان از دقت بیشتر الگوهای ارائه شده در این مقاله دارد. به طوری که MSEالگوهای سیزده گانه این تحقیق تقریبا نصف الگوی قدیمی (رابطه1) و بسیار کمتر از آرگون (رابطه 2) است. همچنین الگوهای جدول (4) وجود عرض از مبدا را در الگو تایید میکند که از نظرفیزیکی نیزمعقول است. زیرا رطوبتنسبی صفر در مناطق کوهستانی عملا امکان پذیر نیست. افزون براین رطوبت نسبی ساعت 15 بیشترین تاثیر را در برآورد رطوبت نسبی روزانه دارد. این موارد با الگوهای مرسوم و آرگون مغایرت دارد.
الگوهای جدول (4) با توجه به موارد ذکر شده برای مناطق کوهستانی ایران پیشنهاد می شود. خطاهای برآورد رطوبت نسبی را میتوان با بهکارگیری این الگوها بهجای الگوهای قدیمی و مرسوم کاهش داد.
جدول1- اطلاعات کلی سه خوشه انتخابی ایران
حجم
بیشترین فاصله
متوسط فاصله
قطر
تفکیک
خوشه اول
41
1746.1
503.47
2073.1
184.86
خوشه دوم
60
1255.63
328.56
1626.2
72.98
خوشه سوم
48
628.66
291.4
947.36
72.98
خوشه سوم
خوشه دوم
خوشه اول
شماره خوشه
40/0
36/0
38/0
میانگین عرض سیلهوت هرخوشه
38/0
میانگین عرض سیلهوت همه مجموعه داده ها
جدول2- معیارهای همگنی هاسکینگ-والیس برای سه خوشه پذیرفته شده
شماره خوشه
H1
V1
خوشه اول
-0.092
0.068
خوشه دوم
-0.133
0.070
خوشه سوم
0.042
0.060
جدول3- نمونهای از غربال دادهها برای رطوبت نسبی ساعات مختلف شبانروز. دادههای مشکوک زمینه تیره دارند.
ماه
روز
RH0
RH3
RH6
RH9
RH12
RH15
RH18
RH21
RH24
Rain
Tmin
Tmax
Tmean
RHT
RHY
3
20
68
15
18
15
73
86
100
100
94
1
6.4
26.6
16.5
58.7
72.9
4
4
95
92
90
84
86
20
93
95
98
0
8.6
12.5
10.5
78.8
85.5
8
23
87
7
74
57
64
77
88
92
87
0
23.2
33
28.1
64.6
71.5
7
18
87
81
76
59
45
6
85
83
87
0
22.6
30.8
26.7
62.8
72.5
جدول4- آماره های اصلی الگوهای نهایی ماهانه و سالانه متوسط رطوبت نسبی روزانه در اقلیم کوهستانی
ماه
الگوی نهایی متوسط رطوبت نسبی روزانه
AdjR2
Std Err.
Durbin-Watson
VIF
F
P-valu
Jan
0.989
1.45
1.878
<3.7
3.16E4
.000
Feb
0.992
1.51
1.844
<4.7
2.55E4
.000
Mar
0.995
1.55
1.832
<4.3
4.119E4
.000
Apr
0.993
1.60
1.856
<3.3
4.31E4
.000
May
0.994
1.60
1.774
<5.3
6.39E4
.000
Jun
0.995
1.55
1.776
<9.2
5.59E4
.000
Jul
0.995
1.51
1.738
<8.6
8.39E4
.000
Aug
0.996
1.53
1.758
<8.8
9.23E4
.000
Sep
0.997
1.45
1.821
<9.7
9.77E4
.000
Oct
0.996
1.51
1.646
<6.6
7.77E4
.000
Nov
0.993
1.51
1.823
<3.4
5.39E4
.000
Dec
0.991
1.44
1.911
<3.1
4.26E4
.000
Anual
0.995
1.54
1.784
<5.9
5.64E5
.000
جدول5- ضریب تعیین الگوی ماه سپتامبر
Model
R
R Square
Adjusted R Square
Std. Error of the Estimate
Durbin-Watson
1
.969
.938
.938
6.25015
2
.992
.985
.985
3.11355
3
.998
.995
.995
1.72438
4
.998
.997
.997
1.46241
5
.998
.997
.997
1.45658
1.821
جدول6- تجزیه واریانس الگوهای مختلف برای ماه سپتامبر
Model
Sum of Squares
df
Mean Square
F
Sig.
1
Regression
975350.500
1
975350.500
2.497E4
.000a
Residual
64378.093
1648
39.064
Total
1039728.593
1649
2
Regression
1023762.306
2
511881.153
5.280E4
.000b
Residual
15966.287
1647
9.694
Total
1039728.593
1649
3
Regression
1034834.217
3
344944.739
1.160E5
.000c
Residual
4894.376
1646
2.973
Total
1039728.593
1649
4
Regression
1036210.539
4
259052.635
1.211E5
.000d
Residual
3518.055
1645
2.139
Total
1039728.593
1649
5
Regression
1036240.654
5
207248.131
9.768E4
.000e
Residual
3487.939
1644
2.122
Total
1039728.593
1649
جدول 7- جدول ضرایب الگو، آمارة t و اندازة احتمال الگوی ماه سپتامبر
Model
Unstandardized Coefficients
Standardized Coefficients
t
Sig.
Collinearity Statistics
B
Std. Error
Beta
Tolerance
VIF
1
(Constant)
14.223
.277
51.427
.000
RH15
.810
.005
.969
158.012
.000
1.000
1.000
2
(Constant)
.349
.240
1.453
.146
RH15
.481
.005
.575
90.673
.000
.232
4.319
RH3
.448
.006
.448
70.668
.000
.232
4.319
3
(Constant)
.416
.133
3.135
.002
RH15
.354
.004
.423
97.901
.000
.154
6.514
RH3
.381
.004
.382
103.904
.000
.211
4.731
RH9
.273
.004
.237
61.021
.000
.190
5.274
4
(Constant)
-11.767
.493
-23.854
.000
RH15
.343
.003
.410
111.141
.000
.151
6.627
RH3
.293
.005
.294
62.802
.000
.094
10.639
RH9
.264
.004
.229
69.034
.000
.188
5.328
LNRHY
4.947
.195
.113
25.368
.000
.104
9.598
5
(Constant)
-10.535
.590
-17.846
.000
RH15
.343
.003
.409
111.124
.000
.150
6.653
RH3
.291
.005
.292
62.163
.000
.093
10.790
RH9
.257
.004
.222
60.533
.000
.151
6.617
LNRHY
5.028
.195
.115
25.729
.000
.103
9.715
TMAX
-.042
.011
-.009
-3.768
.000
.360
2.777
جدول8- مشخصات باقیمانده های الگوی ماه سپتامبر
Minimum
Maximum
Mean
Std. Deviation
N
Predicted Value
5.6199
100.7188
50.5358
25.06802
1650
Std. Predicted Value
-1.792
2.002
.000
1.000
1650
Standard Error of Predicted Value
.040
.235
.084
.024
1650
Adjusted Predicted Value
5.6075
100.7308
50.5356
25.06827
1650
Residual
-3.02810
3.25271
.00000
1.45437
1650
Std. Residual
-2.079
2.233
.000
.998
1650
Stud. Residual
-2.085
2.235
.000
1.000
1650
Deleted Residual
-3.04479
3.25895
.00025
1.45976
1650
Stud. Deleted Residual
-2.087
2.238
.000
1.001
1650
Mahal. Distance
.249
42.016
4.997
3.967
1650
Cook's Distance
.000
.011
.001
.001
1650
Centered Leverage Value
.000
.025
.003
.002
1650
جدول9- مقایسه معدل رطوبت نسبی با معادلات (1) و (2) و الگوهای جدول (4) با معیار MSE
Annual
Dec
Nov
Oct
Sep
Aug
Jul
Jun
May
Apr
Mar
Feb
Jan
ماه
1/4
4/4
3/4
9/3
7/3
9/3
6/3
6/3
2/4
1/5
2/4
8/4
5/4
MSE1
7/22
8/23
3/26
4/21
9/15
4/21
2/16
8/17
5/24
2/34
6/30
27
7/24
MSE2
4/2
1/2
3/2
3/2
1/2
3/2
3/2
4/2
5/2
6/2
5/2
3/2
1/2
MSE3
شکل 1- نمایش نموداری نقطهای خوشه بندی ایران به سه ناحیه. خوشه کوهستانی با شش ضلعی مشخص شده
شکل2- نمودار پراکنش ماتریسی رفتارمتغیرهای ورودی الگو در برابر یکدیگر برای ماه سپتامبر. SIM-T و SIM-Y به ترتیب رطوبت نسبی واقعی روزانه و روز قبل است.
شکل3- نمودار مستطیلی (راست) و چندکی (چپ) باقیماندههای استانداردشده ماه سپتامبر
شکل 4- نمودارپراکنش باقیماندههای استانداردشده شده ماه سپتامبر. SIM-T رطوبت نسبی واقعی روزانه است.
Toutounian, F., 1992, Numerical Methods for computer Science Engineering and Mathematics. Khorasan Pub, pp736.
Habiby, M. Rezaee-Pazhand H., and Farzandi M., 2008, Mean Daily Temperature Pattern for Arid and Semi-arid Zones in Iran, Iran-Water Resources Research, Volume 4, No. 1, Spring 2008 (IR-WRR).
Rezaee-Pazhand, H., Bozorgnia, A., 2002, Nonlinear Regression Analysis with application, Mashhad University Pub, pp400.
Masoodian, S. A. and Ataei, H., 2005, A Cluster Analysis of Precipitation Seasons of Iran, Research Journal of Esfahan University.
Niroumand, H., 2005, Regression Analysis by Example. Mashhad University Pub, pp384.
Blanc, M. L. 1961, A Comparison of Methods for Computing Daily Mean Values of 66 Dry Bulb Temperatures, Dew Point, and Relative Humidity, Monthly Weather Review, vol. 89, 10: 401-410.
Elgar, E., 2008, Handbook of Research on Cluster Theory, Edited by Charlie Karlsson.
Everitt, B. S., Landau S., Leese, M., Stahl, D., 2011, Cluster Analysis, 5th Edition, John Wiley and Sons.
Corvallis, Oregon, USA, 2008, United States Average Monthly or Annual Relative Humidity, (SCAS/OSU).
Court, A. And Waco, D.1956. Means and midranges of relative humidity. Monthly weather review vol. 93, 8: 517-522.
Day, P. C. 1917, Relative Humidity and Vapor Pressures over the United States, including a Discussion of Data from Recording University of Chicago Press, , 375 pp. (ref. on page 242).
Freiwan, M. and Kadioglu, M. 2008. Spatial and temporal analysis of climatological data in Jourdon, International Journal of Climatology, 28, 521- 535.
Goossens, C. 1985. Principal component analysis of Mediterranean rainfall, Internation Journal of Climatology, 5:379-388.
Holomboe, J., Forsythe, G.E., and Gustin, W.1945. ِDynamic Meteorology, John Wiley &Sons, Inc., New York.
Hosking, J. R. M, Wallis, J.R., 1997. Regional frequency analysis: An approach based on L-moments. Cambridge University Press, New York.
Jackson, I. and Weinand, H. 1995. Classification of tropical rainfall stations: A comparision of clustering techniques. International Journal of Climatology, 15: 985-994.
Linarce, E., 1991, Climate Data and Resources:A Referance and Guide.
Rao, A.R. and Srinivas, V.V. 2008. Regionalization of watersheds: An approach based on cluster analysis, Springer Science.
Romesburg, H., C. 2004. Cluster Analysis for Researchers. Lifetime Learning Publications, Belmont, C.A.