دراسة تأثير وزن الصفات الفئوية ( البارامتر (γ) ) على عنقدة البيانات المختلطة في التنقيب عن البيانات

Authors

  • جبر حنا
  • فاتن الكردي

Abstract

Data Mining is considered as the most important research scopes by researchers over the world, the reason behind this importance comes from its usage in various areas such as research, scientific, economic and military. This techniques in fact is alternative way to the old traditional querying systems that was common in past, and introduce a powerful technique to discover a hidden knowledge from a large dataset, which wasn’t clear before applying it.

In this article we study effect of the categorical attributes weight in measuring distances between objects which are clustered, the common clustering algorithm called
K-prototypes is applied to the ‘adult’ dataset that contains six numerical attributes and nine categorical attributes describing a large amount of people whose ages, education levels, occupations, nations and salaries are different.

We choose two numerical attributes and three categorical attributes from the dataset to be clustered using K-prototypes algorithms, considering several values for ( parameter) (0.25, 0.5, 0.75, 1) respectively, after that we applied the Rand Index criterion to check the quality of clustering operation in the four scenario.

يعتبر التنقيب عن البيانات من الأبحاث التي حازت على اهتمام عدد كبير من الباحثين في جميع أنحاء العالم، ويعود السبب في ذلك إلى استخدامها على نطاق واسع في شتى المجالات البحثية والعلمية والاقتصادية والعسكرية، جاءت الحاجة إلى التنقيب عن البيانات بسبب كم البيانات الهائل الذي نتعامل معه اليوم بسبب التطور السريع والمتزايد لتكنولوجيا المعلومات ونظم الاتصالات والانترنت، وقدمت حلاً بديلاً عن الطرق التقليدية السابقة والتي تعتمد على تخزين هذا الكم الهائل من البيانات ضمن قاعدة بيانات ومن ثم القيام بعمليات الاستعلام التي تتطلب وقتاً وجهداً كبيرين من قبل المبرمجين والحواسيب التي تطبق عليها هذه العمليات، علاوة على أن هذه التقنية يمكن من خلالها الكشف عن معرفة مخبأة لم يكن ليتسنى لنا الوصول إليها باستخدام الطرق التقليدية السابقة.

تم في هذا البحث دراسة تأثير وزن الصفات الفئوية على عنقدة البيانات المختلطة، حيث طبقت خوارزمية العنقدة K-prototypes على مجموعة بيانات Adult Dataset والتي تتألف من ست صفات عددية وتسع صفات فئوية، وتتضمن معلومات حول أشخاص من جنسيات مختلفة ولديهم وظائف متنوعة ومستويات ثقافية متتالية بالإضافة إلى المستوى المعيشي لهم.

تم اختيار صفتين عدديتين وثلاث صفات فئوية ثم تطبيق خوارزمية العنقدة K-prototypes على هذه الصفات مع اختيار لقيم وزن الصفات الفئوية ( البارامتر ()) (0.25 ، 0.5 ، 0.75 ، 1) على الترتيب، ثم تم تطبيق المعيار Rand Index لقياس جودة العنقدة .

Downloads

Published

2018-10-18

How to Cite

1.
حنا ج, الكردي ف. دراسة تأثير وزن الصفات الفئوية ( البارامتر (γ) ) على عنقدة البيانات المختلطة في التنقيب عن البيانات. Tuj-eng [Internet]. 2018Oct.18 [cited 2024Nov.24];39(5). Available from: https://journal.tishreen.edu.sy/index.php/engscnc/article/view/4214