دراسة تأثير وزن الصفات الفئوية ( البارامتر (γ) ) على عنقدة البيانات المختلطة في التنقيب عن البيانات
Abstract
Data Mining is considered as the most important research scopes by researchers over the world, the reason behind this importance comes from its usage in various areas such as research, scientific, economic and military. This techniques in fact is alternative way to the old traditional querying systems that was common in past, and introduce a powerful technique to discover a hidden knowledge from a large dataset, which wasn’t clear before applying it.
In this article we study effect of the categorical attributes weight in measuring distances between objects which are clustered, the common clustering algorithm called
K-prototypes is applied to the ‘adult’ dataset that contains six numerical attributes and nine categorical attributes describing a large amount of people whose ages, education levels, occupations, nations and salaries are different.
We choose two numerical attributes and three categorical attributes from the dataset to be clustered using K-prototypes algorithms, considering several values for ( parameter) (0.25, 0.5, 0.75, 1) respectively, after that we applied the Rand Index criterion to check the quality of clustering operation in the four scenario.
يعتبر التنقيب عن البيانات من الأبحاث التي حازت على اهتمام عدد كبير من الباحثين في جميع أنحاء العالم، ويعود السبب في ذلك إلى استخدامها على نطاق واسع في شتى المجالات البحثية والعلمية والاقتصادية والعسكرية، جاءت الحاجة إلى التنقيب عن البيانات بسبب كم البيانات الهائل الذي نتعامل معه اليوم بسبب التطور السريع والمتزايد لتكنولوجيا المعلومات ونظم الاتصالات والانترنت، وقدمت حلاً بديلاً عن الطرق التقليدية السابقة والتي تعتمد على تخزين هذا الكم الهائل من البيانات ضمن قاعدة بيانات ومن ثم القيام بعمليات الاستعلام التي تتطلب وقتاً وجهداً كبيرين من قبل المبرمجين والحواسيب التي تطبق عليها هذه العمليات، علاوة على أن هذه التقنية يمكن من خلالها الكشف عن معرفة مخبأة لم يكن ليتسنى لنا الوصول إليها باستخدام الطرق التقليدية السابقة.
تم في هذا البحث دراسة تأثير وزن الصفات الفئوية على عنقدة البيانات المختلطة، حيث طبقت خوارزمية العنقدة K-prototypes على مجموعة بيانات Adult Dataset والتي تتألف من ست صفات عددية وتسع صفات فئوية، وتتضمن معلومات حول أشخاص من جنسيات مختلفة ولديهم وظائف متنوعة ومستويات ثقافية متتالية بالإضافة إلى المستوى المعيشي لهم.
تم اختيار صفتين عدديتين وثلاث صفات فئوية ثم تطبيق خوارزمية العنقدة K-prototypes على هذه الصفات مع اختيار لقيم وزن الصفات الفئوية ( البارامتر ()) (0.25 ، 0.5 ، 0.75 ، 1) على الترتيب، ثم تم تطبيق المعيار Rand Index لقياس جودة العنقدة .
Downloads
Published
How to Cite
Issue
Section
License
Copyright (c) 2018 ttps://creativecommons.org/licenses/by-nc-sa/4.0/
This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
The authors retain the copyright and grant the right to publish in the magazine for the first time with the transfer of the commercial right to Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series
Under a CC BY- NC-SA 04 license that allows others to share the work with of the work's authorship and initial publication in this journal. Authors can use a copy of their articles in their scientific activity, and on their scientific websites, provided that the place of publication is indicted in Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series . The Readers have the right to send, print and subscribe to the initial version of the article, and the title of Tishreen University Journal for Research and Scientific Studies - Engineering Sciences Series Publisher
journal uses a CC BY-NC-SA license which mean
You are free to:
- Share — copy and redistribute the material in any medium or format
- Adapt — remix, transform, and build upon the material
- The licensor cannot revoke these freedoms as long as you follow the license terms.
- Attribution — You must give appropriate credit, provide a link to the license, and indicate if changes were made. You may do so in any reasonable manner, but not in any way that suggests the licensor endorses you or your use.
- NonCommercial — You may not use the material for commercial purposes.
- ShareAlike — If you remix, transform, or build upon the material, you must distribute your contributions under the same license as the original.
- No additional restrictions — You may not apply legal terms or technological measures that legally restrict others from doing anything the license permits.