يهدف البحث إلى تصميم عروض للزبائن باستخدام المنهج التنبؤي الذي يعتمد عليه علم التنقيب في المعطيات، حيث كانت فترة جمع البيانات ممتدة من تاريخ 2/11/2013 و حتى 7/11/2013 وقامت الباحثة بتحليل مجموعة من المعطيات تتكون من سمة واحدة تتعلق هذه السمة بحجم استهلاك الخدمات المقدمة من شركة الاتصالات.
تم شرح محتوى المعطيات وتحليلها من خلال استخدام الأداة google colaboratory، ولغة البرمجة python، واستيراد بعض المكاتب ( os- mlxtend- numpy- pandas-seaborn- networkx- warnings- matplotlib- datetime- sklearn)، و أيضاً استيراد بعض المبادئ الإحصائية(association rules- apriori) و بعدها تطبيق خوارزمية kmeans للتعامل مع المعطيات وتم ذلك على المراحل التالية: المرحلة الأولى (مرحلة التحضير للتنقيب على المعطيات) حيث تم استكشاف شكل المعطيات ونوعها وقرائتها باستخدام مكتبة (pandas)، وفي المرحلة الثانية (مرحلة المعالجة المسبقة للمعطيات) تم تحويل نمط المعطيات لنمط مقروء وبعدها تم تجميع المعطيات بحسب الخلية (cell id) وبما أن مدة تجميع المعطيات كانت قصيرة تم إنشاء أعمدة جديدة تحوي ( الساعة، الدقيقة، الثانية) لدراسة تفاوت إستهلاك الخدمات بشكل أكثر دقّة ومن ثم تم حذف المعطيات ذات القيمة (null) للحصول على نتائج دقيقة، وفي المرحلة الثالثة (مرحلة معالجة المعطيات) تم إنشاء سمة (TeleV) والمكوّنة من مجموع الخدمات المقدمة من شركة الاتصالات، وبعدها تم استكشاف القيم الشاذّة والتخلص منها وبعدها تم تحويل المعطيات للتوزيع الطبيعي ومن ثم تم تطبيق خوارزمية (Kmeans) مع طريقة (Elbow_curve) لمعرفة عدد العناقيد الأمثل، ولم تكن النتائج دقيقة لذلك تم تالياً تطبيق خوارزمية (Kmeans) مع التابع (silhouette score) لتحديد عدد العناقيد الأمثل بشكل أكثر دقّة، وكان العدد الأمثل للعناقيد (2) وبعدها تم تطبيق خوارزمية (Kmeans) باستخدام عدد العناقيد السابق للحصول على العنقودين وبعدها تم تحديد العناصر المنتمية للعنقود الأول والعناصر المنتمية للعنقود الثاني ومن بعد الحصول على العنقودين تم تحديد العنقود الذي يحمل هذه السمة بشكل أكبر لتحديد الفئة التي يجب علينا أن نصمم لها عروضاً خاصة.