" مقدمة وممارسة تعدين البيانات في Python " ، إطلاق قدرات تحليل بيانات Python بالكامل ، وإتقان التقنيات الأساسية لعصر البيانات الضخمة ، والبدء بسهولة في تقنية استخراج البيانات وتطبيقها على المشاريع العملية
.

    لشراء كتب ومراجع أصلية بلغة أجنبية ، يرجى زيارة الموقع الإلكتروني للكتب الأصلية والكتب المرجعية (مكتبة). للدراسة في الخارج ، وإجراء اختبارات اللغة الأجنبية ، وشراء مواد تدريس اللغة الأجنبية ، يرجى زيارة موقع الكتب المرجعية والكتب الأصلية للغات الأجنبية (متجر كتب) ، والبحث عن "كتب أصلية باللغة الأجنبية وكتب مرجعية" على Baidu أو Google. أنت يمكنك أيضًا العثور على ما يلي ثنائي الأبعاد أدخل الرمز في متجر WeChat أو التطبيق للشراء.

عندما تتقن لغة أجنبية ، فإنك تتعرض لثقافة جديدة ولديك عقلية جديدة.

صورة

صورة

صورة

صورة

يقدم " مقدمة وممارسة Python Data Mining" المعرفة الأساسية والأدوات الأساسية والأساليب العملية لاستخراج البيانات ، ويأخذك في رحلة التنقيب عن البيانات بسهولة من خلال شرح الخوارزمية خطوة بخطوة. باستخدام مزيج من النظرية والتطبيق ، يقدم هذا الكتاب كيفية استخدام أشجار القرار و * خوارزميات الغابة للتنبؤ بنتائج ألعاب NBA ، وكيفية استخدام تحليل التقارب للتوصية بالأفلام ، وكيفية استخدام Naive Bayes للتعدين على وسائل التواصل الاجتماعي. ، و اكثر كثير. يغطي الكتاب أيضًا الشبكات العصبية والتعلم العميق ومعالجة البيانات الضخمة والمزيد. هذا الكتاب مخصص للمبرمجين الراغبين في التعلم وتجريب التنقيب في البيانات.

صورة

صورة

صورة

صورة

صورة

صورة

صورة

معلومات اساسية

المؤلف :
[
أستراليا ] روبرت لايتون ؛ ترجمة دو تشونشياو

الناشر : منشورات الشعب وصحافة الاتصالات

رقم ال ISBN:
9787115427106

وقت النشر : 2016-07

الإصدار : 1

وقت الطباعة : 2016-11

الانطباعات : 2

التجليد : غلاف ورقي

التنسيق : 16

الورق : ورق تعويض

عدد الصفحات : 236 صفحة

عدد الكلمات : 372 ألف كلمة

مقدمة

كمقدمة لاستخراج البيانات ، يقدم هذا الكتاب المعرفة الأساسية والأدوات الأساسية والأساليب العملية لاستخراج البيانات ، ويأخذك في رحلة لاستخراج البيانات من خلال شرح الخوارزميات خطوة بخطوة. باستخدام مزيج من النظرية والتطبيق ، يقدم هذا الكتاب كيفية استخدام أشجار القرار و * خوارزميات الغابة للتنبؤ بنتائج ألعاب NBA ، وكيفية استخدام تحليل التقارب للتوصية بالأفلام ، وكيفية استخدام Naive Bayes للتعدين على وسائل التواصل الاجتماعي. ، و اكثر كثير. يغطي الكتاب أيضًا الشبكات العصبية والتعلم العميق ومعالجة البيانات الضخمة والمزيد. هذا الكتاب مخصص للمبرمجين الراغبين في التعلم وتجريب التنقيب في البيانات.

اختيار المحرر

في عصر البيانات الضخمة مع التوسع السريع في نطاق البيانات ، يلعب التنقيب عن البيانات ، وهو التكنولوجيا الأساسية لتحديد البيانات المهمة ، دورًا مهمًا بشكل متزايد. سوف يمنحك "قوى خارقة" لحل المشكلات العملية: توقع نتيجة الأحداث الرياضية ، ووضع الإعلانات ، وحل إسناد المؤلف بناءً على أسلوب العمل ، والمزيد. يستخدم هذا الكتاب لغة Python التي يسهل تعلمها ولديها مكتبات خارجية غنية وجو مجتمعي جيد. من البسيط إلى العميق ، يأخذ البيانات الحقيقية ككائن بحث ، ويقدم طريقة تنفيذ التنقيب في بيانات Python إلى القراء. من خلال هذا الكتاب ، سيدخل القراء إلى قصر التنقيب عن البيانات ، ويفهمون تمامًا المعرفة الأساسية للتنقيب في البيانات ، ويتقنون الممارسة المتميزة لحل المشكلات العملية لاستخراج البيانات!

عن المؤلف

روبرت
لايتون
، دكتوراه في علوم الكمبيوتر ، خبير في قضايا الجرائم الإلكترونية وتحليل النصوص. كان حريصًا على برمجة Python لسنوات عديدة ، وشارك في تطوير العديد من المكتبات مفتوحة المصدر مثل مكتبة scikit-Learn ، وعمل كموجه لمشروع " Google Summer of Programming " لعام 2014 . لقد عمل بشكل وثيق مع العديد من شركات التنقيب عن البيانات العالمية لاستخراج البيانات الحقيقية وتطوير التطبيقات ذات الصلة. توفر شركته ، dataPipeline ، حلول استخراج البيانات وتحليل البيانات للعديد من الصناعات.

صورة

صورة

صورة

صورة

صورة

صورة

جدول المحتويات

الفصل 1 ابدأ
 رحلة التنقيب عن البيانات  1

1.1  مقدمة في التنقيب في البيانات  1

1.2  استخدام Python و IPython
Notebook
  2

1.2.1  قم بتثبيت Python   2

1.2.2  قم بتثبيت IPython   4

1.2.3  تثبيت مكتبة  scikit-Learn 5

1.3  مثال تحليل التقارب  5

1.3.1  ما هو تحليل التقارب  5

1.3.2  توصية المنتج  6

1.3.3 تحميل مجموعات البيانات   في NumPy 6

1.3.4  تنفيذ قواعد الفرز البسيطة  8

1.3.5  الفرز لمعرفة القواعد  10

1.4  مثال بسيط على مشكلة التصنيف  12

1.5  ما هي التصنيفات  12

1.5.1  تحضير مجموعة البيانات  13

1.5.2  تنفيذ خوارزمية  OneR 14

1.5.3  خوارزميات الاختبار  16

1.6  ملخص  18

الفصل 2
التصنيف  باستخدام مقدرات scikit - Learn  19

2.1 مقدرات  scikit-Learn 19 

2.1.1  أقرب خوارزمية الجوار  20

2.1.2  مقاييس المسافة  20

2.1.3  تحميل مجموعة البيانات  22

2.1.4  الجهود المبذولة لتوحيد العمليات  24

2.1.5  تشغيل الخوارزمية  24

2.1.6  ضبط المعلمات  25

2.2  تطبيق خط الأنابيب في المعالجة المسبقة  27

2.2.1  مثال المعالجة المسبقة  28

2.2.2  المعالجة المسبقة القياسية  28

2.2.3  التجميع  29

2.3  خط الأنابيب  29

2.4  ملخص  30

الفصل 3 استخدام
 أشجار القرار للتنبؤ بالفرق الفائزة  31

3.1  تحميل مجموعة البيانات  31

3.1.1  جمع البيانات  31

3.1.2 تحميل مجموعات البيانات   مع الباندا 32

3.1.3  تنظيف مجموعة البيانات  33

3.1.4  استخراج الميزات الجديدة  34

3.2  أشجار القرار  35

3.2.1  المعلمات في أشجار القرار  36

3.2.2  استخدام أشجار القرار  37

3.3 توقع   نتائج مباريات الدوري الاميركي للمحترفين 37 

3.4  الغابة العشوائية  41

3.4.1  مدى فعالية تكامل أشجار القرار  42

3.4.2  معلمات خوارزمية الغابة العشوائية  42

3.4.3  استخدام خوارزمية Random Forest  43

3.4.4  إنشاء ميزات جديدة  44

3.5  ملخص  45

الفصل 4 التوصية بالأفلام
 باستخدام تحليل التقارب  46

4.1  تحليل التقارب  46

4.1.1  خوارزميات تحليل التقارب  47

4.1.2  اختيار المعلمات  47

4.2  مشكلة توصية الفيلم  48

4.2.1  الحصول على مجموعة البيانات  48

4.2.2 تحميل البيانات   باستخدام الباندا 49

4.2.3  تنسيقات البيانات المتفرقة  49

4.3 تنفيذ خوارزمية  Apriori 50 

4.3.1 خوارزمية  Apriori 51 

4.3.2  التنفيذ  52

4.4  استخراج قواعد الاتحاد  54

4.5  ملخص  60

الفصل 5 استخراج
 الميزات بالمحولات  62

5.1  استخراج الميزات  62

5.1.1  تمثيل الحقائق في النماذج  62

5.1.2  أنماط إنشاء السمات المشتركة  64

5.1.3  创建好的特征  66

5.2  特征选择  67

5.3  创建特征  71

5.4  创建自己的转换器  75

5.4.1  转换器API  76

5.4.2  实现细节  76

5.4.3  单元测试  77

5.4.4  组装起来  79

5.5  小结  79

6
 使用朴素贝叶斯进行社会媒体挖掘  80

6.1  消歧  80

6.1.1  从社交网站下载数据  81

6.1.2  加载数据集并对其分类  83

6.1.3  Twitter数据集重建  87

6.2  文本转换器  90

6.2.1  词袋  91

6.2.2  N元语法  92

6.2.3  其他特征  93

6.3  朴素贝叶斯  93

6.3.1  贝叶斯定理  93

6.3.2  朴素贝叶斯算法  94

6.3.3  算法应用示例  95

6.4  应用  96

6.4.1  抽取特征  97

6.4.2  将字典转换为矩阵  98

6.4.3  训练朴素贝叶斯分类器  98

6.4.4  组装起来  98

6.4.5  用F1值评估  99

6.4.6  从模型中获取更多有用的特征  100

6.5  小结  102

7
 用图挖掘找到感兴趣的人  104

7.1  加载数据集  104

7.1.1  用现有模型进行分类  106

7.1.2  获取Twitter好友信息  107

7.1.3  构建网络  110

7.1.4  创建图  112

7.1.5  创建用户相似度图  114

7.2  寻找子图  117

7.2.1  连通分支  117

7.2.2  优化参数选取准则  119

7.3  小结  123

8
 用神经网络破解验证码  124

8.1  人工神经网络  124

8.2  创建数据集  127

8.2.1  绘制验证码  127

8.2.2  将图像切分为单个的字母  129

8.2.3  创建训练集  130

8.2.4  根据抽取方法调整训练数据集  131

8.3  训练和分类  132

8.3.1  反向传播算法  134

8.3.2  预测单词  135

8.4  用词典提升正确率  138

8.4.1  寻找相似的单词  138

8.4.2  组装起来  139

8.5  小结  140

9
 作者归属问题  142

9.1  为作品找作者  142

9.1.1  相关应用和使用场景  143

9.1.2  作者归属  143

9.1.3  获取数据  144

9.2  功能词  147

9.2.1  统计功能词  148

9.2.2  用功能词进行分类  149

9.3  支持向量机  150

9.3.1  用SVM分类  151

9.3.2  内核  151

9.4  字符N元语法  152

9.5  使用安然公司数据集  153

9.5.1  获取安然数据集  153

9.5.2  创建数据集加载工具  154

9.5.3  组装起来  158

9.5.4  评估  158

9.6  小结  160

10
 新闻语料分类  161

10.1  获取新闻文章  161

10.1.1  使用Web API获取数据  162

10.1.2  数据资源宝库reddit  164

10.1.3  获取数据  165

10.2  从任意网站抽取文本  167

10.2.1  寻找任意网站网页中的主要内容  167

10.2.2  组装起来  168

10.3  新闻语料聚类  170

10.3.1  k-means算法  171

10.3.2  评估结果  173

10.3.3  从簇中抽取主题信息  175

10.3.4  用聚类算法做转换器  175

10.4  聚类融合  176

10.4.1  证据累积  176

10.4.2  工作原理  179

10.4.3  实现  180

10.5  线上学习  181

10.5.1  线上学习简介  181

10.5.2  实现  182

10.6  小结  184

11
 用深度学习方法为图像中的物体进行分类  185

11.1  物体分类  185

11.2  应用场景和目标  185

11.3  深度神经网络  189

11.3.1  直观感受  189

11.3.2  实现  189

11.3.3  Theano简介  190

11.3.4  Lasagne简介  191

11.3.5  用nolearn实现神经网络  194

11.4  GPU优化  197

11.4.1  什么时候使用GPU进行

计算  198

11.4.2  用GPU运行代码  198

11.5  环境搭建  199

11.6  应用  201

11.6.1  获取数据  201

11.6.2  创建神经网络  202

11.6.3  组装起来  204

11.7  小结  205

12
 大数据处理  206

12.1  大数据  206

12.2  大数据应用场景和目标  207

12.3  MapReduce  208

12.3.1  直观理解  209

12.3.2  单词统计示例  210

12.3.3  Hadoop MapReduce  212

12.4  应用  212

12.4.1  获取数据  213

12.4.2  朴素贝叶斯预测  215

12.5  小结  226

附录  接下来的方向  227