صورة


صورة
صورة
صورة

إحدى سلاسل تحليل نص Python: تنزيل NLTK corpus





صورة
صورة
صورة
اليوم العادي :

بشكل عام ، يشمل تحليل البيانات تحليل البيانات المنظمة وغير المنظمة. الأول هو على سبيل المثال تحليل البيانات المهيكلة في تنسيق قائمة مشتركة ، بينما الأخير هو لتحليل البيانات في تنسيقات غير منظمة مثل النص والصور ومقاطع الفيديو. في الواقع ، على غرار البيانات المهيكلة ، يعد النص العادي أيضًا تنسيقًا شائعًا للبيانات.

تستخرج تحليلات النص الأنماط والرؤى المفيدة للمستخدمين النهائيين عن طريق تحليل البيانات النصية غير المهيكلة إلى نموذج أكثر تنظيماً باستخدام تقنيات مثل معالجة اللغة الطبيعية (NLP) واسترجاع المعلومات والتعلم الآلي (ML).

تقنيات مثل تصنيف النص وتجميع النص وتحليل المشاعر وتحليل التشابه ونمذجة العلاقة هي تقنيات تحليل النص الشائعة.

بالنسبة لبيانات النص غير المهيكلة ، نحتاج إلى استخدام مجموعة أدوات لغة Python الطبيعية NLTK (مجموعة أدوات لغة Python الطبيعية) للتحليل. يتضمن NLTK ، الذي نشأ في عام 2001 وصمم في الأصل للتدريس ، مجموعة عينة نصية تسمى corpora. من الواضح أن تحليل النص غير المنتظم يتطلب منا الحصول على NLTK أولاً.







صورة
صورة
صورة


01


قم بتنزيل nltk_data من الموقع الرسمي

صورة

انقر فوق الزر تحديث في الزاوية اليمنى السفلية من NLTK Downloader ، وقم أولاً بتعديل عنوان URL الموجود على الجانب الأيمن من فهرس الخادم إلى "https://www.nltk.org/nltk_data" على موقع NLTK الرسمي ؛

بعد تحديد حزمة التثبيت المراد تنزيلها ، انقر فوق "تنزيل" لتنزيل مجموعة nltk_data إلى المجلد "C: \ Users \ Administrator \ AppData \ Roaming \ nltk_data" ، انظر الشكل 1.



صورة

الشكل 1 قم بتنزيل ملف nltk corpus من الموقع الرسمي


تصل سعة مجموعة nltk التي يتم تنزيلها من الموقع الرسمي إلى 1.8 جيجابايت ، وسرعة التنزيل بطيئة. بديل عملي هو استخدام Baidu Cloud لتنزيل الحزمة المضغوطة ، على حساب فك ضغط كل ملف مضغوط يدويًا في nltk_data.zip.




صورة


صورة
صورة


02


بايدو السحابية تنزيل الحزمة المضغوطة nltk_data.zip

صورة

أدخل رابط الملف التالي في شريط البحث لمتصفح 360: "https://pan.baidu.com/s/1LWM3o7iRZMF8XaD91vx9Dw" ، أدخل رمز التحقق الديناميكي الذي أرسله الهاتف المحمول لفتح قرص شبكة Baidu ، و ثم أدخل كود الاستخراج "cnpf" لتنزيل الحزمة المضغوطة nltk_data.zip ، انظر الشكل 2.


صورة

الشكل 2 الشكل 2 Baidu cloud download nltk corpus


قم بفك ضغط الحزمة المضغوطة التي تم تنزيلها ، يمكنك الحصول على 9 مجلدات فرعية مثل chunkers ، corpora ، إلخ. وضعناها في مسار دليل التنزيل "C: \ Users \ Administrator \ AppData \ Roaming \ nltk_data" ، انظر الشكل 3.



صورة

الشكل 3 9 مجلدات فرعية موجودة في مجلد nltk_data





صورة
صورة
صورة


03


اختبار ما إذا كان تنزيل مجموعة nltk ناجحًا

صورة

افتح Jupyter Notebook ، وانقر فوق الزر New الموجود على اليمين لإنشاء ملف Python جديد ، وأدخل الأوامر التالية بدورها للتحقق مما إذا تم تنزيل مجموعة nltk بنجاح ، انظر الشكل 4.

صورة


صورة

الشكل 4 اختبار تنزيل nltk: الوصول إلى مجموعة براون


براون هي أول مجموعة تعليمية باللغة الإنجليزية في العالم من مستوى المليون ، والمعروفة أيضًا باسم "مجموعة المعايير الأمريكية المعاصرة للغة الإنجليزية" ، والتي طورها كوتشيرا وفرانسيس من جامعة براون في عام 1961. تتكون المجموعة من نصوص من مصادر وتصنيفات مختلفة.

تخبرنا نتيجة تنفيذ الأمر في الشكل 4 أن هناك 15 نوعًا في المجموعة ، مثل الأخبار (الأخبار) ، والغموض (الغموض) ، والأسطورة (الخيال) ، وما إلى ذلك ، مما يشير إلى أنه تم تثبيت مجموعة nltk الأصلية بنجاح.





صورة
صورة

04


مثال على معالجة اللغة الطبيعية:

تصفية كلمات التوقف والأسماء والأرقام بناءً على مجموعة Gutenberg


يحتوي NLTK على Gutenberg Corpus ، وهو مشروع مكتبة رقمية يمكن للأشخاص قراءته على الإنترنت.

1. قم بفك ضغط حزم gutenberg و punkt و stopwords والكلمات المضغوطة في المجلد الفرعي corpora nltk_data ، انظر الشكل 5 .


صورة

الشكل 5 ضغط المجلد الفرعي nltk_data


2. قم بإنشاء مجلد فرعي PY3 جديد في المسار التالي ، ثم ضع ملف english.pickle في هذا المسار في المجلد الفرعي PY3 المنشأ حديثًا ، انظر الشكل 6.

صورة



صورة

الشكل 6 مجلد فرعي جديد PY3


3. افتح Jupyter Notebook ، وانقر فوق الزر "جديد" على اليمين لإنشاء ملف Python جديد ، وأدخل الأوامر التالية بدورها: انظر الشكل 7 والشكل 8 لمعرفة النتائج الجارية.

صورة


صورة

الشكل 7 العرض التوضيحي للغة البرمجة اللغوية العصبية استنادًا إلى Jupyter Notebook



صورة

الشكل 8 عرض توضيحي للغة البرمجة اللغوية العصبية لتصفية كلمات التوقف والأسماء والأرقام: استنادًا إلى مشروع جوتنبرج


يوضح الشكل 8 أنه تمت تصفية كلمات الإيقاف والأسماء والأرقام من قائمة الكلمات.

صورة

المحرر: Cao Chengzhou

مراجعة: Yang Lu

صورة

المراجعات السابقة:

سلسلة تحليل بيانات Python الثامنة: الترابط بين تحليل بيانات Python و Stata

السلسلة السابعة لتحليل بيانات بايثون: تحليل الانحدار المتعدد

سلسلة تحليل بيانات بايثون السادسة: تصور البيانات

سلسلة تحليل بيانات بايثون الخامسة: العمليات العددية

سلسلة تحليل بيانات Python الرابعة: المعالجة المسبقة للبيانات

سلسلة تحليل بيانات بايثون الثالثة: الإحصاء الوصفي

السلسلة الثانية لتحليل بيانات بايثون: عملية الارتباط

إحدى سلاسل تحليل بيانات Python: تثبيت Anaconda


صورة
صورة
      صورة

    مقدمة في المحاسبة التجريبية أصبحت سهلة

     امسح رمز الاستجابة السريعة لمتابعتنا

                    صورة  

Dingyuan Accounting WeChat Group

موضوع هذه المجموعة:

تبادل Stata مع Python ،

تحليل البيانات المنظمة ،

استكشاف محاسبة النص غير المهيكلة ،

اكتب حياة Dingyuan Accounting معًا .


صورة