إحدى سلاسل تحليل نص Python: تنزيل NLTK corpus

إحدى سلاسل تحليل نص Python: تنزيل NLTK corpus

اليوم العادي :

بشكل عام ، يشمل تحليل البيانات تحليل البيانات المنظمة وغير المنظمة. الأول هو على سبيل المثال تحليل البيانات المهيكلة في تنسيق قائمة مشتركة ، بينما الأخير هو لتحليل البيانات في تنسيقات غير منظمة مثل النص والصور ومقاطع الفيديو. في الواقع ، على غرار البيانات المهيكلة ، يعد النص العادي أيضًا تنسيقًا شائعًا للبيانات.

تستخرج تحليلات النص الأنماط والرؤى المفيدة للمستخدمين النهائيين عن طريق تحليل البيانات النصية غير المهيكلة إلى نموذج أكثر تنظيماً باستخدام تقنيات مثل معالجة اللغة الطبيعية (NLP) واسترجاع المعلومات والتعلم الآلي (ML).

تقنيات مثل تصنيف النص وتجميع النص وتحليل المشاعر وتحليل التشابه ونمذجة العلاقة هي تقنيات تحليل النص الشائعة.

بالنسبة لبيانات النص غير المهيكلة ، نحتاج إلى استخدام مجموعة أدوات لغة Python الطبيعية NLTK (مجموعة أدوات لغة Python الطبيعية) للتحليل. يتضمن NLTK ، الذي نشأ في عام 2001 وصمم في الأصل للتدريس ، مجموعة عينة نصية تسمى corpora. من الواضح أن تحليل النص غير المنتظم يتطلب منا الحصول على NLTK أولاً.

قم بتنزيل nltk_data من الموقع الرسمي

انقر فوق الزر تحديث في الزاوية اليمنى السفلية من NLTK Downloader ، وقم أولاً بتعديل عنوان URL الموجود على الجانب الأيمن من فهرس الخادم إلى "https://www.nltk.org/nltk_data" على موقع NLTK الرسمي ؛

بعد تحديد حزمة التثبيت المراد تنزيلها ، انقر فوق "تنزيل" لتنزيل مجموعة nltk_data إلى المجلد "C: \ Users \ Administrator \ AppData \ Roaming \ nltk_data" ، انظر الشكل 1.

الشكل 1 قم بتنزيل ملف nltk corpus من الموقع الرسمي

تصل سعة مجموعة nltk التي يتم تنزيلها من الموقع الرسمي إلى 1.8 جيجابايت ، وسرعة التنزيل بطيئة. بديل عملي هو استخدام Baidu Cloud لتنزيل الحزمة المضغوطة ، على حساب فك ضغط كل ملف مضغوط يدويًا في nltk_data.zip.

بايدو السحابية تنزيل الحزمة المضغوطة nltk_data.zip

أدخل رابط الملف التالي في شريط البحث لمتصفح 360: "https://pan.baidu.com/s/1LWM3o7iRZMF8XaD91vx9Dw" ، أدخل رمز التحقق الديناميكي الذي أرسله الهاتف المحمول لفتح قرص شبكة Baidu ، و ثم أدخل كود الاستخراج "cnpf" لتنزيل الحزمة المضغوطة nltk_data.zip ، انظر الشكل 2.

الشكل 2 الشكل 2 Baidu cloud download nltk corpus

قم بفك ضغط الحزمة المضغوطة التي تم تنزيلها ، يمكنك الحصول على 9 مجلدات فرعية مثل chunkers ، corpora ، إلخ. وضعناها في مسار دليل التنزيل "C: \ Users \ Administrator \ AppData \ Roaming \ nltk_data" ، انظر الشكل 3.

الشكل 3 9 مجلدات فرعية موجودة في مجلد nltk_data

اختبار ما إذا كان تنزيل مجموعة nltk ناجحًا

افتح Jupyter Notebook ، وانقر فوق الزر New الموجود على اليمين لإنشاء ملف Python جديد ، وأدخل الأوامر التالية بدورها للتحقق مما إذا تم تنزيل مجموعة nltk بنجاح ، انظر الشكل 4.

الشكل 4 اختبار تنزيل nltk: الوصول إلى مجموعة براون

براون هي أول مجموعة تعليمية باللغة الإنجليزية في العالم من مستوى المليون ، والمعروفة أيضًا باسم "مجموعة المعايير الأمريكية المعاصرة للغة الإنجليزية" ، والتي طورها كوتشيرا وفرانسيس من جامعة براون في عام 1961. تتكون المجموعة من نصوص من مصادر وتصنيفات مختلفة.

تخبرنا نتيجة تنفيذ الأمر في الشكل 4 أن هناك 15 نوعًا في المجموعة ، مثل الأخبار (الأخبار) ، والغموض (الغموض) ، والأسطورة (الخيال) ، وما إلى ذلك ، مما يشير إلى أنه تم تثبيت مجموعة nltk الأصلية بنجاح.

مثال على معالجة اللغة الطبيعية:

تصفية كلمات التوقف والأسماء والأرقام بناءً على مجموعة Gutenberg

يحتوي NLTK على Gutenberg Corpus ، وهو مشروع مكتبة رقمية يمكن للأشخاص قراءته على الإنترنت.

1. قم بفك ضغط حزم gutenberg و punkt و stopwords والكلمات المضغوطة في المجلد الفرعي corpora nltk_data ، انظر الشكل 5 .

الشكل 5 ضغط المجلد الفرعي nltk_data

2. قم بإنشاء مجلد فرعي PY3 جديد في المسار التالي ، ثم ضع ملف english.pickle في هذا المسار في المجلد الفرعي PY3 المنشأ حديثًا ، انظر الشكل 6.

الشكل 6 مجلد فرعي جديد PY3

3. افتح Jupyter Notebook ، وانقر فوق الزر "جديد" على اليمين لإنشاء ملف Python جديد ، وأدخل الأوامر التالية بدورها: انظر الشكل 7 والشكل 8 لمعرفة النتائج الجارية.