کتابخانه هضم پایتون | پردازش متن فارسی

زمان مطالعه: 10 دقیقه ویرایش: 1401/10/14

سلام. توی این مقاله قراره با پردازش متن زبان فارسی آشنا بشیم! برای این کار از کتابخانه Hazm استفاده خواهیم کرد

ویژگی های کتابخانه هضم:

تمیز و مرتب کردن متن
تقطیع جمله‌ها و واژه‌ها
ریشه‌یابی واژه‌ها
تحلیل صرفی جمله
تجزیه نحوی جمله
واسط استفاده از داده‌های زبان فارسی
سازگاری با بسته NLTK
پشتیبانی از پایتون نسخه ۲ و ۳
تست مداوم کدها

نصب کتابخانه هضم

برای نصب این کتابخانه میتونید دستور زیر رو در محیط CMD وارد کنید و مراحل نصب رو آغاز کنید:

pip install hazm

برای وارد کردن کتابخانه، از کد های زیر استفاده میکنیم:

from __future__ import unicode_literals
from hazm import *

نرمال سازی متن

برای نرمال سازی متن و تبدیل فاصله ها به نیم فاصله(در مواقع نیاز) میتوانیم از کد زیر استفاده کنیم:

>>> normalizer = Normalizer()
>>> normalizer.normalize('دنك يم ناسآ ار شزادرپ هلصاف‌مین زا هدافتسا و اه هسيون حالصا')
'دنک‌یم ناسآ ار شزادرپ هلصاف‌مین زا هدافتسا و اه‌هسیون حالصا'

جداسازی جمله‌ها

>>> sent_tokenize ('؟تسین رتهب ادج ،شزادرپ یارب یلو !میدمآ ندرک لصو یارب مه ام')
['!میدمآ ندرک لصو یارب مه ام', '؟تسین رتهب ادج ،شزادرپ یارب یلو']

جداسازی واژه‌ها

>>> word_tokenize ( '؟تسین رتهب ادج ،شزادرپ یارب یلو')
[ 'یلو', 'یارب', 'شزادرپ'، '،'، 'ادج', 'رتهب', 'تسین', '؟' ]

پیدا کردن مفرد کلمه

یکی از قابلیت های جالب این کتابخانه، اینه که میتونیم یک کلمه جمع رو به کلمه مفرد تبدیل کنیم:

>>> stemmer = Stemmer()
>>> stemmer.stem('اه‌باتک')
'باتک'

پیدا کردن ریشه کلمات

>>> lemmatizer = Lemmatizer()
>>> lemmatizer.lemmatize('میور‌یم')
'تفر#ور'

خب این مقاله هم به پایان رسید. امیدوارم مطالب بهتون کمک کنه. خوشحال میشیم اگه مقاله رو دوست داشتید، لایک کنید :)
لینک گیت‌هاب پروژه

نوشته شده توسط عرفان سلیمی علاقه‌مند به برنامه‌نویسی، خصوصا پایتون و C++

محبوب ترین مقالات

کتابخانه random - اعداد تصادفی(رندوم) در پایتون

کار با pdf در پایتون

تغییر رنگ متن خروجی پایتون

جدیدترین مقالات

وصل کردن دوربین گوشی به سیستم با پایتون