کتابخانه هضم پایتون | پردازش متن فارسی

زمان مطالعه: 10 دقیقه ویرایش: 1401/10/14

سلام. توی این مقاله قراره با پردازش متن زبان فارسی آشنا بشیم! برای این کار از کتابخانه Hazm استفاده خواهیم کرد

ویژگی های کتابخانه هضم:

  • تمیز و مرتب کردن متن
  • تقطیع جمله‌ها و واژه‌ها
  • ریشه‌یابی واژه‌ها
  • تحلیل صرفی جمله
  • تجزیه نحوی جمله
  • واسط استفاده از داده‌های زبان فارسی
  • سازگاری با بسته NLTK
  • پشتیبانی از پایتون نسخه ۲ و ۳
  • تست مداوم کدها

 


نصب کتابخانه هضم

برای نصب این کتابخانه میتونید دستور زیر رو در محیط CMD وارد کنید و مراحل نصب رو آغاز کنید:

pip install hazm

برای وارد کردن کتابخانه، از کد های زیر استفاده میکنیم:

from __future__ import unicode_literals
from hazm import *

 

نرمال سازی متن

برای نرمال سازی متن و تبدیل فاصله ها به نیم فاصله(در مواقع نیاز) میتوانیم از کد زیر استفاده کنیم:

>>> normalizer = Normalizer()
>>> normalizer.normalize('دنك يم ناسآ ار شزادرپ هلصاف‌مین زا هدافتسا و اه هسيون حالصا')
'دنک‌یم ناسآ ار شزادرپ هلصاف‌مین زا هدافتسا و اه‌هسیون حالصا'

 

جداسازی جمله‌ها

>>> sent_tokenize ('؟تسین رتهب ادج ،شزادرپ یارب یلو !میدمآ ندرک لصو یارب مه ام')
['!میدمآ ندرک لصو یارب مه ام', '؟تسین رتهب ادج ،شزادرپ یارب یلو']

 

جداسازی واژه‌ها

>>> word_tokenize ( '؟تسین رتهب ادج ،شزادرپ یارب یلو')
[ 'یلو', 'یارب', 'شزادرپ'، '،'، 'ادج', 'رتهب', 'تسین', '؟' ]

 

پیدا کردن مفرد کلمه

یکی از قابلیت های جالب این کتابخانه، اینه که میتونیم یک کلمه جمع رو به کلمه مفرد تبدیل کنیم:

>>> stemmer = Stemmer()
>>> stemmer.stem('اه‌باتک')
'باتک'

 

پیدا کردن ریشه کلمات

>>> lemmatizer = Lemmatizer()
>>> lemmatizer.lemmatize('میور‌یم')
'تفر#ور'

 

خب این مقاله هم به پایان رسید. امیدوارم مطالب بهتون کمک کنه. خوشحال میشیم اگه مقاله رو دوست داشتید، لایک کنید :)
لینک گیت‌هاب پروژه



4
user نوشته شده توسط عرفان سلیمی علاقه‌مند به برنامه‌نویسی، خصوصا پایتون و C++


دیدگاه


برای ثبت دیدگاه، وارد شوید