تماس با ما Contact Us

نظر به اینکه شرکت برنا رایانه در طی پیاده سازی پروژه‌های مدیریت پرونده‌ها (Document Management) با استفاده از تکنولوژی فهرست سازی محتوایی ، قابلیت جستجو در داخل محتویات پرونده‌ها را در اختیار کاربران قرار می‌داد مشخص شد فهرست سازی محتوایی پرونده‌های PDF با مشکلات فراوانی روبرو است. از آنجایی که عملیات فهرست سازی با کمک IFilterها محقق می‌گردد لازم بود در این خصوص تحقیقات و بررسی‌های بیشتری انجام پذیرد، که با بررسی‌های بسیار بر روی IFilterهای موجود برای پرونده‌های PDF ، که معتبرترین آنها را شرکت Adobe ارائه داده است، مشخص گردید بسیاری از این برنامه‌ها در فهرست‌سازی پرونده‌ها در زبان فارسی و عربی دارای مشکلات فراوانی می‌باشند. از این رو بر آن شدیم با طراحی IFilterی جدید، در جهت حل این مشکل بکوشیم.


IFilterها ابزارهایی هستند که قابلیت خواندن یک یا چند نوع پرونده را برای برنامه‌های نظیر Microsoft SQL Server یا SharePoint و ... جهت فهرست سازی محتوایی فراهم می‌سازند. بنابراین بدون IFilter ی مناسب، متن موجود در یک پرونده، به درستی فهرست‌سازی نخواهد شد و جستجو در آن با موفقیت همراه نخواهد بود.


البته به انجام رساندن این مهم، با دشواری‌ها و مشکلات فراوان توأم بوده و تحقیقات بسیاری بابت طراحی این سامانه صورت گرفته است:


  • ١- بررسی ساختار پرونده‌های PDF‌ که در عین حالی که بسیار بی‌نظیر است دارای جزییات و ریزه کاری‌های فنی فراوان است، که متاسفانه غالبا اطلاعات فنی دقیقی در این موارد موجود نیست.
  • ٢- بررسی یونی‌کد Unicode و شناخت جزییات آن.
  • ٣- بررسی و شناخت جزییات TrueType ، Open Type و نیز قلم های Type 1 و Type 3 .
  • ٤- طراحی IFilterی مناسب با توجه به بررسی های انجام شده.


در حال حاضر این محصول موفق شده است به درصد بسیار مناسبی در عملیات فهرست‌سازی برسد (در پرونده‌های فارسی و عربی آزمایش شده عملیات فهرست سازی محتوای با درصد بالایی از موفقیت به انجام رسیده). البته باید به این موضوع اشاره کرد که منظور از متن فارسی یا عربی، متنی است که به صورت یونی‌کد ذخیره شده باشد.


به طور خلاصه و با صرف نظر از بعضی از پیچیدگی‌ها می‌توان گفت یونی‌کد مجموعه‌ای بسیار بزرگ، از نویسه (character)های مختلف است. این مجموعه تقریباً تمام نویسه‌های مورد استفاده در جهان را دربر دارد. از حرف سین الفبای فارسی گرفته تا حروف الفبای چینی و انواع و اقسام علامت‌ها و حتی خط میخی فارسی باستان. مهمترین خاصیت یونی‌کد این است که به هر کدام از این نویسه‌ها یک کد یکتا اختصاص می‌دهد که به آن، یونی‌کد آن نویسه می‌گویند. وقتی یک پرونده ذخیره می‌شود این کدها هستند که ذخیره می‌شوند نه شکل نویسه‌ها. بنابراین اگر پرونده‌ای با قالب یونی‌کد ذخیره شود، در هر کجای دنیا که از یونی‌کد استفاده‌ شود، باز خواهد شد.


متاسفانه هنوز برنامه‌هایی (بخصوص برنامه‌های گرافیکی و صفحه آرایی) وجود دارند که از استاندارد یونی‌کد تابعیت نمی‌کنند. برای نگارش فارسی در آنها برنامه‌هایی مانند ‌مریم، IPT‌، پروین و غیره با طراحی قلم های غیر استاندارد سعی در حل این مشکل کرده‌اند. به طور مثال در برنامه مریم برای نشان دادن شکل حرف « ﺒ » (شکلی از حرف ب که در وسط دو حرف دیگر قرار می‌گیرد) از حرف (U+004C) L استفاده شده در حالی که در برنامه‌ی IPT از حرف (U+0048) H استفاده شده. در حال حاضر PIT قلم‌های این نوع برنامه‌ها را به دلیل عدم سازگاری آنها با یونی‌کد پشتیبانی نمی‌کند.


براي آزمايش برنامه PIT به صورت online مي توانيد به صفحه Demo مراجعه كنيد.