نظر به اینکه شرکت برنا رایانه در طی پیاده سازی پروژههای مدیریت پروندهها (Document Management) با استفاده از تکنولوژی فهرست سازی محتوایی ، قابلیت جستجو در داخل محتویات پروندهها را در اختیار کاربران قرار میداد مشخص شد فهرست سازی محتوایی پروندههای PDF با مشکلات فراوانی روبرو است. از آنجایی که عملیات فهرست سازی با کمک IFilterها محقق میگردد لازم بود در این خصوص تحقیقات و بررسیهای بیشتری انجام پذیرد، که با بررسیهای بسیار بر روی IFilterهای موجود برای پروندههای PDF ، که معتبرترین آنها را شرکت Adobe ارائه داده است، مشخص گردید بسیاری از این برنامهها در فهرستسازی پروندهها در زبان فارسی و عربی دارای مشکلات فراوانی میباشند. از این رو بر آن شدیم با طراحی IFilterی جدید، در جهت حل این مشکل بکوشیم.
IFilterها ابزارهایی هستند که قابلیت خواندن یک یا چند نوع پرونده را برای برنامههای نظیر Microsoft SQL Server یا SharePoint و ... جهت فهرست سازی محتوایی فراهم میسازند. بنابراین بدون IFilter ی مناسب، متن موجود در یک پرونده، به درستی فهرستسازی نخواهد شد و جستجو در آن با موفقیت همراه نخواهد بود.
البته به انجام رساندن این مهم، با دشواریها و مشکلات فراوان توأم بوده و تحقیقات بسیاری بابت طراحی این سامانه صورت گرفته است:
- ١- بررسی ساختار پروندههای PDF که در عین حالی که بسیار بینظیر است دارای جزییات و ریزه کاریهای فنی فراوان است، که متاسفانه غالبا اطلاعات فنی دقیقی در این موارد موجود نیست.
- ٢- بررسی یونیکد Unicode و شناخت جزییات آن.
- ٣- بررسی و شناخت جزییات TrueType ، Open Type و نیز قلم های Type 1 و Type 3 .
- ٤- طراحی IFilterی مناسب با توجه به بررسی های انجام شده.
در حال حاضر این محصول موفق شده است به درصد بسیار مناسبی در عملیات فهرستسازی برسد (در پروندههای فارسی و عربی آزمایش شده عملیات فهرست سازی محتوای با درصد بالایی از موفقیت به انجام رسیده). البته باید به این موضوع اشاره کرد که منظور از متن فارسی یا عربی، متنی است که به صورت یونیکد ذخیره شده باشد.
به طور خلاصه و با صرف نظر از بعضی از پیچیدگیها میتوان گفت یونیکد مجموعهای بسیار بزرگ، از نویسه (character)های مختلف است. این مجموعه تقریباً تمام نویسههای مورد استفاده در جهان را دربر دارد. از حرف سین الفبای فارسی گرفته تا حروف الفبای چینی و انواع و اقسام علامتها و حتی خط میخی فارسی باستان. مهمترین خاصیت یونیکد این است که به هر کدام از این نویسهها یک کد یکتا اختصاص میدهد که به آن، یونیکد آن نویسه میگویند. وقتی یک پرونده ذخیره میشود این کدها هستند که ذخیره میشوند نه شکل نویسهها. بنابراین اگر پروندهای با قالب یونیکد ذخیره شود، در هر کجای دنیا که از یونیکد استفاده شود، باز خواهد شد.
متاسفانه هنوز برنامههایی (بخصوص برنامههای گرافیکی و صفحه آرایی) وجود دارند که از استاندارد یونیکد تابعیت نمیکنند. برای نگارش فارسی در آنها برنامههایی مانند مریم، IPT، پروین و غیره با طراحی قلم های غیر استاندارد سعی در حل این مشکل کردهاند. به طور مثال در برنامه مریم برای نشان دادن شکل حرف « ﺒ » (شکلی از حرف ب که در وسط دو حرف دیگر قرار میگیرد) از حرف (U+004C) L استفاده شده در حالی که در برنامهی IPT از حرف (U+0048) H استفاده شده. در حال حاضر PIT قلمهای این نوع برنامهها را به دلیل عدم سازگاری آنها با یونیکد پشتیبانی نمیکند.
براي آزمايش برنامه PIT به صورت online مي توانيد به صفحه Demo مراجعه كنيد.