פורסם: 30/04/2009 - 21:14
נושא ההודעה: המרת pdf לפורמט ש-hocr יודע לקרוא
|
אני מעוניין להמיר את חוק ההסדרים (להלן "קובץ pdf שמקורו מפקס ונראה כמו הצרות של המדינה - ארוך וחשוך") לפורמט שניתן לבצע עליו ocr זאת כדי לאפשר לעבוד עליו כראוי וקצת להכניס מיצי מרץ לויקי של המקור.
ניסיתי כמה דרכים לבצע המרה, ובכל המקרים, התוצאה היתה עצובה. משום מה, האיכות המתקבלת (ולא משנה אילו פרמטרים ניסיתי עם convert- החל מקביעת רזולוציה, דרך איכות הדחיסה ועד גודל הדף) הביאו בכל המקרים לקבצים לא ממש קריאים.
מישהו מכיר את הפרמטרים הראויים?
תודה מראש ודרך צלחה.
רם-און.
|
|
חזרה לתוכן הדיון |
פורסם: 30/04/2009 - 21:50
נושא ההודעה:
|
חפרתי לאחרונה בקוד עצמו. בעיקרון
1. pnm
2. png
3. tiff
אלו פורמטי התמונה שהוא תומך.
גיליתי (בדרך הקשה) שהוא לא מושלם בזיהוי שלו (רחוק מזה), ולכן מומלץ דבר ראשון שהתמונה תהיה ללא bluer במידה ואפשר ושהפונטים יהיו כמה שיותר ישרים ופחות עגולים. זה עדיין לא מבטיח כלום, אבל שמתי לב שמשהו בין דויד לנחליאלי עובד די יפה אבל רחוק ממושלם.
|
|
חזרה לתוכן הדיון |
פורסם: 30/04/2009 - 21:53
נושא ההודעה:
|
|
|
חזרה לתוכן הדיון |
פורסם: 30/04/2009 - 22:07
נושא ההודעה:
|
למרבה הצער, התוסף מסתמך על כך שקובץ ה-PDF כולל בתוכו את הטקסט כטקסט; במקרה שלפנינו (ה-PDF נוצר מפקס), זה לא המצב, והתוסף לא יעזור.
|
|
חזרה לתוכן הדיון |
פורסם: 01/05/2009 - 00:09
נושא ההודעה:
|
תנסה עם GIMP ואז SHARPEN המרה לש\ל DESPECLE.
אולי יש סקריפטים שעוזרים בזה.
|
|
חזרה לתוכן הדיון |
פורסם: 01/05/2009 - 02:07
נושא ההודעה: מדובר על 100 עמודים+
|
אני צריך כלי שאפשר לשלוט בו משורת הפקודה. gimp יודע לייבא כמה עמודים, לא 120. צריך לשמור אותם אחד אחד. ב- convert אני רק מכניס פרמטרים והופה יש לי 100 עמודים. הבעיה שהאותיות נראות כמו נמלים מומסות וה-ocr חוטף חום.
השאלה האם מישהו הצליח להוציא מ- convert קבצי pdf משובבי עין עיון ונפש.
|
|
חזרה לתוכן הדיון |
פורסם: 01/05/2009 - 07:09
נושא ההודעה: הבעיה נעוצה לא בפורמט ולא ב-convert אלא ברזולוציה
|
הצפיפות של פקסים נמוכה באופן קיצוני יחסית לקוראים אופטיים, והייתי מופתע אם OCR קונבנציונלי היה מצליח לקרוא קלט מפקס.
יש OCRs לא קונבנציונליים, שעושים עבודה שגובלת באינטליגנציה מלאכותית, ומיועדים לקלט מפקס.
|
|
חזרה לתוכן הדיון |
פורסם: 01/05/2009 - 07:15
נושא ההודעה: Re: מדובר על 100 עמודים+
|
רם-און : | אני צריך כלי שאפשר לשלוט בו משורת הפקודה. |
נסה את גוסט סקריפט:
קוד: | gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300
-sOutputFile=/home/kobi/Desktop/out-%d.png AR-M236_20090406_021458.pdf |
התסריט למעלה הופך קובץ pdf לאוסף ממוספר של קבצי png
רם-און : | הבעיה שהאותיות נראות כמו נמלים מומסות וה-ocr חוטף חום. |
hocr מסדרה 10 מכיל בתוכו כלים לעיבוד תמונה. האם עבדתה עם גרסה 8 או 10 ?
ניתן להגדיל, להקטין לסובב לשנות בהירות ולתקן פגמים בתמונה ע"י כלים המובנים בתוך תכנת זיהוי האותיות.
אם תשלח אלי את הקובץ המקורי, אנסה לעזור לך להמיר אותו לקובץ טקסט.
|
|
חזרה לתוכן הדיון |
פורסם: 01/05/2009 - 08:51
נושא ההודעה:
|
אולי pdfimages?
|
|
חזרה לתוכן הדיון |
פורסם: 01/05/2009 - 10:26
נושא ההודעה: הפתרון של gs הוא להיט
|
ברגע זה תמונות באיכות טובה נמזגות להן מועדנות על שולחן העבודה שלי. גם ה- pdf וגם אני מאוד מבסוטים.
את הקובץ המקורי ניתן למצוא כאן:
http://www.shelly.org.il/node/2262
אני צריך לעבד את התמונה. אני עושה שימוש ב- hocr מהגירסא האחרונה שהורדתי מהאתר. אני חושב להעלות את כל הדפים לויקי של המקור (קודם כל, אכניס את הכל לאופן אופיס, נייצא בפורמט ויקי ונראה איך זה יוצא).
שלי ביקשה עזרה בהמרת הטקסט לפורמט של word (טפו עליה שלי, לא מבינה גדולה בחשיבות החופש הטכנולוגי לאומה). אני אעביר לויקי (ב"ה) וניתן לה את הצעד הבא.
תודה לכולם.
רם-און.
|
|
חזרה לתוכן הדיון |
פורסם: 02/05/2009 - 01:04
נושא ההודעה:
|
מה הקשר בין חוק ההסדרים לויקי של המקור? מה הקשר בינו לבין תוכנה חופשית או כל דבר אחר שקשור למטרות העמותה?
יש מקומות אחרים להעלות את החוק, ויקיפדיה לדוגמא נשמע כמו מקום טוב, אבל אין צורך לערבב פוליטיקה עם המקור במקומות בהן אין נקודת מפגש טבעית.
|
|
חזרה לתוכן הדיון |
פורסם: 03/05/2009 - 11:39
נושא ההודעה:
|
לקובי,
קראתי בעבר על היכולת של hocr לספור כתמים של חתול.
http://linmagazine.co.il/hacking/2008/05/15/libhocr
מעניין אם אפשר להשתמש ב-hocr לצורך [url=http://www.google.co.il/search?hl=iw&q=חוק+ההסדרים+עזים]סינון עזים[/url]...
|
|
חזרה לתוכן הדיון |
פורסם: 03/05/2009 - 14:02
נושא ההודעה:
|
Anonymous : | מה הקשר בין חוק ההסדרים לויקי של המקור? מה הקשר בינו לבין תוכנה חופשית או כל דבר אחר שקשור למטרות העמותה?
יש מקומות אחרים להעלות את החוק, ויקיפדיה לדוגמא נשמע כמו מקום טוב, אבל אין צורך לערבב פוליטיקה עם המקור במקומות בהן אין נקודת מפגש טבעית. |
מוזר לי שהמשאבים של העמותה מנוצלים למשהו שאין קשר בינו לבין מטרות העמותה (אלא אם כן מטרת העמותה היא לקדם את האגף השמאלי בפוליטיקה הישראלית) ולאף אחד לא נראה שאכפת.
אנא העבירו את החוק למקום המתאים לו, והמנעו מדעות פוליטיות לא קשורות לעניין באתר של המקור.
|
|
חזרה לתוכן הדיון |
|