ווטסאפ - לינוקס, BSD, קוד פתוח ותוכנה חופשית בעברית. Whatsup - Linux, BSD, open source and free software in Hebrew

 
 
  כניסת חברים · רישום · שכחתי סיסמה  
tux the penguin
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
רם-אוןאורח · ·
 

הודעה פורסם: 30/04/2009 - 21:14
נושא ההודעה: המרת pdf לפורמט ש-hocr יודע לקרוא

אני מעוניין להמיר את חוק ההסדרים (להלן "קובץ pdf שמקורו מפקס ונראה כמו הצרות של המדינה - ארוך וחשוך") לפורמט שניתן לבצע עליו ocr זאת כדי לאפשר לעבוד עליו כראוי וקצת להכניס מיצי מרץ לויקי של המקור.

ניסיתי כמה דרכים לבצע המרה, ובכל המקרים, התוצאה היתה עצובה. משום מה, האיכות המתקבלת (ולא משנה אילו פרמטרים ניסיתי עם convert- החל מקביעת רזולוציה, דרך איכות הדחיסה ועד גודל הדף) הביאו בכל המקרים לקבצים לא ממש קריאים.

מישהו מכיר את הפרמטרים הראויים?

תודה מראש ודרך צלחה.
רם-און.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
ik_5לא בפורום כעת ת.הצטרפות: 16/04/2002 · הודעות: 3027 · מיקום: ישראל
 

הודעה פורסם: 30/04/2009 - 21:50
נושא ההודעה:

חפרתי לאחרונה בקוד עצמו. בעיקרון
1. pnm
2. png
3. tiff

אלו פורמטי התמונה שהוא תומך.

גיליתי (בדרך הקשה) שהוא לא מושלם בזיהוי שלו (רחוק מזה), ולכן מומלץ דבר ראשון שהתמונה תהיה ללא bluer במידה ואפשר ושהפונטים יהיו כמה שיותר ישרים ופחות עגולים. זה עדיין לא מבטיח כלום, אבל שמתי לב שמשהו בין דויד לנחליאלי עובד די יפה אבל רחוק ממושלם.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 30/04/2009 - 21:53
נושא ההודעה:

תנסה את ההרחבה של אופן אופיס ליבוא PDF
http://extensions.services.openoffice.org/project/pdfimport
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
פיל-קטןלא בפורום כעת ת.הצטרפות: 02/05/2004 · הודעות: 1089 ·
 

הודעה פורסם: 30/04/2009 - 22:07
נושא ההודעה:

למרבה הצער, התוסף מסתמך על כך שקובץ ה-PDF כולל בתוכו את הטקסט כטקסט; במקרה שלפנינו (ה-PDF נוצר מפקס), זה לא המצב, והתוסף לא יעזור.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
borsoodלא בפורום כעת ת.הצטרפות: 05/01/2007 · הודעות: 306 ·
 

הודעה פורסם: 01/05/2009 - 00:09
נושא ההודעה:

תנסה עם GIMP ואז SHARPEN המרה לש\ל DESPECLE.
אולי יש סקריפטים שעוזרים בזה.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
רם-אוןאורח · ·
 

הודעה פורסם: 01/05/2009 - 02:07
נושא ההודעה: מדובר על 100 עמודים+

אני צריך כלי שאפשר לשלוט בו משורת הפקודה. gimp יודע לייבא כמה עמודים, לא 120. צריך לשמור אותם אחד אחד. ב- convert אני רק מכניס פרמטרים והופה יש לי 100 עמודים. הבעיה שהאותיות נראות כמו נמלים מומסות וה-ocr חוטף חום.

השאלה האם מישהו הצליח להוציא מ- convert קבצי pdf משובבי עין עיון ונפש.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
marmorלא בפורום כעת ת.הצטרפות: 19/01/2004 · הודעות: 50 ·
 

הודעה פורסם: 01/05/2009 - 07:09
נושא ההודעה: הבעיה נעוצה לא בפורמט ולא ב-convert אלא ברזולוציה

הצפיפות של פקסים נמוכה באופן קיצוני יחסית לקוראים אופטיים, והייתי מופתע אם OCR קונבנציונלי היה מצליח לקרוא קלט מפקס.
יש OCRs לא קונבנציונליים, שעושים עבודה שגובלת באינטליגנציה מלאכותית, ומיועדים לקלט מפקס.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
kzamirלא בפורום כעת ת.הצטרפות: 25/12/2004 · הודעות: 76 ·
 

הודעה פורסם: 01/05/2009 - 07:15
נושא ההודעה: Re: מדובר על 100 עמודים+

רם-און :
אני צריך כלי שאפשר לשלוט בו משורת הפקודה.


נסה את גוסט סקריפט:

קוד:
gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=pnggray -r300
-sOutputFile=/home/kobi/Desktop/out-%d.png AR-M236_20090406_021458.pdf


התסריט למעלה הופך קובץ pdf לאוסף ממוספר של קבצי png

רם-און :
הבעיה שהאותיות נראות כמו נמלים מומסות וה-ocr חוטף חום.


hocr מסדרה 10 מכיל בתוכו כלים לעיבוד תמונה. האם עבדתה עם גרסה 8 או 10 ?
ניתן להגדיל, להקטין לסובב לשנות בהירות ולתקן פגמים בתמונה ע"י כלים המובנים בתוך תכנת זיהוי האותיות.

אם תשלח אלי את הקובץ המקורי, אנסה לעזור לך להמיר אותו לקובץ טקסט.
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית ביקור באתר המפרסם  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 01/05/2009 - 08:51
נושא ההודעה:

אולי pdfimages?
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
רם-אוןאורח · ·
 

הודעה פורסם: 01/05/2009 - 10:26
נושא ההודעה: הפתרון של gs הוא להיט

ברגע זה תמונות באיכות טובה נמזגות להן מועדנות על שולחן העבודה שלי. גם ה-pdf וגם אני מאוד מבסוטים.


את הקובץ המקורי ניתן למצוא כאן:

http://www.shelly.org.il/node/2262


אני צריך לעבד את התמונה. אני עושה שימוש ב- hocr מהגירסא האחרונה שהורדתי מהאתר. אני חושב להעלות את כל הדפים לויקי של המקור (קודם כל, אכניס את הכל לאופן אופיס, נייצא בפורמט ויקי ונראה איך זה יוצא).

שלי ביקשה עזרה בהמרת הטקסט לפורמט של word (טפו עליה שלי, לא מבינה גדולה בחשיבות החופש הטכנולוגי לאומה). אני אעביר לויקי (ב"ה) וניתן לה את הצעד הבא.

תודה לכולם.
רם-און.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 02/05/2009 - 01:04
נושא ההודעה:

מה הקשר בין חוק ההסדרים לויקי של המקור? מה הקשר בינו לבין תוכנה חופשית או כל דבר אחר שקשור למטרות העמותה?

יש מקומות אחרים להעלות את החוק, ויקיפדיה לדוגמא נשמע כמו מקום טוב, אבל אין צורך לערבב פוליטיקה עם המקור במקומות בהן אין נקודת מפגש טבעית.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
AmitimAלא בפורום כעת ת.הצטרפות: 01/04/2004 · הודעות: 253 · מיקום: 20 דקות מת"א
 

הודעה פורסם: 03/05/2009 - 11:39
נושא ההודעה:

לקובי,

קראתי בעבר על היכולת של hocr לספור כתמים של חתול.
http://linmagazine.co.il/hacking/2008/05/15/libhocr

מעניין אם אפשר להשתמש ב-hocr לצורך [url=http://www.google.co.il/search?hl=iw&q=חוק+ההסדרים+עזים]סינון עזים[/url]...
 
 צפיה בפרופיל המשתמש שלח הודעה פרטית  
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
אורח · ·
 

הודעה פורסם: 03/05/2009 - 14:02
נושא ההודעה:

Anonymous :
מה הקשר בין חוק ההסדרים לויקי של המקור? מה הקשר בינו לבין תוכנה חופשית או כל דבר אחר שקשור למטרות העמותה?

יש מקומות אחרים להעלות את החוק, ויקיפדיה לדוגמא נשמע כמו מקום טוב, אבל אין צורך לערבב פוליטיקה עם המקור במקומות בהן אין נקודת מפגש טבעית.


מוזר לי שהמשאבים של העמותה מנוצלים למשהו שאין קשר בינו לבין מטרות העמותה (אלא אם כן מטרת העמותה היא לקדם את האגף השמאלי בפוליטיקה הישראלית) ולאף אחד לא נראה שאכפת.

אנא העבירו את החוק למקום המתאים לו, והמנעו מדעות פוליטיות לא קשורות לעניין באתר של המקור.
 
   
תגובה  עם ציטוט חזרה למעלה
חזרה לתוכן הדיון
הצגת הודעות מלפני:     
מעבר אל:  
כל הזמנים הם GMT + 2 שעות
תגובה לנושא
צפיה בנושא הבא Printable version התחבר כדי לבדוק הודעות פרטיות צפיה בנושא הקודם
PNphpBB2 © 2003-2004 

תוכן הדיון

  1. אורח [רם-און]
  2. ik_5
  3. אורח
  4. פיל-קטן
  5. borsood
  6. אורח [רם-און]
  7. marmor
  8. kzamir
  9. אורח
  10. אורח [רם-און]
  11. אורח
  12. AmitimA
  13. אורח