2024-2022
גוף מממן: רשות החדשנות
מוביל המחקר: אור אלכסנדרוביץ'
מנהלי פרויקט: דניאל רוזנברג, עמרי שפר-רביב
יועצים: נועם אורדן, ניק האוול
עוזרי מחקר: דינה אל קאסם, הודיה סעדה, מאי סבאח, שרי-עטרה חסדן, נעמה קורן, שירן-אסתר שניידרמן
תעשיית הבנייה היא אחד מהענפים הכלכליים המרכזיים בישראל, והיא צפויה לשמור על מקומה המרכזי בעשורים הקרובים לאור קצב גידול האוכלוסייה המהיר במדינה. בניגוד לרבות מהמדינות המפותחות, שבהן קצב הבנייה החדשה איטי בשל שיעורי גידול אוכלוסייה נמוכים, בישראל שטח הבינוי מכפיל את עצמו בכל 25 שנה. יצירת קורפוס טקסטואלי בעברית בתחום הבנייה, התכנון והארכיטקטורה צפויה להקל ולהאיץ את פיתוחם של כלים מבוססי עיבוד שפה טבעית (NLP) לצורך יישום והטמעה בתחומים טכנולוגיים הקשורים לענף הבנייה.
הקורפוס מורכב ממסמכים עבריים ממגוון רחב של מקורות עכשוויים והיסטוריים, כולל חקיקה, הנחיות רגולטוריות, דוחות מחקר, מחקרים אקדמיים וכתבי עת מקצועיים. בפיתוח הקורפוס עשינו שימוש בפרסומים שנוצרו דיגיטלית וכן בפרסומים מודפסים סרוקים, אשר עברו תהליך זיהוי תווים אופטי )OCR(, ניקוי וניתוח תחבירי )Parsing(. הניתוח התחבירי בוצע באמצעות ערכת הכלים Trankit של Python.
הקורפוס מכיל 22,382,594 מילים ב-1,218 מסמכים.
הקורפוס זמין לכל סוגי השימושים למחקר ולפיתוח בתחום עיבוד שפה טבעית (NLP) בהתאם לרישיון CC BY 4.0 (Attribution 4.0 International).
אנו מבקשים להודות לויקי דוידוב, לנה אברהמי ושי זק מספריית הפקולטה לארכיטקטורה ותכנון ערים בטכניון, וכן למוטי יגר, מנהל הספרייה המרכזית של הטכניון, ולפרופ' רפאל זקס, ראש המכון הלאומי לחקר הבנייה, על הסיוע שסיפקו לפרויקט לכל אורכו.
ראו:
Aleksandrowicz, O., Rosenberg, D., Shafer-Raviv, O., Ordan, N. (2024). Hebrew textual corpus on construction, planning, and architecture. GitHUB. https://github.com/bdar-lab/heb_architecture_corpus.