מפגש מתכנתים לקידום המחקר על ויקיפדיה

בתחילת דצמבר 2014 סייעה עמותת ויקמדיה ישראל בארגון מפגש ראשון מסוגו לקידום המחקר על ויקיפדיה. להלן מדבריו של אבנר קנטור, מארגן המפגש ומתנדב ויקימדיה ישראל.

 

בתאריך 11 בדצמבר, 2014, התקיים בקמפוס TLV מפגש בנושא מחקר ויקיפדיה, יכולות ניתוח סטטיסטי ועוד. באירוע השתתפו כשמונים מתכנתים והוצגו להם כלי מחקר המתאימים למחקר של ויקיפדיה.

 

המפגש אורגן בשיתוף עם קהילת משתמשי R בישראל בגיבוי איגוד הסטטיסטיקה הישראלי ובשיתוף האגודה הישראלית למדעי הרוח הדיגיטלים. ההרצאות הועברו על ידי עפרית לסר ואורן בוצ'מן ואורגנו על ידי אבנר קנטור וטל גלילי.

 

מטרת המפגש הייתה יצירת בסיס ראשוני לקבוצת מחקר ופיתוח של ויקיפדיה. במהלך המפגש הביעו משתתפים רבים את רצונם להתנסות בשימוש בכלים שהוצגו וחלקם אף את רצונם להצטרף לקבוצת פיתוח בנושא. שיתופי פעולה אלו יאפשרו הקמת צוותים בהם ישתתפו מפתחים וחוקרים ממדעי הרוח.

 

התגובות שקיבלנו מהמשתתפים היו "מפגש מצוין, מאורגן היטב ומרתק".

 

מחקר ויקיפדיה באמצעות R

המפגש עסק בשפת התכנות וסביבת העבודה R אשר משמשת בעיקר לניתוחים סטטיסטיים וגרפיקה. בעשור השני של שנות האלפיים, היא נחשבת לסטנדרט ביצירה של תוכנות סטטיסטיות. יתרונות הסביבה הם יכולות מתקדמות לניתוח נתונים סטטיסטי, חזותי ואינטגרציה נוחה עם כלים אחרים. R צוברת פופולריות בקרב סטטיסטיקאים ומהווה חלק מאקולוגית הקוד הפתוח.

 

לדעתנו לשפת R יש פוטנציאל רב לשמש לחקר ויקיפדיה – בעברית ובשפות אחרות. המחקר האקדמי של ויקיפדיה הולך וגובר בשנים האחרונות בעולם. מחקר זה דורש התמודדות עם מספר אתגרים: למידת תרבות העריכה והתנהלות הקהילה, הבנת כללי האתיקה המחקרית של קרן ויקימדיה, פיתוח כלי תוכנה לאיסוף ועיבוד נתונים ושימוש בשיטות מחקר חדישות. למרות הפוטנציאל הרב, השימוש ב-R לחקר ויקיפדיה נמצא בראשית הדרך. ניתן לראות בקישור זה דוגמאות למחקרים שנעשו עד כה. לפני מספר חודשים פורסמה ספריית API ראשונה. הספרייה עדיין חסרה מספר פונקציות ועל כן בכוונתנו לפתח ספרייה חדשה אשר תרחיב את האפשרויות (כולל גישה נוחה ואחידה למערכת Wikidata). אפשרות נוספת היא שיפור הספריה הקיימת.

 

המפגש שהתקיים עסק בשני נושאים: ניתוח רשתות חברתיות ושליפת נתונים מויקיפדיה: web-scraping אתי דרך API.

  • Social network analysis (SNA) is the use of network theory to analyze social networks. SNA provides both a visual and a mathematical analysis of entities relationships. These entities can be people, organizations, countries etc. SNA is a practical method for visualizing such networks, identify powerful individuals, and perform data-mining in order gain further insight on its nature. The talk presented some basic concepts in SNA, and demonstrates it using R and igraph. igraph is a collection of network analysis tools with the emphasis on efficiency, portability and ease of use. It is open source and free and can be programmed in GNU R (as well as Python and C/C++).
  • Wikipedia is the most commonly cited information source in infographics. The organization behind Wikipedia, the WMF, provides a rich API to access many types of structured and semi structured data. As a result most of the edits on Wikipedia today are performed using automated scripts called robots. To get at real-time version of information you will have to resort to "good old" scraping techniques. The talk presented how RCurl and httr are used to solve many challenges of scraping a website. We discussed some of the technical challenges of using RCurl to build high level API based functionality as well as the other glue needed to scrape pages – (debugging, testing, two step authentication and editing) and touched on the ethics of scraping and provide some alternatives to large scale scraping of Wikipedia.

אם הנכם מעוניינים להצטרף לקהילת מפתחי תשתית מדיה-ויקי או לקהילת המחקר בוויקיפדיה, אתם מוזמנים לפנות במייל אל אבנר קנטור – avnerkantor@gmail.com

 

RMeeting_01 RMeeting_15 RMeeting_23

 

צילום: אבנר קנטור. לקטגוריית התמונות בוויקישיתוף.

כתיבת תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *