نظرة عامة على جودة البحث في Google












من أهم ما يميز نتائج البحث في Google هو ترتيبها، وفي Google يعمل فريق متخصص من المهندسين في الشركة على ذلك ويسمى بـ"فريق جودة البحث". وتتركز وظيفة الفريق في الإجابة عن مئات الملايين من عمليات البحث التي يقوم بها المستخدمون يوميا، فعلى Google وخلال أجزاء من الثانية الانتقاء من بين مليارات الصفحات ووضعها في الترتيب المناسب. كما أننا نقوم في الآونة الأخيرة ببعض المهام الأخرى التي سنتطرق إليها لاحقا.








إن غالبية مستخدمي محرك Google للبحث لا يعرفون آلية ترتيب المواقع وإظهارها في نتائج البحث. ويعود هذا الأمر لخطأ متعمد من قبلنا. فنحن، وبكل صراحة، نتعمد عدم عن إفشاء أي معلومات عن طريقة عملنا. وهناك سببان أساسيان لذلك هما القدرة التنافسية ومنع سوء الاستخدام. ويعد السبب الأول منطقيا حيث أن الشركات دائما ما تتكتم على خلطاتها السرية. أما بالنسبة للسبب الآخر، ففي حالة نشرنا لآليات ترتيب المواقع وإتاحتها للجميع فسنسهل بذلك من إمكانية خداع النظام. ندرك أن التكتم والسرية ليست هي الوسيلة الوحيدة للحماية ولكنها بكل تأكيد تقف حاجزا أمام الكثير من محاولات سوء الاستخدام.








تعد خوارزميات ترتيب المواقع في Google القلب النابض لمحرك البحث، ولذا فإن مسؤولية حماية هذا القلب تقع على عاتق هذا الفريق. فهناك أكثر من ألف عالم ومبرمج شاركوا ويشاركون في تطوير هذه الخوارزميات والتي لم يتوقف أو يتباطأ تطويرها حتى يومنا هذا.








ولكن التكتم التام الذي ننتهجه لا يعد مثاليا، ولذا فقد قررنا أن نخبركم بشكل دوري عن جديدنا، ونشرح لكم ما سبق وطورناه، ونقدم النصائح والإرشادات، وننشر الأخبار، ونفتح الحوار مع الجميع. وهذه التدوينة هي نقطة انطلاق لتدوينات أخرى سننشرها لاحقا.








وقبل الدخول في التفاصيل، دعوني أعرفكم بنفسي، إسمي: أودي مانبر، وأعمل نائب الرئيس للهندسة ومسؤولا عن جودة البحث. وأعمل في Google منذ أكثر من عامين، كما أن خبرتي في مجال تقنيات البحث قاربت على العشرين عاما.




وفي قلب مجموعة العمل يعمل فريق ترتيب المواقع. ويعد ترتيب المواقع من التحديات الكبيرة التي تتجاوز صعوبتها توقعات الكثيرين. وأحد الأسباب الرئيسية لذلك هو خصوصية اللغات المختلفة وغموضها، بالإضافة إلى أن المواقع والصفحات على الشبكة لا تلتزم بقواعد معينة. فلا توجد معايير موحدة لنشر المعلومات، ويقع على عاتقنا فهم محتوى صفحات الإنترنت بغض النظر عن كاتبها أو مناسبة كتابتها. بل ولا يمثل ذلك سوى نصف المشكلة، حيث أن النصف الآخر يرتبط بحاجتنا لفهم ما يبحث عنه المستخدمون، والذي غالبا ما يتم التعبير عنه بأقل من ثلاثة كلمات، ومن ثم نقوم بالربط بين الاثنين. وأضف إلى ذلك اختلاف المستخدمين يؤدي إلى اختلاف احتياجاتهم والنتائج التي يريدونها. ويجب أن يتم كل هذا في أجزاء قليلة من الثانية.








ولعل أشهر الخوارزميات التي تم تطويرها من قبل مؤسسي Google لاري بيج وسيرجي برين هي خوارزمية تصنيف المواقع: PageRank، والتي لا تزال مستخدمة إلى يومنا هذا، ولكنها أصبحت جزءا من نظام معقد تم تطويره خلال السنوات الماضية. ومن الأجزاء الأخرى لهذا النظام هو معالج اللغات والذي يتيح لنا التعامل مع المرادفات، والأخطاء الإملائية والمشتقات (برجاء الاطلاع على الصورة المرفقة بالأسفل). وكذلك معالج البحث، فلا يتعلق الأمر باللغة فحسب بل بكيفية استخدام الكلمات، فأكثر النتائج ملائمة قد تكون صفحة لم يتجاوز عمرها ثلاثين دقيقة، أو أخرى قد تكون مر على إنشائها وقتا طويلا، وأخيرا معالج الخصائص الشخصية (الاحتياجات تختلف باختلاف المستخدمين).








مثال لأحد تطبيقات معالج اللغات








وهناك فريق آخر معني بتقييم كل الجهود التي نقوم بها، وذلك من خلال طرق عديدة وهدف واحد: تحسين الخدمة وجعلها أكثر فائدة للمستخدمين. ولا يعد هذا الهدف رئيسيا، بل يعد هدفنا الأوحد. فهناك العديد من تجارب التقييم الآلية التي تحدث كل دقيقة (للتأكد من أن كل شيء على مايرام)، وتجارب تقييم دورية وذلك للحكم على جودة العمل بصفة عامة، ونتائج التحسينات التي نقوم بإدخالها على بعض الخوارزميات بصفة خاصة. كما أن لدينا فريقا من الخبراء الإحصائيين الذين يدرسون بشكل مفصل نتائج أي تجربة للحكم على جدواها. والجدير بالذكر أنه في عام 2007 طورنا ما يزيد على 450 تحسينا لخوارزمياتنا بمعدل تسعة أسبوعيا.








كما أن تقديم خدمة بحث عالمية هي أحد أهم اهتماماتنا خلال العامين الماضيين. ولا ينصب اهتمامنا على اللغات الأساسية فحسب، بل جميع اللغات التي يتحدثها البشر. فعلى سبيل المثال، استطعنا في العام الماضي أن نحسن من أداء البحث باللغة الأذربيجانية وهي لغة يتحدثها قرابة الثمانية ملايين شخص حول العالم. وفي الشهور القليلة الماضية، أطلقنا العديد من الخدمات الكثيرة كالمدقق الإملائي باللغة العربية والأستونية والكاتلونية والصربية والأوكرانية والبوسنوية واللاتفية والفليبينية وغيرها. كما نظمنا شبكة من المستخدمين حول العالم لتزويدنا بالملاحظات والتعليقات، بالإضافة إلى عدد كبير من المتطوعين من داخل الشركة والذين يتحدثون هذه اللغات ويسهمون في تطوير البحث.








وينصب اهتمام فريق آخر على الخصائص الجديدة للبحث والتعديلات الخاصة بواجهة التطبيق. فمحرك السيارة يلعب دورا أساسيا في عملها، ولكنه لا يمثل السيارة بأكملها. فيجب أن تكون السيارة مريحة وسهلة القيادة. واجهة التطبيق في Google في غاية البساطة، وعدد قليل من المستخدمين يقرأون صفحات المساعدة لدينا ويمكنهم استخدام محرك البحث دون الحاجة لقراءتها (تحوي صفحات المساعدة على العديد من المعلومات المفيدة ونحن نعمل دائما على تطويرها). حينما نطلق أي خاصية جديدة فإننا نحرص على أن تكون سهلة الاستخدام للجميع. ومن الأمثلة على ذلك هي خاصية: البحث الشامل أو ما يعرف بـالـ Universal Search والذي يدمج نتائج البحث من مختلف مواقع Google (الأخبار، الخرائط، الصور، وغيرها)
ويعرضها بطريقة مفيدة للمستخدم.









مثال لخاصية للبحث الشامل







ومن الأمثلة الأخرى الهامة هي خدمة iGoogle، والتي تتيح للمستخدم إمكانية تعديل الصفحة الرئيسية لـ Google وإضافة المحتوى الذي يهتم به. ويمكن للمستخدم أن يجعل من iGoogle صفحته الرئيسية ويضيف للصفحة العديد من الأدوات من مختلف المواقع. وبعض هذه الأدوات مخصص للعالم العربي كأخبار العالم العربي، واليوم والتاريخ في مدينتك، ومواقيت الصلاة، وغيرها. ويعمل فريق "واجهة التطبيق" من خلال مجموعة من الخبراء على التأكد من سهولة التصميم وتقييم أي خاصية جديدة يتم اقتراحها من قبل الفرق الأخرى. ويسافر الفريق حول العالم ويزورون المستخدمين في بيوتهم للتعرف على آرائهم وطبيعة استخدامهم لمنتجاتنا. (لا داعي للقلق ... يقوم الفريق بالتنسيق قبل الزيارة!)








وهناك فريق يعمل على الحد من سوء الاستخدام وأي ممارسات من شأنها التأثير بطريقة غير قانونية على نتائج البحث. ومن هذه الممارسات وضع بعض الكلمات المفتاحية وإخفاءها في الصفحات لخداع محرك البحث، وغير ذلك. ويعمل الفريق على متابعة كل ما هو جديد في هذا العالم لمحاربته في مختلف دول العالم. ويرتبط هذا الفريق بآخر ينسق العلاقة مع مديري المواقع وذلك لتبادل الخبرات والاستماع لملاحظات أصحاب المواقع.








وهناك العديد من الفرق الأخرى التي تقوم بمشاريع محددة. وبصورة عامة، فإن هيكلنا الوظيفي يتميز بأنه غير تقليدي وغير رسمي، فهناك حركة دائمة ومشاريع جديدة طوال الوقت.








من أهم ما يميز Google كمحرك للبحث هو أن توقعات المستخدمين عن جودة الخدمة تتزايد بشكل متسارع. فالبحث غدا سيكون أكثر صعوبة من البحث اليوم. فكما أن قانون "Moore" يؤكد على تضاعف سرعة التقنية كل ١٨ شهرا. فإن هناك قوانين غير مكتوبة تؤكد على تضاعف صعوبة مهمة البحث في وقت أقصر. ومن المستحيل قياس ذلك بشكل دقيق، ولكننا جميعا نشعر به. وكما ذكرت لكم سابقا، سنستمر في إعلامكم بكل ما هو جديد في الشهور القادمة .. انتظرونا!











Introduction to Google Search Quality







Search Quality is the name of the team responsible for the ranking of Google search results. Our job is clear: A few hundreds of millions of times a day people will ask Google questions, and within a fraction of a second Google needs to decide which among the billions of pages on the web to show them -- and in what order. Lately, we have been doing other things as well. But more on that later.





For something that is used so often by so many people, surprisingly little is known about ranking at Google. This is entirely our fault, and it is by design. We are, to be honest, quite secretive about what we do. There are two reasons for it: competition and abuse. Competition is pretty straightforward. No company wants to share its secret recipes with its competitors. As for abuse, if we make our ranking formulas too accessible, we make it easier for people to game the system. Security by obscurity is never the strongest measure, and we do not rely on it exclusively, but it does prevent a lot of abuse.





The details of the ranking algorithms are in many ways Google's crown jewels. We are very proud of them and very protective of them. By some estimate, more than one thousand programmer/scientist years have gone directly into their development, and the rate of innovation has not slowed down.





But being completely secretive isn’t ideal, and this blog post is part of a renewed effort to open up a bit more than we have in the past. We will try to periodically tell you about new things, explain old things, give advice, spread news, and engage in conversations. Let me start with some general pieces of information about our group. More blog posts will follow.





I should take a moment to introduce myself. My name is Udi Manber, and I am a VP of engineering at Google in charge of Search Quality. I have been at Google for over two years, and I have been working on search technologies for almost 20 years.





The heart of the group is the team that works on core ranking. Ranking is hard, much harder than most people realize. One reason for this is that languages are inherently ambiguous, and documents do not follow any set of rules. There are really no standards for how to convey information, so we need to be able to understand all web pages, written by anyone, for any reason. And that's just half of the problem. We also need to understand the queries people pose, which are on average fewer than three words, and map them to our understanding of all documents. Not to mention that different people have different needs. And we have to do all of that in a few milliseconds.





The most famous part of our ranking algorithm is PageRank, an algorithm developed by Larry Page and Sergey Brin, who founded Google. PageRank is still in use today, but it is now a part of a much larger system. Other parts include language models - the ability to handle phrases, synonyms, diacritics (see screenshot below) spelling mistakes, and so on, query models - it's not just the language, it's how people use it today, time models - some queries are best answered with a 30-minutes old page, and some are better answered with a page that stood the test of time, and personalized models (not all people want the same thing).







SCREENSHOT OF DIACRITICALS








Another team in our group is responsible for evaluating how well we're doing. This is done in many different ways, but the goal is always the same: improve the user experience. This is not the main goal, it is the only goal. There are automated evaluations every minute (to make sure nothing goes wrong), periodic evaluations of our overall quality, and, most importantly, evaluations of specific algorithmic improvements. When an engineer gets a new idea and develops a new algorithm, we test their ideas thoroughly. We have a team of statisticians who look at all the data and determine the value of the new idea. We meet weekly (sometimes twice a week) to go over those new ideas and approve new launches. In 2007, we launched more than 450 new improvements, about 9 per week on the average.






International search has been one of our key focus areas in the past two years. This means all spoken languages, not just the major ones. Last year, for example, we made major improvements in Azerbaijani, a language spoken by about 8 million people. In the past few months, we launched spell checking in Arabic, Estonian, Catalan, Serbian, Serbo-Croatian, Ukranian, Bosnian, Latvian, Filipino, and more. We organized a network of people all over the world who provide us with feedback, and we have a large set of volunteers from all parts of Google who speak different languages and help us improve search.





Another team is dedicated to new features and new user interfaces. Having a great engine is necessary for a great car, but it is not sufficient. The car has to be comfortable and easy to drive. The Google search user interface is quite simple. Very few of our users ever read our help pages, and they can do very well without them (but they're good reading nevertheless, and we're working to improve them). When we add new features we try to ensure that they will be intuitive and easy to use for everyone. One of the most visible changes we made in the past year was Universal Search. Universal Search is all about bringing together the diverse world of Google properties (News, Maps, Images, Scholar, and so on) in the into our web results (more on Universal Search on our English blog).








UNIVERSAL SEARCH SCREENSHOT











Another great example is the many improvement to iGoogle, which allows the user to configure a landing page with Google and non-Google content. See it in action. Users may make it their homepage and add "gadgets" provided by Google and third parties. Some of the unique iGoogle gadgets to the Arab world include Google Translate, Date & Time for your local city, Prayer Times, News, and more. . The UI team is helped by a team of usability experts who conduct user studies and evaluate new features. They travel all over the world, and they even go to people's homes to see users in their natural habitat. (Don't worry, they do not come unannounced or uninvited!)






There is a whole team that concentrates on fighting webspam and other types of abuse. That team works on variety of issues from hidden text to off-topic pages stuffed with gibberish keywords, plus many other schemes that people use in an attempt to rank higher in our search results. The team spots new spam trends and works to counter those trends in scalable ways; like all other teams, they do it internationally. The webspam group works closely with the Google Webmaster Central team, so they can share insights with everyone and also listen to site owners.






There are other teams devoted to particular projects. In general, our organizational structure is quite informal. People move around, and new projects start all the time.





One of the key things about search is that users' expectations grow rapidly. Tomorrow's queries will be much harder than today's queries. Just as Moore's law governs the doubling of computing speed every 18 months, there is a hidden unwritten law that doubles the complexity of our most difficult queries in a short time. This is impossible to measure precisely, but we all feel it. We know we cannot rest on our laurels, we have to work hard to meet the challenge. As I mentioned earlier, we will continue providing you with updates on search quality in the coming months, so stay tuned.






Pageviews Last 30 Days

Followers