قدم أودي مانبر في مايو/أيار، لمحة عن مجموعة جودة البحث الخاصة بنا، وهي مجموعة الفرق المسؤولة عن ترتيب نتائج محرك البحث. وأوضح مانبر يومها الفرق التي تتألف منها "الجودة" (كما اعتدنا أن نسميها) ويشمل ذلك فريق الترتيب المحوري، وفريق البحث الدولي، وفريق واجهات المستخدم، وفريق التقييم، وفريق المحتوى المزعج في الويب "Web Spam"، وغيرها من الفرق. لكنني لن أكرر كل ذلك في هذه التدوينة، بل أريد أن أحدثكم عن فريق واحد من هذه الفرق وهو فريق الترتيب الأساسي.
وقبل أن أسترسل، يسرني أن أقدم نفسي لكم، اسمي آميت سنغال، وأنا الشخص المسؤول عن فريق ترتيب Google،و لدي 18 سنة خبرة في مجال محركات البحث، حيث تعرفت على مسائل البحث في العام 1990 عندما كنت طالباً على أبواب التخرج من قسم علوم الحاسوب.
أكتفي بهذا القدر من الحديث عن نفسي، لأعود إلى توضيح ما أود الحديث عنه وهو ترتيب Google.
وبكلمات بسيطة يمكنني أن أعرف عن ترتيب Google بأنه مجموعة الخوارزميات المستخدمة لإيجاد الوثائق الأكثر صلة بطلب بحث معين للمستخدم. ونحن في Google نفعل ذلك لمئات ملايين طلبات البحث التي نتلقاها يومياً، لنبحث بين مجموعة من مليارات مليارات الصفحات. وهكذا تعمل تلك الخوارزميات لكل عملية بحث يتم إدخاله في معظم خدمات البحث التي توفرها شركة Google. وبينما تشكل خدمة البحث في ويب خدمة Google الأكثر استخدامًا وشهرة، فإن خوارزميات الترتيب ذاتها تستخدم أيضًا - مع بعض التعديلات – ضمن خدمات بحث أخرى توفرها Google، تشمل البحث في الصور، والأخبار، و YouTube ، والخرائط، والبحث عن المنتجات، والبحث في الكتب وغير ذلك.
لكن السؤال الأكثر شيوعًا الذي أتلقاه باستمرار بشأن ترتيب Google هو "كيف نفعل ذلك؟" وجوابي ببساطة أن ذلك يعود إلى عملنا المستمر على بناء وتطوير أحدث نظم الترتيب كالذي نعتمد عليه. وأود اليوم، أن أطلعكم بإيجاز على بعض القواعد التي نلتزم بها في تطوير نظام تصنيف Google:
1) تقديم أفضل النتائج المحلّية ذات الصلة عالمياً.
2) يجب إبقاء النظام بسيطاً.
3) يجب أن لا نحتاج لتدخل يدوي في الترتيب.
القاعدة الأولى بديهية، فبسبب حماستنا للبحث، نريد أن نضمن تماماً أن يجلب كل طلب بحث يدخله مستخدم النتائج الأكثر صلة بذلك الطلب. بل إننا غالباً ما نطلق على هذا المبدأ "يجب أن لا نترك أي طلب بحث ورائنا". وكلما عدنا بنتائج غير مثالية لأي طلب بحث بأي لغة وفي أي بلد – ويحدث هذا معنا أحياناً (فالبحث لم يصبح بعد مشكلة ذات حل كامل) فإننا نجعل من ذلك حافزاً ومصدر إلهام لمزيد من التحسينات على خوارزميات البحث في المستقبل.
المبدأ الثاني يبدو بديهياً أيضاً، أليس ذلك هو مطلب جميع مصممي النظم (الحفاظ علي بساطة النظام)؟ ونحن نضع ذلك نصب أعيننا باستمرار، لأننا كلما تقدمنا في تطوير نظم البحث، وعندما تأخذ في الحسبان المجموعة الواسعة من طلبات البحث التي يدخلها المستخدمون بلغات متعددة وعلينا الاستجابة لها بشكل صحيح، فمن السهل أن ننزلق في طريق يضيف المزيد والمزيد من التعقيد للنظام لتلبية التطوير المقبل للاستجابة لطلبات البحث. لكننا نعمل بكل جهدنا للحفاظ على نظامنا بسيطاً من دون التخلي عن هدفنا في تحقيق أفضل جودة ممكنة للنتائج. وهذا دأبنا، لكن الأمر يستحق منّا بذل الجهد. ونحن نجري عشرة تغييرات على نظام الترتيب كل أسبوع تقريباً، والبساطة عنصر رئيسي نأخذه في الحسبان عند إطلاق كل تغيير. ويعمل مهندسونا على الفهم الدقيق لماذا تم ترتيب صفحة بطريقة معنية نتيجة لإدخال طلب بحث معين. ويسمح لنا التصميم البسيط سهل الفهم للنظام بالابتكار سريعاً، وهذا يساعدنا كثيراً. ولاريب أن فلسفة "أبقه بسيطا" خدمتنا جيدًا حتى الآن.
وأخيراً إن أي حديث عن ترتيب Google لن يكتمل بدون طرح السؤال التالي: "هل تحرر Google نتائجها يدويًا؟" دعوني أجب عن ذلك بقاعدتنا الثالثة: لا يوجد أي تدخّل يدوي. نحن ننظر إلى الويب أنها شبكة بناها المستخدمون. فأنتم من أنشأ الصفحات ووصلها ببعضها. ونحن نأخذ هذه المساهمات البشرية في الحسبان ضمن خوارزمياتنا. وهكذا تقرر خوارزمياتنا الترتيب النهائي لنتائج البحث معتمدة على مساهمات مجتمع إنترنت الكبير، وليس يدويا من جهتنا. ونعتقد أن أي حكم ذاتي للفرد، هو فعلاً... ذاتي، والمعلومات المستخلصة من الكمية الضخمة من المعارف البشرية المشفرة في صفحات ويب ووصلاتها أفضل من الأحكام الذاتية الفردية.
والسبب الثاني لدينا أننا من حيث المبدأ ضد تعديل نتائجنا يدويًا هو أن طلب البحث المكسور (الذي لا يعطي نتائج مناسبة) يعد باستمرار فرصة لنا لتحسين محتمل يمكن تحقيقه على خوارزمية الترتيب التي نعتمدها. وتحسين الخوارزمية لا يحسن نتائج طلب بحث واحد فحسب بل يحسن نتائج فئة كاملة من طلبات البحث، ولجميع اللغات الأخرى غالباً أيضاً. وهنا لا بد أن أضيف، أنه لدى Google سياسات مكتوبة واضحة خاصة بالمواقع توصي بها، ونحن نتخذ إجراءات ضد المواقع التي تنتهك سياساتنا أو لعدد من الأسباب الأخرى القليلة (مثل المتطلبات القانونية، والمحتويات الإباحية للأطفال، والفيروسات/والبرمجيات الخبيثة ، الخ).
اسمحوا لي أن أختتم هذه التدوينة قائلاً : حماسنا للبحث اليوم أقوى بكثير وكعالم في مجال البحث، أعتقد أنني أعمل في أفضل وظيفة في العالم :-).
Posted by Amit Singhal, Search Quality
Introduction to Google Ranking
In May, Udi Manber introduced our search quality group, the group responsible for the ranking of search results. He introduced various teams within "Quality" (as we like to call the group) including Core Ranking, International Search, User Interfaces, Evaluation, Webspam, and other teams. In this post, I want to tell you more about one of these: the Core Ranking team.
Let me introduce myself. My name is Amit Singhal. I'm a Google Fellow in charge of the ranking team at Google. I've worked in the field of search for the past eighteen years, having been introduced to search in 1990 as a graduate student in computer science.
Google ranking is a collection of algorithms used to find the most relevant documents for a user query. We do this for hundreds of millions of queries a day, from a collection of billions and billions of pages. These algorithms are run for every query entered into most of Google's search services. While our web search is the most used Google search service and the most widely known, the same ranking algorithms are also used - with some modifications - for other Google search services, including Images, News, YouTube, Maps, Product Search, Book Search, and more.
The most common question I get asked about Google's ranking is "how do you do it?" Of course, there is a lot that goes into building a state-of-the-art ranking system like ours. Today, I would like to briefly share the philosophies behind Google ranking:
1) Best locally relevant results served globally.
2) Keep it simple.
3) No manual intervention.
The first one is obvious. Given our passion for search, we absolutely want to make sure that every user query gets the most relevant results. We often call this the "no query left behind" principle. Whenever we return less than ideal results for any query in any language in any country - and we do (search is by no means a solved problem) - we use that as an inspiration for future improvements.
The second principle seems obvious. Isn't it the desire of all system architects to keep their systems simple? Well, as search systems go, given the wide variety of user queries we have to respond to in multiple languages, it is easy to go down the path where more and more complexity creeps into the system to serve the next incremental fraction of the queries. We work very hard to keep our system simple without compromising on the quality of results. This is an ongoing effort, and a worthy one. We make about ten ranking changes every week and simplicity is a big consideration in launching every change. Our engineers understand exactly why a page was ranked the way it was for a given query. This simple understandable system has allowed us innovate quickly, and it shows. The "keep it simple" philosophy has served us well.
No discussion of Google's ranking would be complete without asking the common - but misguided! :) - question: "Does Google manually edit its results?" Let me just answer that with our third philosophy: no manual intervention. In our view, the web is built by people. You are the ones creating pages and linking to pages. We are using all this human contribution through our algorithms. The final ordering of the results is decided by our algorithms using the contributions of the greater Internet community, not manually by us. We believe that the subjective judgment of any individual is, well ... subjective, and information distilled by our algorithms from the vast amount of human knowledge encoded in the web pages and their links is better than individual subjectivity.
The second reason we have a principle against manually adjusting our results is that often a broken query is just a symptom of a potential improvement to be made to our ranking algorithm. Improving the underlying algorithm not only improves that one query, it improves an entire class of queries, and often for all languages. I should add, however, that there are clear written policies for websites recommended by Google, and we do take action on sites that are in violation of our policies or for a small number of other reasons (e.g. legal requirements, child porn, viruses/malware, etc).
Let me just conclude this post by saying, our passion for search is stronger than ever - and as a search researcher, I have the best job in the world :-).
Posted by Amit Singhal, Search Quality