Directrius per a posicionar millor les webs Per ordre d'importància Tal com deia en Rafeques: no es pot matar tot el que és gras. Una web es pot posicionar molt bé per a una frase (o concepte) de recerca, es pot posicionar mitjanament bé per a 2 frases i malament per a 3 frases. Es tracta de trobar la “frase màgica” que vengui, però això no és feina del programador. Hem de tenir en compte que no podem posar títols quilomètrics o links exageradament llargs a les pàgines. Quan més texte hi posem (vàlid pel contingut també), menys rellevància passa a tenir cada paraula (la famosa densitat de paraules...). També influeix l'ordre i la distància entre elles. Els buscadors sempre comparen les diferents pàgines en competència per veure quina s'ajusta millor a la cerca de l'usuari. Depèn de l'algoritme empleat el fet que un buscador doni un SERP (resultat de la cerca) o un altre i hi intervenen molts factors. Aquí hi ha 10 punts que s'haurien de tenir molt presents en el moment de programar una web: 1.- Cada pàgina, ha de tenir un títol diferent i també en cada idioma. El títol ha de reflectir el contingut de la pàgina tenint en compte que ens l'hem d'imaginar com una frase publicitària composta per paraules clau. Aquestes paraules ens les hem d'imaginar com les que la gent busca al Google o a Yahoo. P.ex.: el típic hotel de Lloret. L'ordre de les paraules dependrà del que volguem vendre. SI el volguessim posicionar més per Lloret que per Hotel Las Perlas, canviariem l'ordre de les paraules al títol. Home anglès: Hotel Las Perlas – Lloret de Mar – Costa Brava – Spain. Welcome Home espanyol: Hotel Las Perlas – Lloret de Mar – Costa Brava. Bienvenido Pàgina entorn espanyol: Hotel Las Perlas – Lloret de Mar – Costa Brava: entre el mar, la playa y la montaña Pàgina interiors habitacions anglès: Hotel Las Perlas – Lloret de Mar – Costa Brava: luxury double room with jacuzzi Pàgina reserves espanyol: Hotel Las Perlas – Lloret de Mar – Costa Brava: reservas al mejor precio ... 2.- Assegurar-nos que no es repeteixin els mateixos textos en diferents pàgines. 3.- Assegurar-nos que no es repeteixin els títols i els metas a les diferents pàgines. 4.- Els textos de les pàgines han de tenir a veure, lògicament, amb el contingut i els metas. 5.- Procurar fer servir <H1> al començament de la pàgina, intentar prescindir dels textos dins el flash. Després, per ordre d'importancia ve <H2>. <H3> ja té molt menys de pes, per no dir gens. 6.- Quan creem un directori, donar-li un nom adequat al contingut procurant que el nom de la carpeta es pugui entendre, sobretot, en castellà, anglès i després català. El mateix per als php's, html's i fotos. 7.- Fer servir els tags ALT i TITLE a <IMG SRC...>. I que tinguin a veure amb la foto! 8.- Tots els punts anteriors semblen ser més importants que els <META...>. Google ignora les keywords. 9.- Els links, fer-los en texte i que el texte del link sigui com una frase publicitària composta per paraules clau, com hem fet abans amb el títol. 10.- Intentar reduir el número de variables passades per l'URL a no més de 3 i prescindir de les variables que es van repetint i que no son rellevants per al contingut (p.ex.: Id. sessió). DIRECTRIUS DE GOOGLE Directrices de diseño y contenido • • • • • • • • • Cree un sitio con una jerarquía y vínculos de texto claros. Se debe poder acceder a todas las páginas desde al menos un vínculo de texto estático. Ofrezca a los usuarios un mapa del sitio con vínculos que apunten a las secciones importantes del mismo. Si el mapa contiene más de cien vínculos, puede dividirlo en varias páginas. Cree un sitio útil con mucha información y redacte páginas que describan el contenido con claridad y exactitud. Determine las palabras que los usuarios utilizarían para encontrar sus páginas y asegúrese de que su sitio las incluye. Intente utilizar texto en lugar de imágenes para mostrar nombres, contenido o vínculos importantes. El rastreador de Google no reconoce el texto incorporado a imágenes. Asegúrese de que los atributos ALT y las etiquetas TITLE sean descriptivos y precisos. Compruebe que no haya vínculos dañados o código HTML incorrecto. Si decide utilizar páginas dinámicas (es decir, una URL que contenga el carácter "?"), sepa que no todas las arañas de los motores de búsqueda rastrean páginas dinámicas, además de páginas estáticas. Se recomienda que los parámetros sean cortos y escasos. Una página no debería contener más de cien vínculos. Directrices técnicas • • • • • Utilice un navegador de texto como Lynx para examinar su sitio, ya que la mayoría de las arañas lo analizan como lo haría dicha aplicación. Si las funciones avanzadas como JavaScript, cookies, ID de sesión, marcos, DHTML o Flash impiden la visualización de todo su sitio en un navegador de texto, es posible que las arañas de los motores de búsqueda tengan problemas para rastrearlo. Permita que los robots de búsqueda rastreen sus sitios sin ID de sesión o argumentos que efectúan un seguimiento de su ruta por el sitio. Estas técnicas son de gran utilidad para supervisar el comportamiento de un determinado usuario, pero el patrón de acceso de los robots es completamente distinto. El uso de estos métodos puede llevar a una indexación incompleta de su sitio, ya que es posible que los robots no puedan eliminar las URL que tengan un aspecto distinto pero que en realidad apuntan a la misma página. Asegúrese de que su servidor web admita la cabecera HTTP "If-Modified-Since". Esta función permite que su servidor web avise a Google si el contenido de su sitio ha cambiado desde la última vez que lo rastreamos. La compatibilidad con esta función le ahorra ancho de banda y gastos generales. Utilice el archivo robots.txt en su servidor web. Este archivo comunica a los rastreadores qué directorios pueden o no rastrearse. Asegúrese de que el archivo esté actualizado para su sitio de modo que no bloquee accidentalmente el rastreador Googlebot. Si desea obtener más información acerca de cómo configurar los robots que visitan su sitio, vaya a http://www.robotstxt.org/wc/faq.html. Compruebe que utiliza el archivo robots.txt correctamente mediante la herramienta de análisis de robots.txt, disponible a través de las herramientas para webmasters de Google. Si su compañía adquiere un sistema de administración de contenido, asegúrese de que pueda exportar el contenido de modo que las arañas de los motores de búsqueda logren rastrear su sitio. • Utilice robots.txt para evitar el rastreo de páginas de resultados de búsqueda u otras páginas generadas automáticamente que carecen de valor para los usuarios procedentes de motores de búsqueda. Directrices de calidad Estas directrices de calidad cubren las formas más comunes de comportamiento engañoso o manipulador. No obstante, es posible que Google no apruebe otras prácticas engañosas que no se incluyen a continuación (por ej., engañar a los usuarios con el registro de palabras escritas incorrectamente de sitios web conocidos). No se debe suponer que Google autoriza una técnica engañosa específica sólo por el hecho de que no figure en la presente página. Los webmasters que se esfuercen por respetar el espíritu de los principios básicos mencionados anteriormente ofrecerán a los usuarios un servicio de mayor calidad y alcanzarán un mejor ranking que aquellos que buscan vacíos legales que explotar. Si cree que algún sitio está vulnerando las directrices de calidad de Google, avísenos a través de la página https://www.google.com/webmasters/tools/spamreport?hl=es. Google prefiere desarrollar soluciones escalables y automatizadas a los problemas. Por lo tanto, intentamos minimizar la lucha directa contra sitios fraudulentos. Los informes que recibimos sobre este tipo de sitios se utilizan para crear algoritmos escalables que reconozcan y bloqueen intentos futuros de generarlos. Directrices de calidad: principios básicos • • • • Cree páginas para usuarios y no para motores de búsqueda. No engañe a sus usuarios ni presente a los motores de búsqueda contenido distinto al que les muestra a ellos; esta práctica se conoce como "encubrimiento". Evite trucos destinados a mejorar los rankings en los motores de búsqueda. Una buena regla general es preguntarse si se sentiría cómodo al tener que explicar a un sitio web de la competencia lo que ha hecho. Otra prueba de gran utilidad es preguntarse: "¿Ayuda esto a mis usuarios?; ¿haría esto si no existiesen los motores de búsqueda?". No participe en esquemas de vínculos diseñados para incrementar el ranking o el valor de PageRank de su sitio. En concreto, evite vínculos que enlazan con los creadores de sitios fraudulentos o "vecindarios indeseables" de la web, ya que su propio ranking podría verse afectado negativamente por ellos. No utilice programas informáticos no autorizados para enviar páginas, comprobar rankings, etc., ya que estos consumen recursos informáticos y vulneran nuestras Condiciones de servicio. Google no recomienda el uso de productos como WebPosition Gold™ que envían consultas automáticas o de programación a Google. Directrices específicas de calidad • • • • • • • • Evite utilizar texto o vínculos ocultos. No recurra a técnicas de encubrimiento o a redireccionamientos elusivos. No envíe consultas automatizadas a Google. No suba páginas con palabras irrelevantes. No cree varias páginas, subdominios o dominios que presenten básicamente contenido duplicado. També vol dir que a una pàgina no s'hi accedeixi per 2 URLs diferents No cree páginas que instalen virus, troyanos u otros tipos de software malicioso. Evite páginas "puerta" creadas exclusivamente para motores de búsqueda u otros métodos extendidos, como programas de afiliación con poco o nada de contenido original. Tipus www.aparthotelbarcelona.com: Si su sitio participa en un programa de afiliados, asegúrese de que aporta un valor añadido. Proporcione contenido único y relevante que suponga para los usuarios una razón para visitar el sitio. ROBOTS.TXT i similars robots.txt Los buscadores tipo google se sirven de robots, programas con algoritmos mas o menos complejos, que les permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una base de datos y seguir los enlaces que tenga a otras páginas web Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas. O puede suceder lo contrario ... que deseemos asegurarnos que determinadas páginas son indexadas. Con diversas limitaciones, podemos dar instrucciones a los robots. ¿Como? mediante el archivo robots.txt. El archivo robots.txt Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es el archivo http://www.ignside.net/robots.txt. Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web. El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas. En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots: User-agent: * Disallow: / # aplicable a todos # impide la indexacion de todas las paginas En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el directorio raiz Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo alli. Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco. Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo A continuacion pondremos una o mas directivas Disallow: . Aqui tienes algun ejemplo. Nota que el signo # señala que la linea que le sigue es un comentario, y no será leida: # Establecemos total libertad para webcrawler # Ya que dejamos Disallow vacio User-agent: webcrawler Disallow: # En cambio lycra y BadBot # tiene prohibido integramente el acceso User-agent: lycra User-agent: BadBot Disallow: / # El resto de bots (señalado mediante *) # tiene prohibido el acceso a los directorios # /tmp y /log; libertad para el resto. User-agent: * Disallow: /tmp Disallow: /logs Puedes consultar una lista de los robots conocidos en robotstxt.org Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas. Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir. Por ejemplo: Disallow: /help # afecta a /help.html y a /help/index.html Disallow: /help/ # afecta a /help/index.html pero no a /help.html. Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna. Ten en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help). Robots y etiquetas META Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META: <META name="ROBOTS" content="NOINDEX, NOFOLLOW"> Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links. Las opciones a poner en content son ALL, INDEX, NOFOLLOW, NOINDEX Visit-time Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan las páginas: ... # Permitir trabajar a los botsde 2 am a 7:45 am # Las horas son siempre Greenwitch Visit-time: 0200-0745 # Un documento CADA 30 minutos Request-rate: 1/30m # Combinado: 1 doc cada 10 minutos # y solo de una a 5 tarde Request-rate: 1/10m 1300-1659 Més info: http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1 http://www.robotstxt.org/wc/norobots.html http://www.robotstxt.org/wc/robots.html http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt http://www.robotstxt.org/wc/faq.html http://www.conman.org/people/spc/robots2.html#format.directives.visit-time METAS Meta elements are HTML or XHTML elements used to provide structured metadata about a web page. Such elements must be placed as tags in the head section of an HTML or XHTML document. Meta elements can be used to specify page description, keywords and any other metadata not provided through the other head elements and attributes. The meta element has four valid attributes: content, http-equiv, name and scheme. Of these, only content is a required attribute. An example of the use of the meta element In one form, meta elements can specify HTTP headers which should be sent before the actual content when the HTML page is served from web server to client. For example: <meta http-equiv="Content-Type" content="text/html"> This specifies that the page should be served with an HTTP header called 'Content-Type' that has a value 'text/html'. This is a typical use of the meta element which is used to specify the document type so that a client (browser or otherwise) knows what content type it is expected to render. In the general form, a meta element specifies name and associated content attributes describing aspects of the HTML page. For example <meta name="keywords" content="wikipedia,encyclopedia"> In this example, the meta element identifies itself as containing the 'keywords' relevant to the document, wikipedia and encyclopedia. Meta element use in search engine optimization Meta elements provide information about a given webpage, most often to help search engines categorize them correctly. They are inserted into the HTML document, but are often not directly visible to a user visiting the site. They have been the focus of a field of marketing research known as search engine optimization (SEO), where different methods are explored to provide a user's site with a higher ranking on search engines. In the mid to late 1990s, search engines were reliant on meta data to correctly classify a web page and webmasters quickly learned the commercial significance of having the right meta element, as it frequently led to a high ranking in the search engines — and thus, high traffic to the web site. As search engine traffic achieved greater significance in online marketing plans, consultants were brought in who were well versed in how search engines perceive a web site. These consultants used a variety of techniques (legitimate and otherwise) to improve ranking for their clients. Meta elements have significantly less effect on search engine results pages today than they did in the 1990s and their utility has decreased dramatically as search engine robots have become more sophisticated. This is due in part to the nearly infinite re-occurrence (keyword stuffing) of meta elements and/or to attempts by unscrupulous website placement consultants to manipulate (spamdexing) or otherwise circumvent search engine ranking algorithms. While search engine optimization can improve search engine ranking, consumers of such services should be careful to employ only reputable providers. Given the extraordinary competition and technological craftsmanship required for top search engine placement, the implication of the term "search engine optimization" has deteriorated over the last decade. Where it once implied crafting a website into a state of search engine perfection, for the average consumer it now implies something on the order of making a website search engine tolerable. Major search engine robots are more likely to quantify such extant factors as the volume of incoming links from related websites, quantity and quality of content, technical precision of source code, spelling, functional v. broken hyperlinks, volume and consistency of searches and/or viewer traffic, time within website, page views, revisits, click-throughs, technical user-features, uniqueness, redundancy, relevance, advertising revenue yield, freshness, geography, language and other intrinsic characteristics. The keywords attribute The keywords attribute was popularized by search engines such as Infoseek and AltaVista in 1995, and its popularity quickly grew until it became one of the most commonly used meta elements[1]. By late 1997, however, search engine providers realized that information stored in meta elements, especially the keyword attribute, was often unreliable and misleading, and at worst, used to draw users into spam sites. (Unscrupulous webmasters could easily place false keywords into their meta elements in order to draw people to their site.) Search engines began dropping support for metadata provided by the meta element in 1998, and by the early 2000s, most search engines had veered completely away from reliance on meta elements. In July 2002 AltaVista, one of the last major search engines to still offer support, finally stopped considering them[2]. No consensus exist whether or not the keywords attribute has any impact on ranking at any of the major search engine today. It is speculated that it does, if the keywords used in the meta can also be found in the page copy itself. 37 leaders in search engine optimization concluded in April 2007 that the relevance of having your keywords in the meta-attribute keywords is little to none[3]. The description attribute Unlike the keyword attribute, the description attribute is supported by most major search engines, like Yahoo and Live Search, while Google will fall back on this tag when information about the page itself is requested (e.g. using the related: query). The description attribute provides a concise explanation of a web page's content. This allows the webpage authors to give a more meaningful description for listings than might be displayed if the search engine was unable to automatically create its own description based on the page content. The description is often, but not always, displayed on search engine results pages, so it can impact click-through rates. Industry commentators have suggested that major search engines also consider keywords located in the description attribute when ranking pages.[4] W3C doesn't specify the size of this description meta tag, but almost all search engines recommend it to be shorter than 200 characters of plain text. Additional attibutes for search engines NOODP The search engines Google, Yahoo! and MSN use in some cases the title and abstract of the Open Directory Project (ODP) listing of a web site for the title and/or description (also called snippet or abstract) in the search engine results pages (SERPS). To give webmasters the option to specify that the ODP content should not be used for listings of their website, Microsoft introduced in May 2006 the new "NOODP" value for the "robots" element of the meta tags [7]. Google followed in July 2006[8] and Yahoo! in October 2006[9]. The syntax is the same for all search engines who support the tag. <META NAME="ROBOTS" CONTENT="NOODP"> Webmasters can decide if they want to disallow the use of their ODP listing on a per search engine basis Google: <META NAME="GOOGLEBOT" CONTENT="NOODP"> Yahoo! <META NAME="Slurp" CONTENT="NOODP"> MSN and Live Search: <META NAME="msnbot" CONTENT="NOODP"> NOYDIR Yahoo! also used next to the ODP listing the content from their own Yahoo! directory but introduced in February 2007 a meta tag that provides webmasters with the option to opt-out of this[10]. Yahoo! Directory titles and abstracts will not be used in search results for their pages if the NOYDIR tag is being added to a web page. <META NAME="ROBOTS" CONTENT="NOYDIR"> <META NAME="Slurp" CONTENT="NOYDIR"> Robots-NoContent Yahoo! also introduced in May 2007 the attribute value: class="robots-nocontent".[11] This is not a meta tag, but an attribute and value, which can be used throughout web page tags where needed. Content of the page where this attribute is being used will be ignored by the Yahoo! crawler and not included in the search engine's index. Examples for the use of the robots-nocontent tag: <div class="robots-nocontent">excluded content</div> <span class="robots-nocontent">excluded content</span> <p class="robots-nocontent">excluded content</p> Academic studies Google does not use HTML keyword or metatag elements for indexing. The Director of Research at Google, Monika Henziger, was quoted (in 2002) as saying, "Currently we don't trust metadata" [12]. Other search engines developed techniques to penalize web sites considered to be "cheating the system". For example, a web site repeating the same meta keyword several times may have its ranking decreased by a search engine trying to eliminate this practice, though that is unlikely. It is more likely that a search engine will ignore the meta keyword element completely, and most do regardless of how many words used in the element. Redirects Meta refresh elements can be used to instruct a web browser to automatically refresh a web page after a given time interval. It is also possible to specify an alternative URL and use this technique in order to redirect the user to a different location. Using a meta refresh in this way and solely by itself rarely achieves the desired result. For Internet Explorer's security settings, under the miscellaneous category, meta refresh can be turned off by the user, thereby disabling its redirect ability entirely. Many web design tutorials also point out that client side redirecting tends to interfere with the normal functioning of a web browser's "back" button. After being redirected, clicking the back button will cause the user to go back to the redirect page, which redirects them again. Some modern browsers seem to overcome this problem however, including Safari, Mozilla Firefox and Opera. It should be noted that auto-redirects via markup (versus server side redirects) are not in compliance with the W3C's - Web Content Accessibility Guidelines (WCAG) 1.0 (guideline 7.5).[13] HTTP message headers Meta elements of the form <meta http-equiv="foo" content="bar"> can be used as alternatives to http headers. For example, <meta http-equiv="expires" content="Wed, 21 Jun 2006 14:25:27 GMT"> would tell the browser that the page "expires" on June 21 2006 21:05:27 GMT and that it may safely cache the page until then. References 1. ^ Statistic (June 4,1997), META attributes by count, Vancouver Webpages, retrieved June 3, 2007 2. ^ Danny Sullivan (October 1, 2002), Death Of A Meta Tag, SearchEngineWatch.com, retrieved June 03, 2007 3. ^ Rand Fishkin (April 2, 2007), Search Engine Ranking Factors V2, SEOmoz.org, retrieved June 3, 2007 4. ^ Danny Sullivan, How To Use HTML Meta Tags, Search Engine Watch, December 5, 2002 5. ^ Vanessa Fox, Using the robots meta tag, Official Google Webmaster Central Blog, 3/05/2007 6. ^ Danny Sullivan (March 5, 2007),Meta Robots Tag 101: Blocking Spiders, Cached Pages & More, SearchEngineLand.com, retrieved June 3, 2007 7. ^ Betsy Aoki (May 22, 2006), Opting Out of Open Directory Listings for Webmasters, Live Search Blog, retrieved June 3, 2007 8. ^ Vanessa Fox (July 13, 2006), More control over page snippets, Inside Google Sitemaps, retrieved June 3, 2007 9. ^ Yahoo! Search (October 24, 2006), Yahoo! Search Weather Update and Support for 'NOODP', Yahoo! Search Blog, retrieved June 3, 2007 10.^ Yahoo! Search (February 28, 2007), Yahoo! Search Support for 'NOYDIR' Meta Tags and Weather Update, Yahoo! Search Blog, retrieved June 3, 2007 11.^ Yahoo! Search (May 02, 2007), Introducing Robots-Nocontent for Page Sections, Yahoo! Search Blog, retrieved June 3, 2007 12.^ Journal of Internet Cataloging, Volume 5(1), 2002 13.^ W3C Recommendation (May 5, 1999), Web Content Accessibility Guidelines 1.0 - Guideline 7. W3.org, retrieved September 28, 2007