Directrius per a posicionar millor les webs

Anuncio
Directrius per a posicionar millor les webs
Per ordre d'importància
Tal com deia en Rafeques: no es pot matar tot el que és gras. Una web es pot posicionar molt bé per a una
frase (o concepte) de recerca, es pot posicionar mitjanament bé per a 2 frases i malament per a 3 frases. Es
tracta de trobar la “frase màgica” que vengui, però això no és feina del programador.
Hem de tenir en compte que no podem posar títols quilomètrics o links exageradament llargs a les pàgines.
Quan més texte hi posem (vàlid pel contingut també), menys rellevància passa a tenir cada paraula (la
famosa densitat de paraules...). També influeix l'ordre i la distància entre elles.
Els buscadors sempre comparen les diferents pàgines en competència per veure quina s'ajusta millor a la
cerca de l'usuari. Depèn de l'algoritme empleat el fet que un buscador doni un SERP (resultat de la cerca) o
un altre i hi intervenen molts factors.
Aquí hi ha 10 punts que s'haurien de tenir molt presents en el moment de programar una web:
1.- Cada pàgina, ha de tenir un títol diferent i també en cada idioma. El títol ha de reflectir el contingut de
la pàgina tenint en compte que ens l'hem d'imaginar com una frase publicitària composta per paraules clau.
Aquestes paraules ens les hem d'imaginar com les que la gent busca al Google o a Yahoo.
P.ex.: el típic hotel de Lloret. L'ordre de les paraules dependrà del que volguem vendre. SI el volguessim
posicionar més per Lloret que per Hotel Las Perlas, canviariem l'ordre de les paraules al títol.
Home anglès: Hotel Las Perlas – Lloret de Mar – Costa Brava – Spain. Welcome
Home espanyol: Hotel Las Perlas – Lloret de Mar – Costa Brava. Bienvenido
Pàgina entorn espanyol: Hotel Las Perlas – Lloret de Mar – Costa Brava: entre el mar, la playa y la montaña
Pàgina interiors habitacions anglès: Hotel Las Perlas – Lloret de Mar – Costa Brava: luxury double room with jacuzzi
Pàgina reserves espanyol: Hotel Las Perlas – Lloret de Mar – Costa Brava: reservas al mejor precio
...
2.- Assegurar-nos que no es repeteixin els mateixos textos en diferents pàgines.
3.- Assegurar-nos que no es repeteixin els títols i els metas a les diferents pàgines.
4.- Els textos de les pàgines han de tenir a veure, lògicament, amb el contingut i els metas.
5.- Procurar fer servir <H1> al començament de la pàgina, intentar prescindir dels textos dins el flash.
Després, per ordre d'importancia ve <H2>. <H3> ja té molt menys de pes, per no dir gens.
6.- Quan creem un directori, donar-li un nom adequat al contingut procurant que el nom de la carpeta es
pugui entendre, sobretot, en castellà, anglès i després català. El mateix per als php's, html's i fotos.
7.- Fer servir els tags ALT i TITLE a <IMG SRC...>. I que tinguin a veure amb la foto!
8.- Tots els punts anteriors semblen ser més importants que els <META...>. Google ignora les keywords.
9.- Els links, fer-los en texte i que el texte del link sigui com una frase publicitària composta per paraules
clau, com hem fet abans amb el títol.
10.- Intentar reduir el número de variables passades per l'URL a no més de 3 i prescindir de les variables
que es van repetint i que no son rellevants per al contingut (p.ex.: Id. sessió).
DIRECTRIUS DE GOOGLE
Directrices de diseño y contenido
•
•
•
•
•
•
•
•
•
Cree un sitio con una jerarquía y vínculos de texto claros. Se debe poder acceder a todas las
páginas desde al menos un vínculo de texto estático.
Ofrezca a los usuarios un mapa del sitio con vínculos que apunten a las secciones importantes del
mismo. Si el mapa contiene más de cien vínculos, puede dividirlo en varias páginas.
Cree un sitio útil con mucha información y redacte páginas que describan el contenido con claridad y
exactitud.
Determine las palabras que los usuarios utilizarían para encontrar sus páginas y asegúrese de que
su sitio las incluye.
Intente utilizar texto en lugar de imágenes para mostrar nombres, contenido o vínculos importantes.
El rastreador de Google no reconoce el texto incorporado a imágenes.
Asegúrese de que los atributos ALT y las etiquetas TITLE sean descriptivos y precisos.
Compruebe que no haya vínculos dañados o código HTML incorrecto.
Si decide utilizar páginas dinámicas (es decir, una URL que contenga el carácter "?"), sepa que no
todas las arañas de los motores de búsqueda rastrean páginas dinámicas, además de páginas
estáticas. Se recomienda que los parámetros sean cortos y escasos.
Una página no debería contener más de cien vínculos.
Directrices técnicas
•
•
•
•
•
Utilice un navegador de texto como Lynx para examinar su sitio, ya que la mayoría de las arañas lo
analizan como lo haría dicha aplicación. Si las funciones avanzadas como JavaScript, cookies, ID
de sesión, marcos, DHTML o Flash impiden la visualización de todo su sitio en un navegador de
texto, es posible que las arañas de los motores de búsqueda tengan problemas para rastrearlo.
Permita que los robots de búsqueda rastreen sus sitios sin ID de sesión o argumentos que efectúan
un seguimiento de su ruta por el sitio. Estas técnicas son de gran utilidad para supervisar el
comportamiento de un determinado usuario, pero el patrón de acceso de los robots es
completamente distinto. El uso de estos métodos puede llevar a una indexación incompleta de su
sitio, ya que es posible que los robots no puedan eliminar las URL que tengan un aspecto distinto
pero que en realidad apuntan a la misma página.
Asegúrese de que su servidor web admita la cabecera HTTP "If-Modified-Since". Esta función
permite que su servidor web avise a Google si el contenido de su sitio ha cambiado desde la última
vez que lo rastreamos. La compatibilidad con esta función le ahorra ancho de banda y gastos
generales.
Utilice el archivo robots.txt en su servidor web. Este archivo comunica a los rastreadores qué
directorios pueden o no rastrearse. Asegúrese de que el archivo esté actualizado para su sitio de
modo que no bloquee accidentalmente el rastreador Googlebot. Si desea obtener más información
acerca de cómo configurar los robots que visitan su sitio, vaya a
http://www.robotstxt.org/wc/faq.html. Compruebe que utiliza el archivo robots.txt correctamente
mediante la herramienta de análisis de robots.txt, disponible a través de las herramientas para
webmasters de Google.
Si su compañía adquiere un sistema de administración de contenido, asegúrese de que pueda
exportar el contenido de modo que las arañas de los motores de búsqueda logren rastrear su sitio.
•
Utilice robots.txt para evitar el rastreo de páginas de resultados de búsqueda u otras páginas
generadas automáticamente que carecen de valor para los usuarios procedentes de motores de
búsqueda.
Directrices de calidad
Estas directrices de calidad cubren las formas más comunes de comportamiento engañoso o manipulador.
No obstante, es posible que Google no apruebe otras prácticas engañosas que no se incluyen a
continuación (por ej., engañar a los usuarios con el registro de palabras escritas incorrectamente de sitios
web conocidos). No se debe suponer que Google autoriza una técnica engañosa específica sólo por el
hecho de que no figure en la presente página. Los webmasters que se esfuercen por respetar el espíritu de
los principios básicos mencionados anteriormente ofrecerán a los usuarios un servicio de mayor calidad y
alcanzarán un mejor ranking que aquellos que buscan vacíos legales que explotar.
Si cree que algún sitio está vulnerando las directrices de calidad de Google, avísenos a través de la página
https://www.google.com/webmasters/tools/spamreport?hl=es. Google prefiere desarrollar soluciones
escalables y automatizadas a los problemas. Por lo tanto, intentamos minimizar la lucha directa contra sitios
fraudulentos. Los informes que recibimos sobre este tipo de sitios se utilizan para crear algoritmos
escalables que reconozcan y bloqueen intentos futuros de generarlos.
Directrices de calidad: principios básicos
•
•
•
•
Cree páginas para usuarios y no para motores de búsqueda. No engañe a sus usuarios ni presente
a los motores de búsqueda contenido distinto al que les muestra a ellos; esta práctica se conoce
como "encubrimiento".
Evite trucos destinados a mejorar los rankings en los motores de búsqueda. Una buena regla
general es preguntarse si se sentiría cómodo al tener que explicar a un sitio web de la competencia
lo que ha hecho. Otra prueba de gran utilidad es preguntarse: "¿Ayuda esto a mis usuarios?; ¿haría
esto si no existiesen los motores de búsqueda?".
No participe en esquemas de vínculos diseñados para incrementar el ranking o el valor de
PageRank de su sitio. En concreto, evite vínculos que enlazan con los creadores de sitios
fraudulentos o "vecindarios indeseables" de la web, ya que su propio ranking podría verse afectado
negativamente por ellos.
No utilice programas informáticos no autorizados para enviar páginas, comprobar rankings, etc., ya
que estos consumen recursos informáticos y vulneran nuestras Condiciones de servicio. Google no
recomienda el uso de productos como WebPosition Gold™ que envían consultas automáticas o de
programación a Google.
Directrices específicas de calidad
•
•
•
•
•
•
•
•
Evite utilizar texto o vínculos ocultos.
No recurra a técnicas de encubrimiento o a redireccionamientos elusivos.
No envíe consultas automatizadas a Google.
No suba páginas con palabras irrelevantes.
No cree varias páginas, subdominios o dominios que presenten básicamente contenido
duplicado. També vol dir que a una pàgina no s'hi accedeixi per 2 URLs diferents
No cree páginas que instalen virus, troyanos u otros tipos de software malicioso.
Evite páginas "puerta" creadas exclusivamente para motores de búsqueda u otros métodos
extendidos, como programas de afiliación con poco o nada de contenido original.
Tipus www.aparthotelbarcelona.com: Si su sitio participa en un programa de afiliados, asegúrese de
que aporta un valor añadido. Proporcione contenido único y relevante que suponga para los
usuarios una razón para visitar el sitio.
ROBOTS.TXT i similars
robots.txt
Los buscadores tipo google se sirven de robots, programas con algoritmos mas o menos complejos, que les
permiten leer una página web, recuperar y guardar su contenido -o partes relevantes del mismo- en una
base de datos y seguir los enlaces que tenga a otras páginas web
Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilisima, ya que
permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los
propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque
se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo
excesivo, al pedir demasiadas páginas muy seguidas.
O puede suceder lo contrario ... que deseemos asegurarnos que determinadas páginas son indexadas.
Con diversas limitaciones, podemos dar instrucciones a los robots. ¿Como? mediante el archivo robots.txt.
El archivo robots.txt
Cuando un robot visita una página, por ejemplo http://www.ignside.net/, lo primero que solicita al servidor es
el archivo http://www.ignside.net/robots.txt.
Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así,
analiza las directivas existentes respecto de la indexación del contenido del sitio web.
El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados
buscadores, o para excluir solo determinados directorios o páginas.
En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:
User-agent: *
Disallow: /
# aplicable a todos
# impide la indexacion de todas las paginas
En cuanto a la colocacion del archivo robots.txt, solo puede haber uno en cada sitio web, precisamente en el
directorio raiz
Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo alli.
Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas
El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro
de cada uno de estos grupos de directivas NO puede haber lineas en blanco.
Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a
que dichas directivas se refieren. Siempre tiene que existir este campo
A continuacion pondremos una o mas directivas Disallow: .
Aqui tienes algun ejemplo. Nota que el signo # señala que la linea que le sigue es un comentario, y no será
leida:
# Establecemos total libertad para webcrawler
# Ya que dejamos Disallow vacio
User-agent: webcrawler
Disallow:
# En cambio lycra y BadBot
# tiene prohibido integramente el acceso
User-agent: lycra
User-agent: BadBot
Disallow: /
# El resto de bots (señalado mediante *)
# tiene prohibido el acceso a los directorios
# /tmp y /log; libertad para el resto.
User-agent: *
Disallow: /tmp
Disallow: /logs
Puedes consultar una lista de los robots conocidos en robotstxt.org
Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no
tenga directivas específicas.
Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir.
Por ejemplo:
Disallow: /help # afecta a /help.html y a /help/index.html
Disallow: /help/ # afecta a /help/index.html pero no a /help.html.
Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene
restricción ninguna.
Ten en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente
sería /help).
Robots y etiquetas META
Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página,
podemos utilizar las etiquetas META:
<META name="ROBOTS" content="NOINDEX, NOFOLLOW">
Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links.
Las opciones a poner en content son ALL, INDEX, NOFOLLOW, NOINDEX
Visit-time
Se están intentando añadir nuevas directivas que permitan controlar el tiempo en el que los robots indexan
las páginas:
...
# Permitir trabajar a los botsde 2 am a 7:45 am
# Las horas son siempre Greenwitch
Visit-time: 0200-0745
# Un documento CADA
30 minutos
Request-rate: 1/30m
# Combinado: 1 doc cada 10 minutos
# y solo de una a 5 tarde
Request-rate: 1/10m 1300-1659
Més info:
http://www.w3.org/TR/html40/appendix/notes.html#h-B.4.1.1
http://www.robotstxt.org/wc/norobots.html
http://www.robotstxt.org/wc/robots.html
http://www.w3.org/Search/9605-Indexing-Workshop/ReportOutcomes/Spidering.txt
http://www.robotstxt.org/wc/faq.html
http://www.conman.org/people/spc/robots2.html#format.directives.visit-time
METAS
Meta elements are HTML or XHTML elements used to provide structured metadata about a web page. Such
elements must be placed as tags in the head section of an HTML or XHTML document. Meta elements can
be used to specify page description, keywords and any other metadata not provided through the other head
elements and attributes.
The meta element has four valid attributes: content, http-equiv, name and scheme. Of these, only content is
a required attribute.
An example of the use of the meta element
In one form, meta elements can specify HTTP headers which should be sent before the actual content when
the HTML page is served from web server to client. For example:
<meta http-equiv="Content-Type" content="text/html">
This specifies that the page should be served with an HTTP header called 'Content-Type' that has a value
'text/html'. This is a typical use of the meta element which is used to specify the document type so that a
client (browser or otherwise) knows what content type it is expected to render.
In the general form, a meta element specifies name and associated content attributes describing aspects of
the HTML page. For example
<meta name="keywords" content="wikipedia,encyclopedia">
In this example, the meta element identifies itself as containing the 'keywords' relevant to the document,
wikipedia and encyclopedia.
Meta element use in search engine optimization
Meta elements provide information about a given webpage, most often to help search engines categorize
them correctly. They are inserted into the HTML document, but are often not directly visible to a user visiting
the site.
They have been the focus of a field of marketing research known as search engine optimization (SEO),
where different methods are explored to provide a user's site with a higher ranking on search engines. In the
mid to late 1990s, search engines were reliant on meta data to correctly classify a web page and
webmasters quickly learned the commercial significance of having the right meta element, as it frequently led
to a high ranking in the search engines — and thus, high traffic to the web site.
As search engine traffic achieved greater significance in online marketing plans, consultants were brought in
who were well versed in how search engines perceive a web site. These consultants used a variety of
techniques (legitimate and otherwise) to improve ranking for their clients.
Meta elements have significantly less effect on search engine results pages today than they did in
the 1990s and their utility has decreased dramatically as search engine robots have become more
sophisticated. This is due in part to the nearly infinite re-occurrence (keyword stuffing) of meta elements
and/or to attempts by unscrupulous website placement consultants to manipulate (spamdexing) or otherwise
circumvent search engine ranking algorithms.
While search engine optimization can improve search engine ranking, consumers of such services should be
careful to employ only reputable providers. Given the extraordinary competition and technological
craftsmanship required for top search engine placement, the implication of the term "search engine
optimization" has deteriorated over the last decade. Where it once implied crafting a website into a state of
search engine perfection, for the average consumer it now implies something on the order of making a
website search engine tolerable.
Major search engine robots are more likely to quantify such extant factors as the volume of incoming links
from related websites, quantity and quality of content, technical precision of source code, spelling, functional
v. broken hyperlinks, volume and consistency of searches and/or viewer traffic, time within website, page
views, revisits, click-throughs, technical user-features, uniqueness, redundancy, relevance, advertising
revenue yield, freshness, geography, language and other intrinsic characteristics.
The keywords attribute
The keywords attribute was popularized by search engines such as Infoseek and AltaVista in 1995, and its
popularity quickly grew until it became one of the most commonly used meta elements[1]. By late 1997,
however, search engine providers realized that information stored in meta elements, especially the keyword
attribute, was often unreliable and misleading, and at worst, used to draw users into spam sites.
(Unscrupulous webmasters could easily place false keywords into their meta elements in order to draw
people to their site.)
Search engines began dropping support for metadata provided by the meta element in 1998, and by the
early 2000s, most search engines had veered completely away from reliance on meta elements. In July 2002
AltaVista, one of the last major search engines to still offer support, finally stopped considering them[2].
No consensus exist whether or not the keywords attribute has any impact on ranking at any of the
major search engine today. It is speculated that it does, if the keywords used in the meta can also be found
in the page copy itself. 37 leaders in search engine optimization concluded in April 2007 that the relevance of
having your keywords in the meta-attribute keywords is little to none[3].
The description attribute
Unlike the keyword attribute, the description attribute is supported by most major search engines, like Yahoo
and Live Search, while Google will fall back on this tag when information about the page itself is requested
(e.g. using the related: query). The description attribute provides a concise explanation of a web page's
content. This allows the webpage authors to give a more meaningful description for listings than might be
displayed if the search engine was unable to automatically create its own description based on the page
content. The description is often, but not always, displayed on search engine results pages, so it can impact
click-through rates. Industry commentators have suggested that major search engines also consider
keywords located in the description attribute when ranking pages.[4] W3C doesn't specify the size of this
description meta tag, but almost all search engines recommend it to be shorter than 200 characters of plain
text.
Additional attibutes for search engines
NOODP
The search engines Google, Yahoo! and MSN use in some cases the title and abstract of the Open Directory
Project (ODP) listing of a web site for the title and/or description (also called snippet or abstract) in the
search engine results pages (SERPS). To give webmasters the option to specify that the ODP content
should not be used for listings of their website, Microsoft introduced in May 2006 the new "NOODP" value for
the "robots" element of the meta tags [7]. Google followed in July 2006[8] and Yahoo! in October 2006[9].
The syntax is the same for all search engines who support the tag.
<META NAME="ROBOTS" CONTENT="NOODP">
Webmasters can decide if they want to disallow the use of their ODP listing on a per search engine basis
Google: <META NAME="GOOGLEBOT" CONTENT="NOODP">
Yahoo! <META NAME="Slurp" CONTENT="NOODP">
MSN and Live Search: <META NAME="msnbot" CONTENT="NOODP">
NOYDIR
Yahoo! also used next to the ODP listing the content from their own Yahoo! directory but introduced in
February 2007 a meta tag that provides webmasters with the option to opt-out of this[10].
Yahoo! Directory titles and abstracts will not be used in search results for their pages if the NOYDIR tag is
being added to a web page.
<META NAME="ROBOTS" CONTENT="NOYDIR">
<META NAME="Slurp" CONTENT="NOYDIR">
Robots-NoContent
Yahoo! also introduced in May 2007 the attribute value: class="robots-nocontent".[11] This is not a meta tag,
but an attribute and value, which can be used throughout web page tags where needed. Content of the page
where this attribute is being used will be ignored by the Yahoo! crawler and not included in the search
engine's index.
Examples for the use of the robots-nocontent tag:
<div class="robots-nocontent">excluded content</div>
<span class="robots-nocontent">excluded content</span>
<p class="robots-nocontent">excluded content</p>
Academic studies
Google does not use HTML keyword or metatag elements for indexing. The Director of Research at
Google, Monika Henziger, was quoted (in 2002) as saying, "Currently we don't trust metadata" [12]. Other
search engines developed techniques to penalize web sites considered to be "cheating the system". For
example, a web site repeating the same meta keyword several times may have its ranking decreased by a
search engine trying to eliminate this practice, though that is unlikely. It is more likely that a search engine
will ignore the meta keyword element completely, and most do regardless of how many words used in the
element.
Redirects
Meta refresh elements can be used to instruct a web browser to automatically refresh a web page after a
given time interval. It is also possible to specify an alternative URL and use this technique in order to redirect
the user to a different location. Using a meta refresh in this way and solely by itself rarely achieves the
desired result. For Internet Explorer's security settings, under the miscellaneous category, meta refresh can
be turned off by the user, thereby disabling its redirect ability entirely.
Many web design tutorials also point out that client side redirecting tends to interfere with the normal
functioning of a web browser's "back" button. After being redirected, clicking the back button will cause the
user to go back to the redirect page, which redirects them again. Some modern browsers seem to overcome
this problem however, including Safari, Mozilla Firefox and Opera.
It should be noted that auto-redirects via markup (versus server side redirects) are not in compliance with the
W3C's - Web Content Accessibility Guidelines (WCAG) 1.0 (guideline 7.5).[13]
HTTP message headers
Meta elements of the form <meta http-equiv="foo" content="bar"> can be used as alternatives to http
headers. For example, <meta http-equiv="expires" content="Wed, 21 Jun 2006 14:25:27 GMT"> would tell
the browser that the page "expires" on June 21 2006 21:05:27 GMT and that it may safely cache the page
until then.
References
1. ^ Statistic (June 4,1997), META attributes by count, Vancouver Webpages, retrieved June 3, 2007
2. ^ Danny Sullivan (October 1, 2002), Death Of A Meta Tag, SearchEngineWatch.com, retrieved June
03, 2007
3. ^ Rand Fishkin (April 2, 2007), Search Engine Ranking Factors V2, SEOmoz.org, retrieved June 3,
2007
4. ^ Danny Sullivan, How To Use HTML Meta Tags, Search Engine Watch, December 5, 2002
5. ^ Vanessa Fox, Using the robots meta tag, Official Google Webmaster Central Blog, 3/05/2007
6. ^ Danny Sullivan (March 5, 2007),Meta Robots Tag 101: Blocking Spiders, Cached Pages & More,
SearchEngineLand.com, retrieved June 3, 2007
7. ^ Betsy Aoki (May 22, 2006), Opting Out of Open Directory Listings for Webmasters, Live Search
Blog, retrieved June 3, 2007
8. ^ Vanessa Fox (July 13, 2006), More control over page snippets, Inside Google Sitemaps, retrieved
June 3, 2007
9. ^ Yahoo! Search (October 24, 2006), Yahoo! Search Weather Update and Support for 'NOODP',
Yahoo! Search Blog, retrieved June 3, 2007
10.^ Yahoo! Search (February 28, 2007), Yahoo! Search Support for 'NOYDIR' Meta Tags and Weather
Update, Yahoo! Search Blog, retrieved June 3, 2007
11.^ Yahoo! Search (May 02, 2007), Introducing Robots-Nocontent for Page Sections, Yahoo! Search
Blog, retrieved June 3, 2007
12.^ Journal of Internet Cataloging, Volume 5(1), 2002
13.^ W3C Recommendation (May 5, 1999), Web Content Accessibility Guidelines 1.0 - Guideline 7.
W3.org, retrieved September 28, 2007
Descargar