Beneficiarse del robo de contenido
En la entrada anterior («Generar tráfico a través de los feeds de un blog») pasé por alto conscientemente el tema del robo de contenido porque pensaba dedicarle una entrada completa a este tema. Algunos bloggers deciden incluir en sus feeds extractos en vez de entradas completas para protegerse de los spam blogs o splogs, que se dedican a duplicar el contenido de los sitios web para rentabilizarlo mediante publicidad. A este proceso se lo conoce como scraping, y al software y a los responsables de estos sitios se les suele adjudicar el sobrenombre de scrapers.
Por supuesto hay formas de duplicar el contenido de un blog o de cualquier sitio web sin necesidad de los feeds, pero es cierto que la inmensa mayoría de scrapers se sirven de ellos para llevar a cabo esta práctica, simplemente por comodidad. Sin embargo un blogger debe estar cometiendo algún error grave para llegar a ser afectado por los spamblogs. Si uno de estos sitios es capaz de robarte visitas con tu propio contenido, lo más probable es que tengas un problema que va más allá del robo de contenido. Este problema puede estar conformado por factores como una mala optimización para buscadores, una mala estructura de enlaces internos, falta de popularidad (enlaces recibidos de otros sitios) o incluso un problema de indexación (los buscadores no rastrean o tardan mucho en rastrear las páginas de tu web). Sea como fuere, si este es tu caso necesitas hacer un análisis profundo para encontrar la causa de esta situación.
Modificar el contenido de los feeds
En todo caso el robo de contenido no justifica la (pésima) decisión de publicar extractos en las opciones de sindicación, ya que con ello perderás la oportunidad de generar tráfico y popularidad para tu web como ya comenté en la mencionada entrada. De hecho hasta puedes beneficiarte de los scrapers, y en el proceso mejorar el rendimiento de tus feeds, modificando el contenido devuelto por éstos.
Hace un tiempo John Chow escribió un artículo al respecto. Su solución no podía ser más nefasta; pretendía combatir el scraping incluyendo el siguiente texto al final de las entradas en sus feeds (no públicamente en el blog):
Attention: Unless you are reading this from a RSS reader, you are reading a scraped feed. This site has violated copyright laws by stealing the content of John Chow dot Com. Please let us know where you read this so we can take legal action against the scraper. (Atención: A menos que estés leyendo esto a través de un lector RSS, estás leyendo un feed robado. Este sitio ha violado las leyes de copyright al robar contenido de John Chow punto Com. Por favor, haznos saber dónde leiste esto para que podamos tomar acciones legales contra el scraper.)
Un texto de este estilo tiene el mismo efecto que un anuncio anti-pirateria que se proyecta en el cine antes de una película: resulta tremendamente molesto y estúpido para los usuarios corrientes y por supuesto no tiene el más mínimo efecto sobre los que tienen la intención de delinquir. De hecho, tras un periodo de pruebas inicial, John Chow dejó de mostrar esas líneas a través de los feeds, seguramente por las quejas de los lectores. La solución no se encuentra por ahí y Mariano de ProWeblogs apuntó hacia el buen camino en su blog.
Elementos a incluir en las entradas de los feeds
Sin embargo podemos dar un paso más en esa dirección y beneficiarnos del contenido de los feeds más allá de los anuncios, atribuciones y mensajes de copyright propuestos en ProWeblogs, incluyendo en el RSS (o RDF, o Atom...) de tu blog todos o algunos de los siguientes elementos al final de cada entrada:
1. Enlace a la entrada original
Preferiblemente con el título de la entrada como texto del enlace. Este es un elemento básico para evitar que los scrapers además de robarte el contenido consigan robarte visitas a través de los buscadores. Si tus entradas no son lo suficientemente populares (si no reciben los suficientes enlaces), un spamblog puede llegar a posicionarse con simples duplicados mejor que tu propio sitio web para determinadas expresiones de búsqueda. A diferencia de los agregadores de feeds, los scrapers no enlazan a la url de la entrada (evidentemente no les conviene), pero incluyendo ese enlace en el propio contenido prácticamente te asegurarás que los buscadores consideren tus entradas como las originales, posicionándolas mejor que cualquier copia que de ellas se pueda realizar.
Como valor añadido, el hacer disponible la url de una entrada al final de ésta facilitará la tarea de copiarla para aquellos lectores que decidan enviarla a algún marcador social, agregador de noticias, etc. o que deseen enlazarte desde su propio blog.
2. Enlace a tu blog
Preferiblemente con el título de tu blog como texto del enlace. Este elemento sirve a modo de atribución, para que el lector sepa de donde proviene la entrada independientemente de la web o aplicación a través de la cual la esté leyendo. Esto es útil incluso para los medios que reproducen tus textos legítimamente, ya que en ocasiones los lectores que están suscritos a multitud de feeds acceden al contenido de tal forma que no reparan en los autores de los distintas entradas (a mí por ejemplo me sucede esto con frecuencia en el Google Reader).
Además, incluyendo este enlace, los scrapers que roben tu contenido no estarán haciendo otra cosa más que incrementar la popularidad de tu sitio web.
3. Enlace a los comentarios
O al formulario para enviar un comentario, si es que la url es diferente. En muchas ocasiones los lectores muestrán interés por una entrada en particular, y desearían expresar su agradecimiento, su opinión o incluso su crítica, pero simplemente no están acostumbrados a comentar en los blogs. Esto es algo muy común en aquellos que están suscritos a una gran cantidad de feeds. Incluir un enlace a los comentarios de cada entrada es una buena forma de recordarles esta opción y de inducirles por tanto a participar en tu web.
4. Enlaces a marcadores sociales
Si bien muchos blogs incluyen enlaces para agregar las entradas a este tipo de servicios (Del.icio.us, Menéame, etc.), teniendo en cuenta que la mayor parte de los usuarios de los marcadores sociales y agregadores de noticias leen blogs a través de los feeds, es una buena idea incluir este tipo de enlaces también en el contenido de éstos. De esta forma facilitarás su labor, ya que las barras de navegador, bookmarklets, etc. que suelen usar para este propósito no funcionan en lectores de feeds como Bloglines o Google Reader.
5. Enlaces a entradas relacionadas
Si un lector está interesado en una entrada de tu blog es probable que también lo esté en otras similares. Incluir enlaces a entradas relacionadas es una buena forma de inducir a los usuarios a visitar más contenido de tu sitio web. Además, cualquier copia directa que se realice del contenido del feed contribuirá al posicionamiento de esas entradas.
6. Enlaces a categorías y etiquetas
Siguiendo con el punto anterior, las categorías y etiquetas también sirven para ofrecer a los lectores más posibilidades de acceder a otras páginas de tu sitio web (y fortalecerlas de paso por medio de los enlaces).
Modificar las entradas en los feeds de WordPress
Por supuesto toda esta idea gira alrededor de modificar el contenido de las entradas cuando son mostradas a través de los feeds, no directamente en el blog. Esto no puede hacerse directamente en ninguna de las plataformas de blogs más usadas, pero si tu sitio web funciona sobre WordPress puedes conseguir este resultado añadiendo algo de código al script. Por ejemplo:
- <?php
- function my_content_rss( $text ){
- IF ( is_feed() & !is_404() ){
- global $post;
- $text .= "<p><strong>Enlace permanente</strong>: <a href=\"" . get_permalink() . "\">" . wp_specialchars($post->post_title,true) . "</a>";
- IF ( $post->comment_status == "open" ) $text .= " (<a href=\"" . get_permalink() . "#comments\"><strong>Escribir un comentario</strong></a>)";
- $text .= ".<br />\n";
- $text .= "<strong>Leer más</strong>: <a href=\"" . get_bloginfo("home") . "/\">" . get_bloginfo("name") . "</a>.</p>\n";
- };
- RETURN $text;
- };
- add_filter( "the_content", "my_content_rss" );
- add_filter( "the_content_rss", "my_content_rss" );
- ?>
Estas líneas añaden al contenido de tus feeds un enlace a la página de cada entrada, otro a la página de inicio del blog y otro a los comentarios, si están habilitados. Debes añadir ste código al archivo functions.php del tema que estés usando (crea dicho archivo si no existe) o, si lo prefieres, guardarlo como plugin e instalarlo desde el panel de WordPress. Ten en cuenta que puedes usar cualquier función de WordPress en és, por lo que añadir cualquier texto es básicamente como incluirlo directamente en el tema, tan sólo hay que tener cuidado de no escribir el contenido (echo) sino de añadirlo a la variable que se devuelve ($text .= ...).
En el tema 1 Blog Theme se pueden incluir todos los elementos que hemos visto directamente desde el panel de control, eligiendo simplemente los bloques a mostrar, así que no es necesario realizar ninguna modificación.
Y si no quieres escribir el código por ti mismo ni usar este tema siempre puedes instalar uno de los plugins que se han desarrollado para ampliar el contenido de los feeds. Feed Footer WordPress Plugin es del que originalmente hablaba John Chow en su artículo, pero hay otros como el tremendamente simple RSS Signature. De cualquier forma esta opción es bastante limitada y sólo podrás añadir código estático (o como mucho algunas pocas variables dinámicas) al final de las entradas.
12 comentarios
hace 1 año y 1 mes
Aún tomando medidas hay miles de técnicas de spam, hasta los hay que envían decenas de trackbacks para conseguir enlaces, menos más que los antispam (uso spamkarma2) funcionan de lujo y lo detectan.
hace 1 año y 1 mes
Si claro, pero me refería al robo de contenido, no al spam en general. Yo tal como tengo los feeds estoy deseando que lleguen los scrapers y me quiten el contenido
hace 1 año y 1 mes
Como tienes el contenido para Scrapers, y como lo controlas, no usas feedburner.
hace 1 año y 1 mes
Uso feedburner para el feed principal, en el resto no merece la pena, aunque es lo de menos porque feedburner simplemente duplica el feed. Y el contenido se modifica como escribo en la entrada, añadiendo código al feed mediante los filtros. Sólo que el código ya está añadido por defecto al tema. De los elementos que comento añado los enlaces de atribución (entrada, blog, comentarios), los marcadores sociales y las entradas relacionadas.
No sé si era eso lo que preguntabas...
hace 1 año
La técnica está muy bien, pero he visto scrapers que sólo publican el texto plano, dejando fuera todos los enlaces.
¿Qué hacemos contra eso?
hace 1 año
Hola Jon,
Yo también creía que quitar los enlaces sería la práctica habitual (desde el punto de vista del scraper no conviene), pero estuve mirando el scraping hacia algunos sitios muy conocidos (que son los más susceptibles de sufrir el robo de contenido), y para mi sorpresa vi que la inmensa mayoría dejan el texto tal cual.
Por supuesto habrá alguno que quite los enlaces, y entonces con la modificación del contenido del feed no hay mucho que hacer directamente. Lo que se puede hacer es incluir en el feed un comentario en el que se refleje la IP desde la que se ha hecho la petición, y si encontramos un scraper de este estilo, mirar el código de la entrada para banear esa IP.
hace 1 año
Sólo se ven 4 comentarios en la entrada del blog, y parece, según el enlace, que hay hasta 15...
hace 1 año
Hola de nuevo,
Lo siento, no sé a qué te refieres con esto último.
hace 1 año
Hola,
una duda, se puede considerar scraping o robo de contenido enlazar a la fuente original con nofollow?
Tengo varios tablones de anuncios con RSS y el robo es una constante.
Curiosamente en los principales clasificados han quitado el RSS, mundoanuncio, loquo, campusanuncios, habitamos...
Tal vez deba seguir el ejemplo.
hace 1 año
Hola Julio,
Pues puede que no sea del todo ético, pero no creo que pueda catalogarse como robo de contenido, ya que se está reconociendo la fuente. Pero si el nofollow sólo lo añaden a la url original y no a los enlaces del contenido del feed, todavía puedes beneficiarte de los consejos de esta entrada.
hace 6 meses y 23 días
vaya suena sesato estar prevenido porque como dices si tengo poco trafico o posicionamiento el puede qedar mejor colocado en buscadores
hace 17 días
Ya me he topado mil veces con este fenomeno blog, la verdad es que no aportan nada nuevo pero... como se puede evitar este movimiento?
Escribir un comentario
Si quieres añadir tu comentario a esta entrada, simplemente rellena el siguiente formulario:
* Campos requeridos
Puedes usar estas etiquetas XHTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <code> <em> <i> <strike> <strong>.
3 trackbacks
Para notificar de una mención en tu blog a esta entrada, habilita la notificación automática (Opciones > Discusión en WordPress) o especifica esta url de trackback: http://1blogdeblogs.com/2007/09/beneficiarse-del-robo-de-contenido.html/trackback