19/03/2013

SINDICACIÓN DE CONTENIDOS (RSS Y ATOM)

Trabajo de investigación para la asignatura de Lenguaje de Marcas y Sistemas de Gestión de Información del ciclo de Diseño de Aplicaciones Web cursado en el IES Camp de Morvedre (Sagunto)


PANORÁMICA DE LAS TECNOLOGÍAS DE SINDICACIÓN DE CONTENIDOS

1.- INTRODUCCIÓN: ¿Qué es RSS? Motivos de su aparición y Ámbitos de aplicación.

2. EVOLUCIÓN DE LA SINDICACIÓN DE CONTENIDOS 

3. ATOM FRENTE A RSS 

7. REFERENCIAS 


1.- INTRODUCCIÓN: ¿Qué es RSS? Motivos de su aparición y Ámbitos de aplicación


Ante la creciente proliferación de información y contenidos en Internet en ocasiones los usuarios pueden encontrarse con el problema de la considerable cantidad de tiempo que deben invertir para mantenerse al corriente de todas las novedades o actualizaciones de los sitios web que consideran de interés. A través de un navegador debemos conectarnos a cada una de las webs en busca de nuevos contenidos, con el añadido además de que éstos no existan y hayamos realizado la visita sin resultado. Como respuesta o solución a todo ello apareció la sindicación de contenidos a través del RSS (Rich Site Summary ó Really Simple Sindication) que es un formato de texto basado en XML que permite distribuir contenidos a través de internet de forma automatizada y mediante una suscripción que el usuario realiza a cada uno de los canales que generan información con este formato y que le son de interés. De esta manera, y prescindiendo del navegador, ya no es el usuario el que recorre las webs en busca de nuevos contenidos sino que es el propio sitio web el que distribuye esos contenidos en formato digital a sus suscriptores. En lugar del navegador lo que el usuario ahora utilizará será un Agregador de Feeds o Lector de RSS que se encargará de recorrer automáticamente las webs a las que el usuario se ha suscrito para recopilar y mostrarle todos los nuevos RSS que haya ido encontrando. Ésta presentación de información se realiza en forma de índice o lista de enlaces con un titular y una breve introducción al contenido, el usuario puede consultar el contenido completo que le resulte de interés mediante el enlace directo incluido en el titular. El proceso de sindicación de contenido suele asociarse a blogs o bitácoras pero son cada vez más los servicios de noticias en general los que ofertan contenidos siguiendo este formato, toda información susceptible de ser troceada en “ítems” puede distribuirse por RSS.

En realidad RSS es simplemente un estándar para compartir información, estructurado en formato XML alrededor de un conjunto de etiquetas para indicar titulares y descripción de noticias y que no está pensado para su visualización como el HTML, sino para la interacción entre terminales emisor y receptor. Para que el proceso resulte posible cada sitio web en cuestión debe generar un feed o canal (el archivo RSS) que permanecerá alojado en el servidor como un archivo más de los que conforman el portal y que, una vez esté disponible, otros sistemas (el lector de RSS del receptor) podrán tener acceso a él y así recopilar los nuevos contenidos que éste ofrece. Hoy en día los sitios de creación y mantenimiento de blogs (Blogger, WordPress, etc.) han automatizado la generación de feeds por lo que los usuarios de estos servicios no deben preocuparse de crear éstos archivos ni de alojarlos en servidor alguno ya que son tareas que la propia aplicación web realiza de manera automática generando así la sindicación del contenido.
En definitiva sindicar el contenido de un sitio web, aunque en principio pueda parecer que actúa en contra de la “visibilidad” del sitio en sí, en realidad es una estrategia que ayuda a incrementar y fidelizar clientes, los cuales ya en primera instancia, agradecerán poder tener acceso al contenido de un sitio sin la necesidad de visitarlo.

2. EVOLUCIÓN DE LA SINDICACIÓN DE CONTENIDOS

Como ya se mencionaba en el apartado anterior el RSS es una variedad del formato XML en la que se han definido un conjunto de etiquetas que se utilizan para indicar los titulares y la descripción del contenido al que va asociado dicho titular. Este formato RSS ha sido a lo largo del tiempo objeto de interpretación y definición por distintas organizaciones, lo que ha dado lugar a que se hayan generado distintas versiones del mismo que conviven hoy en día.
La primera versión de RSS fue la RDF Site Summary, creada por Dan Libby y Ramanathan V. Guha cuando trabajaban para la empresa Netscape. Fue publicada en Marzo de 1999 para su uso en el portal “my.netscape.com” y se dio a conocer como RSS 0.9, su nombre definitivo. Tanto la finalidad de esta primera versión (que el portal web se nutriese de titulares obtenidos de webs de terceros) como su formato no eran nada simples por lo que más adelante, en Julio de ese año, Dan Libby produjo una nueva versión, conocida como RSS 0.91, en la que se habían eliminado los elementos RDF de la original e incorporado características del formato de sindicación scriptingNews de Dave Winer. A pesar de ello el proyecto no tuvo el éxito esperado y en Abril de 2001 la empresa abandonó el desarrollo.
En ese momento aparecieron dos entidades dispuestas a retomar el proyecto, el RSS-DEV Working Group, que contaba entre sus miembros con Ramanathan V. Guha, y UserLand Software, fundada por el propio Dave Winer, y que había publicado algunas de las primeras herramientas externas a Netscape y que podían leer y escribir RSS. En Diciembre de 2000 el RSS-DEV Working Group produjo una nueva versión del formato denominada RSS 1.0, un formato más estable y mejor diseñado y que reintrodujo el soporte de elementos RDF y añadió soporte a los XML namespaces (que se encargaban de proveer de unicidad a los nombres de los elementos y atributos en un documento XML). Por su parte, también en Diciembre de 2000, Winer publicaba RSS 0.92, una relectura del anterior RSS 0.91 en el que se añadían pequeñas variaciones y cambios menores a parte de la inclusión de elementos encapsulados que permitían añadir a los feeds RSS archivos de audio, lo que supuso un gran espaldarazo para la expansión de posteriores fenómenos como el podcasting. Winer además fue publicando las subsiguientes versiones 0.93 y 0.94, que junto con la 0.92 presentaban una sintaxis incompleta, no permitían introducir ciertas informaciones de copyright y se saltaban algunas normas del propio XML. Por ello, en Septiembre de 2002, Winer publicó RS 2.0 (Really Simple Syndication), una nueva versión del formato que trataba de corregir las carencias de las versiones anteriores (eliminando el atributo type añadido en la RSS 0.94 o añadiendo soporte a los namespaces entre otros cambios) para llegar de esta forma a ponerse a la altura de la versión RSS 1.0 del RSS-DEV Working Group.
Así pues en el transcurso de apenas 4 años se habían presentado hasta siete versiones distintas para el formato RSS lo cual motivó un creciente deseo de redefinirlo partiendo de cero y ello dio como resultado la aparición, en Junio de 2003, de un nuevo formato de sindicación alternativo denominado Atom. Pero lo cierto es que, más que ayudar a clarificar la situación de confusión existente con las múltiples versiones de RSS, Atom se convirtió en un formato nuevo que con el paso del tiempo se ha visto abocado a tener que convivir con el resto de formatos ya existentes y a los cuales, en un principio, pretendía sustituir. Atom presenta como característica principal la flexibilidad, es capaz de transportar información más compleja permitiendo artículos que incluyan el texto completo otorgando de esta manera un control adicional sobre la cantidad de información a representar en los agregadores. Atom además ofrece la posibilidad de exportar un blog entero, o partes de él, para realizar copias de seguridad o para migración de unos servicios de blog a otros.
Paralelamente a la aparición de Atom el resto de formatos RSS continuaron su evolución, así cabe señalar que en Julio de 2003 Winer y UserLand Software asignaron el copyright del formato RSS 2.0 a uno de los centros de investigación de Harvard. Al mismo tiempo Winer, en colaboración con Brent Simmons y Jon Udell, lanzaron el RSS Advisory Board, un grupo cuya propuesta era mantener y publicar las especificaciones y aclaraciones sobre el formato RSS 2.0. En Diciembre de 2005 los equipos de Microsoft Internet Explorer y Microsoft Outlook anunciaron la adopción del icono que ya usaba el navegador Mozilla Firefox como icono para referirse a los feeds, ejemplo que siguió Opera Software en Febrero de 2006 y que en buena medida propició que dicho icono, un cuadrado naranja con ondas de radio blancas (tal como muestra la imagen) se convirtiera en estándar tanto para los feeds RSS como para los Atom, remplazando así a una gran variedad de iconos y textos que habían sido usados previamente para representar la sindicación de contenidos. En Enero de 2006 Rogers Cadenhead relanzó el RSS Advisory Board sin la participación ya de Dave Winer y con el fin de continuar el desarrollo del formato y resolver ambigüedades.
Por tanto podemos comprobar cómo el formato RSS, en sus distintas versiones, continúa su evolución aunque parece que las que definitivamente presentan más actividad en términos de implementación de mejoras o adopción son RSS 2.0 y Atom, quedando el RSS 1.0 aparentemente algo por detrás.

3. ATOM FRENTE A RSS

Como se ha mencionado ya en el apartado anterior Atom surge como una alternativa a RSS que buscaba un nuevo formato que aclarara las ambigüedades de RSS, que consolidara sus múltiples versiones, que aumentara sus capacidades y que estuviera además auspiciado por una organización de estándares. Como diferencias más notables frente a RSS Atom presenta el uso de campos distintos para el resumen y el contenido, una mejor integración con el estándar XML (incluyendo un esquema, un namespace y siendo más estricto con la normalización) y el ser un

estándar abierto y en evolución (la especificación RSS 2.0, cuyo copyright pertenece a la Universidad de Harvard, tiene su desarrollo parado, no pudiéndose realizar cambios significativos). Puede decirse que Atom es una alternativa más sólida en cuanto a cumplimiento de estándar se refiere pero con un menor nivel de adopción o popularidad.
En cuanto al modelo de contenido RSS 2.0 puede albergar tanto texto plano como HTML, siendo éste un formato poco atractivo visualmente y que ha sido una fuente de problemas para los implementadores, sin modo de indicar cuál de los dos se está suministrando. Además RSS 2.0 no permite el actual XML bien formado lo cual reduce la reutilización del contenido. Atom por su parte sí que posee un mecanismo para indicar explícitamente y sin lugar a dudas el tipo de contenido que se está aportando en la entrada y da soporte a una gran variedad de tipos incluyendo el texto plano, HTML, XHTML (bien formado), XML o Base64 y hace referencias a contenido externo como pueden ser documentos, video, streamings de audio y otros. En términos de contenido parcial RSS 2.0 presenta un elemento “<description>” que es usado comúnmente para contener tanto el texto completo de una entrada como solo la sinopsis y que no existe manera de señalar cuál de los dos contenidos está completo. Atom separa en “<summary>” y “<content>” dichos elementos.
Si hablamos de extracción y agregación la única forma reconocida para RSS 2.0 es como un documento “<rss>” mientras que Atom permite documentos “standalone” que pueden ser transferidos usando cualquier protocolo de red. Atom además tiene soporte para feeds agregados, es decir, permite añadir a las entradas un punto de retorno al feed del que provienen cuando éstas están incluidas dentro de otros feeds.
En el plano de la extensibilidad RSS 2.0 no es un espacio de nombres (namespace) XML pero puede contener elementos de otros espacios de nombres XML. Atom por su lado es un espacio de nombres XML y puede contener elementos o atributos de otros espacios de nombres XML. Existen guías específicas sobre cómo interpretar la extensión de los elementos.
En términos de librerías de software tanto los feeds RSS 2.0 como los Atom son accesibles a través de las librerías de los clientes del estándar HTTP.

Librerías para procesar RSS 2.0:
- FeedParser
- Rome
Librerías para procesar Atom:
- XML::Atom
- XML::Atom::Syndication
- FeedParser
- Rome
- Apache Abdera
Como podemos apreciar Atom soporta las librerías de RSS 2.0 pero no ocurre lo mismo al contrario.
Para la atribución de autores RSS 2.0 ofrece la posibilidad de especificar la dirección de email para un feed mediante las etiquetas “<managingEditor>” y “<webMaster>” y la etiqueta “<author>” para los ítems. Atom posee los elementos “<author>” y “<contributor>” ambos a nivel de feed y entrada, deben contener un nombre y presentan subelementos opcionales para email y URI.
Por otra parte RSS 2.0 se apoya para la gestión de fechas en el uso de la especificación RFC 822 para comunicar información de cuándo los ítems fueron creados y de las últimas actualizaciones y para Atom el grupo responsable del desarrollo optó por las normas de la especificación RFC 3339, un subapartado de la ISO 8601.
Aunque el vocabulario RSS tiene un mecanismo para indicar un lenguaje humano para el feed no existe la forma de especificar un lenguaje para ítems individuales o elementos de texto. Para la identificación del lenguaje usado en los feeds RSS 2.0 tiene su propio elemento “<language>” mientras que Atom por su parte usa el atributo estándar xml:lan. Atom además difiere de RSS en que soporta el uso de los Identificadores de recursos internacionalizados (Internationalized Resource Identifiers) que permiten enlazar a recursos e identificadores únicos a contener caracteres externos a la colección ASCII.

En cuanto a modularidad, como ya veíamos en las librerías de procesado, los elementos del vocabulario RSS no son generalmente reutilizables en otros vocabularios XML mientras que la sintaxis de Atom fue específicamente diseñada para permitir a dichos elementos volver a ser utilizados fuera del contexto de un feed Atom. Es decir, podemos encontrar elementos de Atom siendo usados en feeds RSS 2.0, mientras que al revés no es posible.

Como se ha ido exponiendo Atom parece ser un formato más completo y con unas posibilidades más amplias que RSS pero sin embargo, a pesar de haber sido propuesto como estándar, aprobado por varios organismos como la comunidad IETF y haber sido adoptado por compañías de gran peso como Google, el uso del antiguo y tal vez más familiar RSS ha continuado debido a motivos seguramente relacionados con que su aparición es anterior y que la llegada de Atom se produjo con RSS 2.0 ya muy asentado:
- RSS 2.0 se beneficia de que, ya desde su versión 0.91, lideró el desarrollo de elementos que daban soporte a actividades hoy muy extendidas como el podcasting, habiendo sido adoptado por la comunidad y siendo así el formato preferido para estas prácticas a pesar de que aplicaciones tan populares en ese campo como lo es iTunes dan soporte también a los feeds en Atom 1.0.
- Muchos de los principales sitios de noticias (CNN, New York Times, etc.) publican sus feeds en un único formato, que no es otro que el RSS 2.0, con lo cual no contribuyen a la popularización de Atom.
- “RSS” además se ha ido convirtiendo en el término con el que se denomina genéricamente la sindicación de contenido en cualquiera de sus variantes, ya sea RSS 1.0, RSS 2.0, o Atom, dificultando igualmente el dar a conocer estos otros formatos.
Por tanto como hemos podido comprobar el formato Atom, al ser posterior al RSS y nacer con el objetivo de suplir las carencias de éste, es sin duda un formato más completo, sólido y actual pero que se ha encontrado con que la adopción del RSS 2.0, lo extendido que estaba ya su uso, es un condicionante de más peso a la hora de que los usuarios den prioridad a uno u otro. Así pues Atom es un lenguaje más completo y depurado pero menos extendido y RSS es más incompleto y presenta ambigüedades y limitaciones pero por el contra es más popular y cuenta con una adopción mayor entre la comunidad de usuarios.

4. REFERENCIAS

[1] “Sindicación de contenidos”, Web Universidad de Murcia. (http://www.um.es/actualidad/rss/tut_sindicacion/index.php).
[2] “Bitácoras y sindicación de contenidos: dos herramientas para difundir información”, Jorge Franganillo y Marcos Antonio Catalán.
[3] “¿Qué es RSS, los feeds y la sidicación de contenidos?”, entrada web Cristlab.com (http://www.cristalab.com/blog/que-es-rss-los-feeds-y-la-sindicacion-de-contenidos-c30816l/).
[4] “RSS” artículo Wikipedia (http://en.wikipedia.org/wiki/RSS).
[5] “Atom (standard)” artículo Wikipedia (http://en.wikipedia.org/wiki/Atom_(standard)).
[6] “Herramientas de la web 2.0 para bibliotecarios: Sindicación de contenidos”, Sonia Jiménez Hidalgo; CSIC.
[7] “RSS 2.0 and Atom 1.0 Compared”, Sam Ruby (http://www.intertwingly.net/wiki/pie/Rss20AndAtom10Compared).

No hay comentarios:

Publicar un comentario