18 января 2011 г.

Yahoo! Pipes

В очередной раз наткнулся на баян по имени Yahoo! Pipes. Только в этот раз он попал на благодатную почву и мне стало действительно интересно, поэтому я ради такого дела даже зарегистрировался на Yahoo! и пощупал эту штуковину.

Что можно сказать, идея действительно очень Занятная. Заключается она в том, что из некоторых элементарных блоков-операций можно построить довольно сложные преобразования RSS-потоков и не только RSS, и не только потоков. В общем, как pipes в *nix, откуда и название. Меня лично интересует преобразование именно RSS и Atom. В качестве пробы пера я сделал парочку простеньких фидов (потоков) из потока Компьюленты. Во-первых, Компьюлента отдает все свои новости и статьи одним потоком, но размечает тегами <category>, а Google Reader не умеет работать с тегами (категориями). Во-вторых, Компьюлента вставляет в записи какой-то лишний хлам, вроде различных «в закладки», рекламный баннер и пр. В-третьих, поток содержит лишь первые несколько строк, а на статью можно попасть только через промежуточную страницу с рекламой. В общем, сделано всё, чтобы читать RSS было как можно более неудобно. Вот эту штуку я и решил трансформировать во что-то удобное для чтения. В результате, я получил целых два потока, оба содержащих только записи в категории «наука и техника»: один — исходный поток с вырезанным мусором, второй — с полным текстом статьи и даже, так получилось, с иллюстрациями. Описывать подробно процесс не буду, он не сложный, да и самостоятельно можете посмотреть, что там к чему, по ссылкам в конце, благо «исходники» на Yahoo! Pipes открытые. Перейду сразу к хвальбе и критике.

Как я уже говорил, сервис очень интересный и лично мной востребованный. Однако, на этом практически все прелести заканчиваются. Кажется, что сервис ориентирован на простого пользователя™: программа строится в виде графической схемы, в которой входы и выходы блоков-операций соединяются между собой. Но не тут-то было. Чтобы сделать что-то мало-мальски интересное приходится использовать регулярные выражения, с которыми дружат не все те, кто считает себя программистами, что уж говорить о простых пользователях™. Ну, а для программистов, все эти графические финтифлюшки — му́ка смертная. Второй момент, который мне не понравился — это возможность обработки содержимого исключительно регулярными выражениями (ну и некоторыми простейшими строковыми операциями). При том, что большинство RSS-потоков содержат [X]HTML и регулярные выражения тут подходят не всегда хорошо, а XPath бы смотрелся просто замечательно местами. Ну, и напоследок — нет поддержки PubSubHubbub, а значит, обработка становится сильно не в реальном времени, а меня сейчас именно это больше всего интересует.

P.S. В нем еще что-то и отвалилось. Редактировать схемы невозможно — нет ни одного доступного блока для схемы. Эх… Как всегда, хоть сам бери и делай.

Комментариев нет:

Отправить комментарий