| glebka |
Дата: Суббота, 23.07.2011, 17:06 | Сообщение № 1 |
| Новичок
Group: Пользователи
Posts: 1
Reputation: 0
Status: нет меня |
Здравствуйте, товарищи программисты!
Столкнулся с проблемой парсинга html - документа. Сами мы биологи и в web-технологиях не силён. ссылочка http://www.ncbi.nlm.nih.gov/nuccore/58585079
Теперь глядим html - код и находим в теге pre большую последовательность из букв "atgc". Проблема в том, что в теге pre ещё куча всего ненужного. Короче, пахнет регулярками. просто domом не выйдет.
Надо скрипт, который по числу ( id - шнику ) со страницы http://www.ncbi.nlm.nih.gov/nuccore/58585079 вырежет мне эту последовательность.
id-шников там чё-то типа 100500, а потому руками никак.
Прошу вас набросать скрипт, а то сам как-то... вообще ни о чём
Языки, которые я могу воспринимать: php, C#. Но, можно ещё на питоне, но тогда с комментами, а то не разберусь. Еще буду рад коду на плюсах, но, наверно - это сложно.
Спасибо. |
| |
| |