[Ror-es] WWW::Mechanize devuelve carácteres "extraños".
Dani Sevilla
ruby-forum-incoming at andreas-s.net
Thu Mar 6 17:19:06 GMT 2008
Xavier Noria wrote:
> On Feb 22, 2008, at 10:41 , Xavier Noria wrote:
>
>> * FireWatir se comunica con Firefox por JavaScript, por ejemplo
>> veras que en general el body de una pagina no coincide con el codigo
>> fuente necesariamente, veras atributos reordenados etc. Podria pasar
>> que JavaScript si que haga una normalizacion en sus cadenas y sea
>> esto lo que se ve en Ruby.
>
> Nope, he estado haciendo screen-scrapping de paginas con distintos
> charsets y he tenido que normalizar a mano con iconv.
>
> Dani, avanzaste en esto por cierto?
>
> -- fxn
Xavier,
La verdad es que no. Me he liado más todavía y estoy un poco a medias
con todo. Te cuento:
- A parte del problema de los carácteres extraños, tenía un problema de
normalización del html ya que la página a la que accedía tenía html mal
formado que no se solucionaba ni con RubySoup ni otros parsers que
probé.
- Anteriormente ya había probado Firewatir y me había ido muy bien. Así
que al juntar los dos problemas, carácteres extraños y html mal formado
(pero que firefox sí que entendía) decidí cambiar a Firewatir.
- El problema del html mal formado, se solucionó por lo que tu
explicaste en tu post de como trabaja firewatir. Mi sorpresa llegó en
que Firewatir también me devuelvía carácteres extraños para esta página.
- Así que la conclusión es que realmente tengo un problema con el
charset de esta página y su response y no con la herramienta de
scrapping.
Desgraciadamente, llevaba tantos días atascado con el tema y no avanzaba
que lo aparqué de momento para volver a él cuando tuviera más fuerzas.
Así que en breve, seguro que pongo alguna preguntita de Iconv. Espero
que me ayudes ;-)
Saludos
--
Posted via http://www.ruby-forum.com/.
More information about the Ror-es
mailing list