[Ror-es] WWW::Mechanize devuelve carácteres "extraños".

Dani Sevilla ruby-forum-incoming at andreas-s.net
Thu Mar 6 17:19:06 GMT 2008


Xavier Noria wrote:
> On Feb 22, 2008, at 10:41 , Xavier Noria wrote:
> 
>> * FireWatir se comunica con Firefox por JavaScript, por ejemplo  
>> veras que en general el body de una pagina no coincide con el codigo  
>> fuente necesariamente, veras atributos reordenados etc. Podria pasar  
>> que JavaScript si que haga una normalizacion en sus cadenas y sea  
>> esto lo que se ve en Ruby.
> 
> Nope, he estado haciendo screen-scrapping de paginas con distintos
> charsets y he tenido que normalizar a mano con iconv.
> 
> Dani, avanzaste en esto por cierto?
> 
> -- fxn

Xavier,

La verdad es que no. Me he liado más todavía y estoy un poco a medias 
con todo. Te cuento:

- A parte del problema de los carácteres extraños, tenía un problema de 
normalización del html ya que la página a la que accedía tenía html mal 
formado que no se solucionaba ni con RubySoup ni otros parsers que 
probé.

- Anteriormente ya había probado Firewatir y me había ido muy bien. Así 
que al juntar los dos problemas, carácteres extraños y html mal formado 
(pero que firefox sí que entendía) decidí cambiar a Firewatir.

- El problema del html mal formado, se solucionó por lo que tu 
explicaste en tu post de como trabaja firewatir. Mi sorpresa llegó en 
que Firewatir también me devuelvía carácteres extraños para esta página.

- Así que la conclusión es que realmente tengo un problema con el 
charset de esta página y su response y no con la herramienta de 
scrapping.

Desgraciadamente, llevaba tantos días atascado con el tema y no avanzaba 
que lo aparqué de momento para volver a él cuando tuviera más fuerzas.

Así que en breve, seguro que pongo alguna preguntita de Iconv. Espero 
que me ayudes ;-)

Saludos
-- 
Posted via http://www.ruby-forum.com/.


More information about the Ror-es mailing list