Sopa fácil y barata con Python
Llevo unos días leyendo el manual de Python y mira por donde hoy me ha surgido la oportunidad de usarlo en un caso real. Necesitaba extraer los textos de unas plantillas html y guardarlos en un fichero para posteriores operaciones. La solución que he encontrado es realmente simple, utilizando la librería Beautiful Soup de parseo de HTML/XML :
from BeautifulSoup import BeautifulSoup
import sys
if len(sys.argv) >= 2:
f = open(sys.argv[1])
freturn = open("striptag_result", "w")
soup = BeautifulSoup(f.read())
freturn.write( ''.join([e for e in soup.recursiveChildGenerator() if isinstance(e,unicode)]).encode('utf-8')
)
freturn.close()
else:
print "Uso: striptags.py fichero"
from BeautifulSoup import BeautifulSoup
import sys
if len(sys.argv) >= 2:
f = open(sys.argv[1])
freturn = open("striptag_result", "w")
soup = BeautifulSoup(f.read())
freturn.write( ''.join([e for e in soup.recursiveChildGenerator() if isinstance(e,unicode)]).encode('utf-8')
)
freturn.close()
else:
print "Uso: striptags.py fichero"