Det finns ett gäng olika programvaror, bland annat en variant för linux som fungerar bra. Se
http://www.google.com/search?sourcei...F-8&q=pdf2html
Vissa lägger in scannade bilder innehållandes text i PDF:er och de går förstås inte att extrahera texten från.