Extraia texto de arquivos PDF e de imagem

Extraia texto de arquivos PDF e de imagem

Você tem um documento PDF do qual gostaria de extrair todo o texto? E quanto aos arquivos de imagem de um documento digitalizado que você quer converter em texto editável? estes são poucos dos problemas mais normais que tenho visualizado no cenário de trabalho ao trabalhar com arquivos.

Neste artigo, falarei sobre muitas jeitos variados de tentar extrair texto de um PDF ou de uma imagem. Os resultados da extração irão mudar dependendo do tipo e qualidade do texto no PDF ou imagem. Além disso, seus resultados irão mudar dependendo da ferramenta que você usa, então é melhor provar o máximo provável das opções em baixo para ter os melhores resultados.

Índice

    Extraia texto de imagem ou PDF

    A forma mais fácil e rápida de iniciar é provar um serviço on-line de extração de texto em PDF. Normalmente são gratuitos e podem oferecer exatamente o que você busca, sem a necessidade de implantar nada no seu pc. Aqui estão dois que usei com resultados extremamente bons a excelentes:

    Extrair PDF

    ExtractPDF é uma ferramenta gratuita para extrair imagens, texto e fontes de um arquivo PDF. A única limitação é que o tamanho máximo do arquivo PDF é 10 MB. Isso é um punhado pequeno; portanto, se você tiver um arquivo maior, tente poucos dos outros métodos em baixo. selecione seu arquivo e toque no botão Enviar arquivo. Os resultados normalmente são extremamente velozes e você deverá visualizar uma prévia do texto ao tocar na guia Texto.

    Também é um bom benefício adicional extrair imagens do arquivo PDF, caso você precise delas! No geral, a ferramenta on-line funciona extremamente bem, porém encontrei poucos documentos em PDF que me deram resultados engraçados. O texto é extraído de forma perfeita, porém por algum motivo vai ter uma quebra de linha depois cada palavra! Não é um extenso problema para um arquivo PDF curto, porém com certeza é um problema para arquivos com extremamente texto. Se isso ocorrer com você, tente a seguinte ferramenta.

    OCR on-line

    O OCR on-line no geral tende a operar para documentos que não foram convertidos adequadamente com o ExtractPDF, por isso é uma boa concepção provar os dois serviços para visualizar qual deles fornece melhor resultado. O OCR on-line também têm poucos funcionalidades mais interessantes que podem ser úteis para quaisquer pessoa com um arquivo PDF extenso que só necessita converter o texto em várias páginas, em vez de todo o documento.

    A primeira coisa que você quer realizar é desenvolver uma conta gratuita. É um punhado chato, porém se você não desenvolver a conta gratuita, ela converterá somente parcialmente o seu PDF, e não o documento inteiro. Além disso, em vez de poder realizar upload de somente um documento de 5 MB, você pode realizar upload de até 100 MB por arquivo com uma conta.

    Primeiro, selecione um idioma e, em seguida, selecione o tipo de formato de saída que você quer para o arquivo convertido. Você tem várias opções e pode selecionar mais de uma, se quiser. Em Documento de muitas páginas, você pode escolher Números de páginas e selecionar somente as páginas que quer converter. Então você seleciona o arquivo e clica em Converter !

    Após a conversão, você vai ser transportado à seção Documentos (se estiver logado), onde vai poder visualizar quantas páginas gratuitas disponíveis ainda restam e links para baixar os arquivos convertidos. aparenta que você só tem 25 páginas gratuito por dia, então se precisar de mais do que isso, você vai ter que aguardar um punhado ou adquirir mais páginas.

    O OCR on-line fez um impressionante trabalho ao converter meus PDFs porque foi capaz de manter o layout real do texto. No meu teste, peguei um documento do Word que usava marcadores, tamanhos de fonte variados, etc. e o converti em PDF. Então usei o on-line OCR para convertê-lo de volta para o formato Word e ficou cerca de 95% igual ao original. Isso é extremamente excelente para mim.

    Além disso, se você quer converter uma imagem em texto, o OCR on-line pode realizar isso com a mesma facilidade com que retira texto de arquivos PDF.

    OCR on-line gratuito

    Já que estamos dizendo sobre OCR de imagem para texto, deixe-me falar outro bom website que funciona extremamente bem com imagens. O OCR on-line grátis foi extremamente bom e necessário ao extrair texto das minhas imagens de teste. Tirei várias fotos de páginas de livros, panfletos, etc. do meu iPhone e fiquei surpreso com o quão bem ele conseguiu converter o texto.

    Escolha seu arquivo e toque no botão Upload. Na seguinte tela, existe várias opções e uma prévia da imagem. Você pode recortá-lo se não desejar realizar o OCR de tudo. Em seguida, basta tocar no botão OCR e o texto convertido aparecerá em baixo da visão da imagem. Também não tem limitações, o que é extremamente bom.

    Além dos serviços on-line, existem dois conversores de PDF freeware que quero falar caso você precise de um software rodando localmente em seu pc para fazer as conversões. Com os serviços on-line, você sempre vai precisar de uma conexão com a Internet e isso pode não ser provável para todos. mas, notei que a qualidade das conversões dos programas freeware era de forma significante pior do que a dos websites.

    Extrator de texto A-PDF

    A-PDF Text Extractor é um freeware que faz um bom trabalho ao extrair texto de arquivos PDF. após de baixá-lo e instalá-lo, toque no botão Abrir para selecionar seu arquivo PDF. Em seguida, toque em Extrair texto para começar o processo.

    Ele solicitará um cenário para armazenar o arquivo de saída de texto e então começará a extrair. Você também pode tocar no botão Opção, que autoriza selecionar somente determinadas páginas para extrair e o tipo de extração. A segunda opção é curiosa porque retira o texto em layouts variados e vale a pena tentar os três para visualizar qual deles fornece o melhor resultado.

    Piloto PDF2Text

    PDF2Text Pilot faz um bom trabalho de extração de texto. Não tem opções; você somente adiciona arquivos ou pastas, converte e aguarda pelo melhor. Funcionou bem em poucos PDFs, porém na maior parte deles aconteceu muitos problemas.

    Basta tocar em acrescentar arquivos e após em Converter. Assim que a conversão for concluída, toque em viajar para abrir o arquivo. Sua milhagem irá mudar utilizando esse agenda, então não espere extremamente.

    Além disso, vale a pena falar que se você estiver em um ambiente corporativo ou ober uma cópia do Adobe Acrobat do trabalho, vai poder verdadeiramente ter resultados extremamente melhores. de forma obvia, o Acrobat não é grátis, porém tem opções para converter PDF para os formatos Word, Excel e HTML. Ele também faz o melhor trabalho mantendo a base do documento original e convertendo textos complicados.