Corpus do Português: One Billion Words

Corpus do Português: One Billion Words


Mark Davies, Professor at Brigham Young University, announced a new addition to the Corpus do Português.

While the corpus has been online (here) for a few weeks, it is now available with an interface and help files in Portuguese as well.

– The new corpus contains one billion words of data, which makes it 50 times as large as the 1900s portion of the original Corpus do Português.
– So where you might have had just 30-40 tokens of a word or construction in the older corpus, you might now have 1,500-2,000 tokens.
– The texts are more recent as well – they are all from the last 3-4 years.
– You can compare the frequency of words, phrases, and syntactic constructions in the four different Portuguese-speaking countries in the corpus.
– You can also use powerful “virtual corpora” to create and use customized corpora within the main corpus, such as a particular field of science, a certain sport, or any other area of interest.
– There is a new interface for the new one billion word corpus, as well as the original Corpus do Português. This interface has a much “cleaner” interface, better help files, and they work great on mobile devices (tablets and even cell phones).
– As mentioned, both corpora are now available with an interface and help files in both English and Portuguese.
– In summary, we believe that the new corpus has important advantages over other large corpora of Portuguese, such as Sketch Engine and Corpora on the Web (see comparisons online).

We invite you to use the new corpora, and hope that they are of value to you in your research and teaching.


About Mark Davies

Professor at BYU since 2003, after teaching Spanish Linguistics at Illinois State University 1992-2003. Specializes in Corpus Linguistics (using large collections of text to study language variation and change).

More than 50 publications (including four books) related to language change, variation, and corpus creation and use.

Recipient of four large government grants (NEH 2001, 2004; 2009, NSF 2002) to create and use corpora for linguistic analysis.

Creator of the corpora at (including the 400+ million word Corpus of Contemporary American English:, which are used by tens of thousands of researchers each month.


Temos o prazer de anunciar que uma nova adição ao Corpus do Português está agora disponível em (e a partir desta semana, está disponível com uma nova interface e ficheiros de ajuda em Inglês e
Português) .

– O novo corpo contém um bilhão de dados, o que faz com que seja 50 vezes maior do que o Corpus original do Português com apenas 1900 palavras.
– Ou seja, anteriormente tinha apenas 30-40 ocorrências de uma palavra ou construção e agora têm entre 1500-2000.
– Os textos são mais recentes, todos dos últimos 3-4 anos.
– No corpus, pode comparar a frequência de palavras, frases e construções sintáticas em quatro dos países de língua portuguesa.
– Também pode usar o ”corpora virtual” de uma forma única, ao criar e usar corpus personalizados dentro do corpus principal, como um campo específico da ciência, um determinado esporte ou qualquer outra área de interesse.
– Tal como no Corpus do Português antigo, nova interface do corpus de 2016 contem os mais de um bilhão de textos. Esta interface é muito mais ”limpa” e com arquivos de ajuda melhores, eles trabalham muito bem em dispositivos móveis (tabletes e até mesmo telefones celulares).
– Como mencionado, ambos os corpora estão agora disponíveis com uma nova interface e arquivos de ajuda em Inglês e Português.
– Em resumo, acreditamos que o novo corpus tem vantagens importantes em comparação a outros corpora do Português, como o Sketch Engine e Corpora na Web (ver comparações online).

Nós convidamo-lo a usar o novo corpora e esperamos que sejam de valor á sua pesquisa e ensino.





Free Ebook EN Prepare a translation project

Share this post


Get our best content straight into your inbox

Latest blog posts