Overing de estratégia de negociação
Superação.
DEFINIÇÃO de 'Overfitting'
Um erro de modelagem que ocorre quando uma função é muito ajustável para um conjunto limitado de pontos de dados. A superposição do modelo geralmente assume a forma de fazer um modelo excessivamente complexo para explicar as idiossincrasias nos dados em estudo. Na realidade, os dados em estudo geralmente apresentam algum grau de erro ou ruído aleatório dentro dele. Assim, a tentativa de tornar o modelo conforme muito próximo a dados ligeiramente imprecisos pode infectar o modelo com erros substanciais e reduzir seu poder preditivo.
BREAKING 'Overfitting'
Os profissionais financeiros devem sempre estar cientes dos perigos de superar um modelo baseado em dados limitados. Por exemplo, um problema comum é o uso de algoritmos computacionais para pesquisar bases de dados extensas de mercado para encontrar padrões. Dado um estudo suficiente, muitas vezes é possível desenvolver teoremas elaborados que parecem prever coisas como retornos no mercado de ações com precisão precisa. No entanto, quando aplicado a dados fora da amostra, tais teoremas podem provar ser apenas uma sobreposição de um modelo para o que eram, na realidade, apenas ocorrências de chance. Em todos os casos, é importante testar um modelo contra dados que estão fora da amostra usada para desenvolvê-lo.
BackTest em excesso nos mercados financeiros.
Publicado em Automated Trader Magazine Issue 39 Q2 2016.
Os comerciantes sistemáticos são amaldiçoados pela tendência de estratégias - e até mesmo de estimadores simples - de superar os dados históricos. Um grupo de pesquisadores universitários fornece uma ferramenta on-line para estimar a propensão a superar, mesmo para estratégias muito parcimoniosas.
No contexto das finanças matemáticas, a superposição de atraso significa o uso de dados de mercado históricos, conhecidos como backtest, para desenvolver uma estratégia de investimento, onde muitas variações da estratégia são testadas no mesmo conjunto de dados. A superação do Backtest agora é considerada uma razão primária pela qual os modelos de investimento quantitativo e as estratégias que parecem boas no papel - com base em backtests - muitas vezes decepcionam na prática. Os modelos que sofrem desta condição visam as idiossincrasias específicas de um conjunto de dados limitado, em vez de qualquer comportamento geral e, como resultado, muitas vezes apresentam um desempenho fraco quando são apresentados com novos dados.
A superposição de Backtest é uma instância do fenômeno mais geral de testes múltiplos em pesquisas científicas, onde um grande número de variações de um modelo são testadas nos mesmos dados, sem contabilizar o aumento das taxas de falsos positivos. As técnicas de superposição padrão, como o método de retenção, não conseguem identificar esse problema, porque eles foram projetados para avaliar a complexidade de um modelo em relação ao conjunto de dados, ainda assumindo que um único teste ocorreu.
Lawrence Berkeley National Laboratory (aposentado), EUA.
CARMA, Universidade de Newcastle, Austrália.
CARMA, Universidade de Newcastle, Austrália.
Departamento de Matemática, Western Michigan University, EUA.
Um exemplo irá esclarecer esta diferença: Suponha que um novo composto XYZ seja desenvolvido para tratar dores de cabeça. Desejamos testar a hipótese de que o XYZ é realmente efetivo. Um falso positivo ocorre quando concluimos incorretamente que o XYZ foi efetivo. Isso pode ocorrer por uma variedade de razões: o paciente foi diagnosticado erroneamente, a dor associada à dor de cabeça oscilou de perto para o nível de limiar necessário para declarar a condição, etc. Suponha que a probabilidade de falso positivo seja de apenas 5%. Poderíamos testar as variações do composto alterando uma característica irrelevante (a cor, o sabor, a forma da pílula), e espera-se que pelo menos 1 em cada 20 dessas variações sejam (falsamente) declaradas efetivas.
O problema não reside na biologia ou na complexidade do composto. Em vez disso, o pesquisador realizou vários testes ao tratar cada variação individualmente, sem perceber que ao fazê-lo, ela teve uma probabilidade crescente de falsos positivos. As varreduras de corpo inteiro e outros diagnósticos e métodos médicos atuais orientados pela tecnologia são muitas vezes comprometidos pelo mesmo motivo.
Da mesma forma, nas finanças, é comum realizar milhões, se não bilhões, de testes nos mesmos dados. Os autores normalmente não fornecem o número de experimentos envolvidos em uma descoberta particular e, como resultado, é provável que muitas teorias ou modelos de investimento publicados sejam falsos positivos. Por exemplo, mostramos anteriormente que, se apenas cinco anos de dados diários do mercado de ações estiverem disponíveis como um backtest, então não serão tentadas mais 45 variações de uma estratégia nesses dados, ou a estratégia resultante será superada. Superação no sentido específico de que a Ratio de Sharpe da estratégia (SR) provavelmente será 1,0 ou maior apenas por acaso (mesmo que a SR real seja zero ou negativa).
A Ratia Sharpe e métricas semelhantes são usadas para alocar capital para a estratégia de melhor desempenho. SR quantifica o desempenho de uma estratégia de investimento. É a relação entre o excesso médio de rendimentos do capital, em excesso da taxa de retorno de um ativo livre de risco e o desvio padrão dos mesmos retornos. Assim, quanto maior a relação, maior o retorno em relação ao risco envolvido.
Qualquer pessoa que desenvolva ou mesmo apenas investe em uma estratégia de investimento sistemática (ou em um fundo negociado em bolsa com base nessa estratégia) precisa entender o grau em que as estratégias podem ser superadas, a fim de evitar perdas financeiras inesperadas. Por esse motivo, desenvolvemos duas ferramentas on-line: a Ferramenta de Demonstração de Overtuting Backtest (BODT) e a Ferramenta de Simulação Tenure Maker (TMST). O principal objetivo das ferramentas é demonstrar quão fácil é superar uma estratégia de investimento e como essa superação pode afetar o desempenho financeiro da linha de fundo. Essas duas ferramentas decorrem de dois tipos amplos de estratégias de investimento:
Figura 01: Resultado de otimização na amostra.
Aqueles com base em regras comerciais gerais, p. oportunidades sazonais (BODT segmenta esse tipo)
Aqueles baseados em equações de previsão, e. modelos econométricos (o TMST visa esse tipo)
A BODT emprega uma versão simplificada do processo que muitos analistas financeiros usam para criar estratégias de investimento, ou seja, usar um programa de computador para encontrar a estratégia ideal com base em dados históricos do mercado (geralmente denominados dados "na amostra"), ajustando as variáveis tais como o período de retenção, os níveis de lucro e stop-loss, etc. Da mesma forma, o TMST aplica previsões e equações econométricas para encontrar a estratégia "ótima". Se o cuidado não for tomado para evitar a superposição do backtest, essas estratégias podem parecer ótimas no papel, com base em testes usando dados históricos do mercado, mas depois dão resultados bastante decepcionantes quando realmente foram implantados em um conjunto de dados diferente (muitas vezes chamado de "fora de amostra" ( OOS)). As Figuras 01 e 02 ilustram este fenômeno: o gráfico esquerdo mostra como uma estratégia ótima (associada à linha azul) pode ser desenvolvida com base em um conjunto de dados histórico ou um conjunto de dados IS (que neste caso é meramente um conjunto de fechamento diário gerado pseudo-aleatoriamente preços e está associado à linha amarela) variando o dia da entrada, o período de retenção, a perda de parada e os parâmetros laterais (discutimos mais detalhadamente esses parâmetros). Esta estratégia ótima tem uma Razão Sharpe de 1.59 no conjunto de dados IS. O gráfico correto, por outro lado, ilustra que a mesma estratégia otimizada funciona mal no conjunto de dados OOS e resulta em um SR de -0.18, demonstrando que a estratégia foi superada nos dados IS; na verdade, a estratégia ideal realmente perdeu dinheiro aqui.
O BODT e TMST online se concentram em demonstrar o impacto da superposição. Nós também desenvolvemos versões mais técnicas. Para o caso de teste único, propusemos o Minimum Backtest Length (MinBTL) como uma métrica para evitar a seleção de uma estratégia com alta SR em dados IS, mas zero ou menos em dados OOS. Também propusemos um Razão de Sharpe (PSR) probabilístico em algum estágio para calcular a probabilidade de uma SR estimada ser maior que uma SR de referência. E para o caso de teste múltiplo, desenvolvemos o Ratio de Sharpe Deflated (DSR) para fornecer uma estatística de desempenho mais robusta;
Figura 02: Resultado fora da amostra.
em particular, quando os retornos seguem uma distribuição não normal. Leitores interessados podem querer consultar a seção de referências para leitura adicional.
A Ferramenta de Demonstração Overtuter Backtest.
As estratégias sazonais são muito populares entre os investidores e são comercializadas todos os dias em programas de TV, publicações empresariais e periódicos acadêmicos. Nesta seção, ilustramos como é trivial superar um backtest envolvendo uma estratégia sazonal. A Ferramenta de Demonstração de Overtuting de Backtest (BODT) encontra estratégias ótimas em dados aleatórios (imprevisíveis) e no mercado de ações do mundo real e demonstra que os altos índices de Sharpe em dados de amostra em teste não têm sentido, a menos que os investidores controlem o número de testes.
O BODT possui dois módulos: o módulo de otimização, que é o núcleo do BODT (codificado na linguagem de programação Python) e o módulo de comunicação, que é uma interface online que fornece uma ponte entre o usuário e o módulo de otimização. Em particular, a interface online coleta e / ou define os valores dos parâmetros, os fornece ao programa de otimização e relata os resultados do programa de otimização. BODT executa os seguintes quatro passos:
Importando dados e parâmetros de configuração. Isso inclui a importação / configuração dos parâmetros e a importação de dados do mercado de ações do S & amp; P 500 do mundo real / gerando dados pseudo-aleatórios, dependendo do tipo de experiência escolhida pelo usuário. Se forem escolhidas experiências pseudo-aleatórias, damos três parâmetros: o comprimento da amostra (número de dias ou o comprimento da série temporal), o desvio padrão e a semente. A partir disso, os preços de fechamento diários de um estoque são simulados pelo desenho de retornos de uma distribuição gaussiana com zero médio. Se a experiência do mundo real for escolhida, os valores de dados são os preços de fechamento diários do índice S & P 500 entre janeiro de 1962 e fevereiro de 2014. Em cada caso, os dados da amostra são divididos de forma igual em dois conjuntos: o in-sample (IS ) conjunto de dados (também conhecido como "conjunto de treinamento") e o conjunto de dados fora da amostra (OOS) (também conhecido como o "conjunto de testes").
Obtendo a estratégia "ótima". BODT gera todas as estratégias de investimento. As estratégias de investimento são formadas ao ajustar sucessivamente os quatro parâmetros do período de retenção, a perda de parada, o dia de entrada e o lado (ele realiza uma busca de força bruta tentando todas as combinações dos quatro parâmetros). Toda estratégia é avaliada pelo cálculo da Razão de Sharpe, nos dados de amostra do IS, e a estratégia de negociação ideal, em termos de otimização do SR, é escolhida.
Avaliando a estratégia ideal nos dados OOS. A estratégia "ótima" obtida acima é aplicada aos dados OOS e a estatística SR é calculada. Em particular, a estratégia é avaliada sobre o IS definido na Etapa 2; Depois de explorar a estratégia de melhor desempenho, é avaliada ao longo do conjunto OOS. Observe que o conjunto OOS não é usado no projeto da estratégia. Um backtest é dito ser realista quando o desempenho do IS é consistente com o desempenho do OOS, depois de controlar a quantidade de experiências que ocorreram.
Visualização. Os resultados do BODT incluem três parcelas, um filme e um resumo dos valores numéricos. Os dois primeiros gráficos na ferramenta online, que são semelhantes à Figura 01 e à Figura 02, mostram resultados no conjunto IS, ou seja, os dados Backtest e OOS. Nesses dois gráficos, a linha amarela é a série temporal subjacente, e a linha azul mostra o desempenho da estratégia. Na maioria das corridas, o SR do gráfico direito (ou seja, a estratégia final sobre os dados OOS) é negativo ou pelo menos muito inferior ao SR do gráfico esquerdo final (ou seja, a estratégia final nos dados IS) , evidenciando que a estratégia foi superada nos dados IS.
A Figura 03 mostra o valor da estatística avançada de Ratio Sharpe (DSR) avançado sobre as mudanças no valor do número de testes como uma linha azul. O mesmo é exibido como uma linha vermelha para uma configuração de referência (skewness: -3 e kurtosis: 10), apenas para dar uma idéia de comportamento diferente dada uma alteração nos valores de asfalto e curtose. Finalmente, ele exibe um conjunto de valores numéricos em uma tabela semelhante à Tabela 01. Estes incluem os parâmetros usados, bem como os valores das estatísticas SR e DSR.
Figura 03: mudança DSR em relação a 'Número de ensaios'
O tempo de execução do BODT geralmente é inferior a dois minutos. Os valores para o período de espera máximo, a perda de parada e o comprimento da amostra afetam significativamente o número de iterações realizadas pelo programa; quanto maiores forem esses valores, mais tempo o programa será executado. O BODT está disponível gratuitamente para o público e pode ser acessado através do hiperlink no final deste artigo.
Uma explicação mais detalhada e um tutorial também estão disponíveis.
Parâmetros.
A Tabela 02 mostra os parâmetros de BODT. O usuário não tem controle sobre alguns desses parâmetros, que são denotados por '& # 9679;' na coluna 'Valor Fixo'; Para esses parâmetros, o BODT usa os valores padrão como mostrado na coluna 'Padrão'. Observe, se o usuário não inserir um valor ou inserir um valor que esteja fora dos intervalos permitidos, um valor padrão será usado. A razão para esses intervalos viáveis é colocar um limite superior para o número de testes (ou iterações de otimização) realizados. Tal limite não implica uma perda de generalidade em relação à análise. Pelo contrário, mostramos que a superposição pode oferecer um desempenho significativamente alto (na amostra) mesmo para um número relativamente pequeno de iterações. Os parâmetros do BODT são:
Prazo de retenção máximo: o número de dias que uma ação pode ser mantida antes de ser liquidada (vendida). É dado em um número inteiro de dias de negociação. BODT tenta todos os valores inteiros inferiores ou iguais ao máximo dado pelo usuário.
Perda de parada máxima: a porcentagem de capital investido que pode ser perdida antes da liquidação do cargo (fechado). BODT apenas tenta porcentagens inteiras até o máximo dado pelo usuário.
Comprimento da amostra: o número de observações utilizadas na amostra.
Desvio padrão: o desvio padrão dos retornos aleatórios usado para gerar preços diários.
Semente: uma semente para os números pseudo-aleatórios usados para gerar os retornos aleatórios.
Dia de entrada: o dia em que um entra no mercado em cada mês de negociação. Todo mês de negociação é suposto ter 22 dias de entrada. Todas as 22 possibilidades são testadas pelo BODT.
Lado: o lado das posições mantidas, quer longo, que é para fazer lucros quando os preços das ações estão subindo, ou curto, o que é fazer.
lucros quando os preços das ações estão caindo. Ambas as opções são avaliadas pelo BODT.
Quatro tipos de experiências.
Para estudar o impacto da sobreposição, o BODT realiza quatro tipos diferentes de experimentos, que são explicados abaixo. Os três primeiros são baseados em dados gerados aleatoriamente (preços de fechamento diários) da distribuição gaussiana com o desvio padrão e os valores / intervalos de sementes dados na Tabela 02. O último experimento é baseado em dados S & amp; P 500.
Experiência 1: Replicando um exemplo específico.
A primeira experiência replica um exemplo específico que está associado a duas parcelas das Figuras 01 e 02 (os mesmos gráficos também são exibidos na página da BODT). Assim, o usuário pode replicar esse experimento chamando os valores predefinidos para os parâmetros.
Experiência 2: Gerando parâmetros aleatoriamente.
O segundo experimento usa parâmetros inteiros gerados aleatoriamente, dos intervalos permitidos para cada parâmetro.
Experiência 3: valores de parâmetros definidos pelo usuário.
O terceiro experimento pede ao usuário que digite os parâmetros. O usuário pode inserir quaisquer valores dos intervalos especificados para os cinco primeiros parâmetros da Tabela 02. Se algum parâmetro for deixado em branco, então, o BODT gerará um valor aleatório dos intervalos possíveis. Nesta experiência, o usuário tem a opção de impactar a geração de dados escolhendo o desvio padrão e os valores de semente.
Experiência 4: usando dados reais do mercado de ações.
O quarto experimento pede ao usuário que digite parâmetros para dados financeiros reais, ou seja, para os dados do mercado de ações da S & P 500, onde os preços de fechamento diários são retirados de janeiro de 1962 a fevereiro de 2014. Nossa preferência por este índice é motivada pela ampla aceitação como benchmark e instrumento financeiro. O desvio padrão está implícito no parâmetro de dados e sementes não é relevante nesta experiência. Note-se que, devido ao tamanho dos dados do índice S & P 500, os intervalos para o comprimento da amostra do parâmetro mudaram.
A Ferramenta de Simulação Tenure Maker.
A seção acima ilustrou como é fácil superar um backtest envolvendo uma estratégia sazonal. Mas e quanto a outros tipos de estratégias? As estratégias baseadas em métodos econométricos ou estatísticos acadêmicos são fáceis de superar também? Infelizmente, a resposta é que esses investimentos pseudo-matemáticos são ainda mais fáceis de superar. A Ferramenta de Simulação do Tenure Maker (TMST) procura especificações econométricas que maximizem o poder preditivo (na amostra) de uma série temporal aleatória e imprevisível. Os Razões Sharpe resultantes tendem a ser ainda maiores do que na contraparte "sazonal". A implicação é que a maioria das estratégias científicas publicadas em revistas acadêmicas rigorosas provavelmente serão superadas. Essas publicações são a base sobre a qual os professores recebem um mandato, daí o nome da ferramenta.
Semelhante ao BODT, o núcleo da Tenure Maker Simulation Tool é um programa de otimização codificado na linguagem de programação Python (o módulo de otimização) e é comunicado ao usuário através de uma interface online (o módulo de comunicação). A interface online coleta e / ou define os valores dos parâmetros, os fornece ao programa de otimização e relata os resultados do programa de otimização. Como BODT, TMST é uma ferramenta gratuita. Mais detalhes estão documentados na web. Os leitores interessados podem consultar a seção de hiperlink no final deste artigo.
O TMST executa as seguintes quatro etapas:
Gerando retornos. Uma série de retornos normais IID (independente, distribuídos de forma idêntica) são gerados. Este dado de exemplo é considerado o conjunto na amostra (IS).
Gerando modelo de séries temporais. Um conjunto de modelos de séries temporais são gerados, onde a série é prevista como uma fração das realizações passadas da mesma série; A série de previsão é considerada o conjunto fora da amostra (OOS). Os modelos da série temporal incluem:
&touro; Soma das contas da série passada;
&touro; Polinômios da série passada;
&touro; Lag da série passada; e.
&touro; Cross-products do acima.
Avaliação de estratégia. Um algoritmo de seleção direta avalia as estratégias geradas, em termos de otimização de SR, e seleciona o modelo melhorado.
Visualização. TMST produz dois gráficos, que são mostrados na Figura 04 e na Figura 05. A Figura 04 mostra o backtest, isto é, como a estratégia "ótima" é obtida. Neste gráfico, a linha azul representa o comportamento da estratégia comercial e a linha amarela representa o comportamento do mercado. A Figura 05 mostra o progresso da "inflação" na Razão Sharpe anualizada (ASR).
Figura 04: Exemplo de Razão Sharpe altamente otimizada.
À medida que o programa continua a otimizar, a linha azul na Figura 04 fica cada vez mais rentável ao longo do tempo, pois o programa se encaixa nos dados históricos. Em questão de segundos ou minutos, o programa cria o que parece ser uma curva de equidade muito lucrativa (com uma Razão Sharpe muito alta) com base no conjunto de dados de entrada. Na verdade, estamos prevendo as realizações futuras da série, usando as realizações passadas, o que, é claro, é impossível pela construção. A Ratia Sharpe é ainda mais inflada do que na contraparte "sazonal" (baseadas nas regras gerais de negociação). Esta é uma justificativa de por que as especificações econométricas são tão flexíveis que é ainda mais fácil gerar uma grande quantidade de testes independentes.
TMST tem seis parâmetros. Cinco desses parâmetros não estão disponíveis para o usuário (aqueles designados por '& # 9679;' na coluna 'Valor Fixo' na Tabela 03); Para esses parâmetros, TMST define valores pré-especificados como mostrado na coluna 'Padrão'.
Os seis parâmetros são:
Comprimento da amostra: o número de observações (retorno do IID) gerado.
Largura: comprimento da amostra usado como o período de retrocesso nos modelos de regressão da soma rolante.
Grau polinomial: graus do ajuste polinomial utilizado no modelo de regressão polinomial.
Número de atrasos: número de variáveis atrasadas incluídas no modelo de regressão retardada.
Número de produtos cruzados: tamanho dos regressores de produtos cruzados.
Tempo computacional máximo: este é o único parâmetro disponível para o usuário. Ele representa o tempo total de computação em segundos, para o qual o módulo de otimização pode gerar estratégias. O intervalo é de 30 a 900 segundos e o valor padrão é de 90 segundos. Somente valores inteiros são permitidos. Além disso, se o usuário não inserir nenhum valor para este parâmetro ou se o valor estiver fora do intervalo especificado, o valor padrão será usado.
Figura 05: Infação em Razão Annual Sharpe.
As duas opções a seguir estão disponíveis:
Experiência 1: Completa.
O programa pára quando todas as estratégias são geradas, o que pode levar até 10 minutos.
Experiência 2: Limitada.
O usuário limita a geração das estratégias (no módulo de otimização) definindo o tempo de computação máximo.
Conclusão.
A pesquisa financeira depende cada vez mais de técnicas computacionais para simular um grande número de estratégias de investimento alternativas em um determinado conjunto de dados. Um problema com essa abordagem é que a estrutura padrão de teste de hipóteses Neyman-Pearson foi projetada para experiências individuais. Em outras palavras, quando tentativas múltiplas são tentadas, o nível de significância (ou seja, a probabilidade de um falso positivo) é maior que o valor estabelecido pelo pesquisador.
Artigos acadêmicos e propostas de investimento quase nunca revelam o número de testes envolvidos em uma descoberta particular. Consequentemente, é altamente provável que muitos achados publicados sejam apenas fluhos estatísticos. A implicação prática é que os investidores estão sendo atraídos para alocar capital para descobertas irrelevantes, teorias financeiras ou produtos de investimento.
A Ferramenta de Demonstração de Overfitting Backtest (BODT) e a Ferramenta de Simulação do Tenure Maker (TMST) são, a nosso conhecimento, o primeiro software científico para ilustrar como a superação afeta as estratégias e decisões de investimento financeiro na prática. Em particular, mostra como a estratégia ideal identificada por backtesting nos dados na amostra quase sempre conduz a um desempenho decepcionante quando aplicado aos dados fora da amostra. Nosso objetivo principal com o BODT e TMST é aumentar a conscientização sobre o problema da superposição do backtest no mundo da pesquisa financeira.
Adicione sua empresa ao AlgoWorld.
Itens Populares.
Direitos autorais e cópia; Automated Trader Ltd 2017 - Estratégias | Conformidade | Tecnologia.
Negociação quantitativa.
Investimentos quantitativos e idéias comerciais, pesquisas e análises.
Sexta-feira, 17 de novembro de 2017.
Otimizando estratégias de negociação sem superação.
podemos simular tantas séries de preços (todos seguindo o mesmo processo ARMA) como desejamos. Isso significa que podemos simular tantos negócios quanto queremos e obter parâmetros de negociação ótimos com uma precisão tão alta quanto quisermos. Isso é quase tão bom como uma solução analítica. (Veja o diagrama de fluxo abaixo que ilustra este procedimento - clique para ampliar.)
Curiosamente, o modo do K ideal é 0 para qualquer mês. Isso certamente faz uma estratégia de negociação simples: apenas compre sempre que o retorno de log esperado seja positivo e vice-versa para shorts. O CAGR é cerca de 4,5% assumindo custos de transação zero e execuções de preço médio. Aqui está a curva de retorno acumulada:
Sobre os autores: Ernest Chan é o membro gerenciador da QTS Capital Management, LLC. Ray Ng é um estrategista quantitativo da QTS. Ele recebeu seu Ph. D. em física teórica de matéria condensada da McMaster University.
Próximas Oficinas do Dr. Ernie Chan.
Estarei moderando esta oficina on-line para Nick Kirk, um notável comerciante de criptografia e gerente de fundos, que ensinou este curso amplamente aclamado aqui e no CQF em Londres.
Este curso on-line se concentra em backtesting intradiário e estratégias de opções de portfólio. Não serão discutidas teorias de preços de opções irritantes, uma vez que a ênfase está na negociação de arbitragem.
12 comentários:
Você poderia incluir o Matlab para esta publicação?
Postagem interessante. Vejo isso como basicamente o mesmo que o reescremento do portfólio, mas aplicado ao comércio em vez da otimização de portfólio.
Você é bem-vindo em ernestepchan para códigos-fonte.
Não é realmente o reescrever, uma vez que o reescalonamento significa que usamos dados históricos reais para gerar mais dados históricos. Aqui, nós simplesmente usamos o modelo que descreve os dados históricos para gerar mais dados históricos.
Muito boa ideia. A superposição é realmente um grande problema para o desenvolvimento de estratégias. Uma questão potencial em usar isso é o quão bem um pode modelar os processos de preço / volume subjacentes. Dependendo do sinal de um dependente, o processo pode não expressar o padrão ou pode ter um resultado diferente, em seguida, realizado em média no mercado.
- agrupar ações em grupos por algumas medidas de similaridade.
- dentro de cada grupo, avalie o sinal nas histórias combinadas de ações no grupo.
Sim, você apontou algumas limitações muito válidas sobre essa abordagem.
Obrigado por descrever como você abordou o problema com estratégias de ações! Isso faz sentido nesse contexto.
Ernie Talvez seja mais parecido do que você pensa. No reescremento de Michaud, você está estimando um modelo. Implícitamente, você está assumindo que os ativos seguem caminhadas aleatórias com erro normal multivariante (parâmetros mu e sigma como média e covariância). Então, você resmelha mais mus e sigmas, otimize um portfólio para cada um e, em seguida, a média dos pesos finais do portfólio.
John, posso ver a semelhança agora - obrigado.
Artigo muito interessante, Ernie. Eu tenho algumas perguntas e comentários.
1) Teoricamente, isso é possível, mas isso geralmente indica que o modelo da série temporal não é adequado aos preços subjacentes. Se verifiquemos que é um bom ajuste e ainda dá um mau desempenho no backtest, rejeitaremos a estratégia. Na prática, ainda não aconteceu.
Negociação quantitativa.
Investimentos quantitativos e idéias comerciais, pesquisas e análises.
Sexta-feira, 17 de novembro de 2017.
Otimizando estratégias de negociação sem superação.
podemos simular tantas séries de preços (todos seguindo o mesmo processo ARMA) como desejamos. Isso significa que podemos simular tantos negócios quanto queremos e obter parâmetros de negociação ótimos com uma precisão tão alta quanto quisermos. Isso é quase tão bom como uma solução analítica. (Veja o diagrama de fluxo abaixo que ilustra este procedimento - clique para ampliar.)
Curiosamente, o modo do K ideal é 0 para qualquer mês. Isso certamente faz uma estratégia de negociação simples: apenas compre sempre que o retorno de log esperado seja positivo e vice-versa para shorts. O CAGR é cerca de 4,5% assumindo custos de transação zero e execuções de preço médio. Aqui está a curva de retorno acumulada:
Sobre os autores: Ernest Chan é o membro gerenciador da QTS Capital Management, LLC. Ray Ng é um estrategista quantitativo da QTS. Ele recebeu seu Ph. D. em física teórica de matéria condensada da McMaster University.
Próximas Oficinas do Dr. Ernie Chan.
Estarei moderando esta oficina on-line para Nick Kirk, um notável comerciante de criptografia e gerente de fundos, que ensinou este curso amplamente aclamado aqui e no CQF em Londres.
Este curso on-line se concentra em backtesting intradiário e estratégias de opções de portfólio. Não serão discutidas teorias de preços de opções irritantes, uma vez que a ênfase está na negociação de arbitragem.
Quinta-feira, 07 de setembro de 2017.
Análise do Sentimento de estoque.
Por Colton Smith.
Esta publicação do blog irá comparar o uso de apenas os tweets marcados versus o uso de todos os tweets com PNL. Para começar, fiz algumas análises básicas de dados para entender melhor a natureza dos dados. Na Figura 2 abaixo, é mostrado o número de tweets rotulados por hora. Como esperado, há picos em torno do mercado aberto e fechado.
O sentimento geral do mercado pode ser estimado agregando o número de tweets marcados a preços de alta e baixa a cada dia. Com base na literatura anterior, eu esperava um viés altivo significativo. Isso é confirmado na Figura 3 abaixo, com a percepção média diária de tweets otimistas sendo de 79%.
Ao escrever um tweet de StockTwits, os usuários podem marcar vários símbolos, portanto, é possível que o rótulo de sentimento possa ser aplicado a mais de um símbolo. Marcar mais de um símbolo provavelmente indicaria sentimento menos específico e potencial preditivo, então eu esperava achar que a maioria dos tweets apenas marcava um único símbolo. Olhando para a Figura 4 abaixo, mais de 90% dos tweets marcam um único símbolo e uma pequena porcentagem de tag 5+.
O período de tempo dos dados utilizados na minha análise é de 2012-11-01 a 2016-12-31. Na Figura 5 abaixo, são mostrados os principais símbolos, indústrias e setores por contagem de tweets rotulados. De longe, as indústrias mais tweetadas eram a biotecnologia e os ETFs. Isso faz sentido por causa da volatilidade dessas indústrias, o que, espero, significa que eles seriam os melhores para negociar com base em dados de sentimento de mídia social.
Agora eu precisava determinar como eu criaria a pontuação de sentimento para melhor abranger o potencial preditivo dos dados. Embora existam obstáculos para a negociação de uma estratégia aberta para fechar, incluindo o deslizamento, a liquidez e os custos de transação, analisar o quão bem o índice de sentimento imediatamente antes do mercado aberto prevê abertura para fechar retornos é um valioso cheque de sanidade para ver se seria útil em um maior modelo de fator. A pontuação de sentimento para cada dia foi calculada usando os tweets do dia anterior do mercado aberto até o dia atual; # 8217; s aberto:
250 estoques, seu desempenho pode ser visto na Figura 6 abaixo (clique no gráfico para ampliar).
Os limiares foram escolhidos para mostrar o potencial de um Razão 2.11 Sharpe, mas os resultados variam dependendo dos limiares utilizados. Essa sensibilidade é provavelmente devido à falta de volume de tweet na maioria dos símbolos. Além disso, os limiares longos e curtos não são iguais na tentativa de manter um número aproximadamente igual de ações em cada perna. A cesta neutra contém todos os estoques no universo que não têm um S-Score extremo o suficiente para gerar um sinal longo ou curto. Usando os mesmos limiares acima, o teste foi executado em um universo de liquidez que é definido como o quartil superior dos estoques do Volume Média Dólar de 50 dias. Conforme visto na Figura 7 abaixo, o Sharpe cai para um 1.24, mas ainda é muito encorajador.
A sensibilidade desses resultados precisa ser inspecionada novamente através da análise de conjuntos separados de trem e teste, mas fiquei muito satisfeito com os retornos que poderiam ser potencialmente gerados a partir dos dados de StockTwits rotulados.
O poder preditivo está lá, pois o longo-curto possui uma relação 4.5 Sharpe impressionante. Devido a ter mais dados, os resultados são muito menos sensíveis à construção de portfólio de longo e curto prazo. Para evitar o alto volume de negócios de uma estratégia aberta para fechar, temos explorado possíveis estratégias de longo prazo. A Equipe de Pesquisa Quantitativa do Deutsche Bank lançou recentemente um artigo sobre estratégias que utilizam exclusivamente nossos dados SMA, que incluem uma estratégia de longo prazo. Além disso, eu desenvolvi recentemente uma estratégia de reequilíbrio semanal forte que tenta capturar o impulso de sentimento semanal.
Colton Smith é um graduado recente da Universidade de Washington, onde se especializou em engenharia industrial e de sistemas e minored in Applied Math. Ele agora mora em Chicago e trabalha para o Social Market Analytics. Ele tem uma paixão pela ciência dos dados e está entusiasmado com sua carreira de finanças quantitativas em desenvolvimento. LinkedIn: linkedin / in / coltonfsmith /
Sexta-feira, 21 de julho de 2017.
Construindo um banco de dados de negociação de informações privilegiadas e prevendo os retornos futuros do patrimônio.
o scriptmaker permite aos usuários gravar dados do livro de pedidos para testes anteriores. O Pair Trading Lab oferece uma plataforma baseada na web para estratégias de backtesting de duplas fáceis.
Quinta-feira, 04 de maio de 2017.
Paradoxo resolvido: por que o risco diminui o retorno esperado do retorno, mas não é esperado.
Sexta-feira, 03 de março de 2017.
Mais dados ou menos preditores: qual é uma cura melhor para a superposição?
Em seguida, reescrevemos os dados selecionando aleatoriamente N (= 630,000) pontos de dados com substituição para formar um novo conjunto de treinamento (um "saco"), e repetimos esse K (= 100) vezes para formar sacos K. Para cada saco, treinamos um novo modelo de regressão. No final, nós superamos os retornos previstos desses modelos K para servir como nossos retornos oficiais previstos. Isso resulta em melhoria marginal da CAGR para 15,1%, sem alteração na relação de Sharpe.
Quarta-feira, 16 de novembro de 2016.
Estratégias de aposentadoria pré-ganhos.
2) Calcule o retorno pré-anúncio do dia t-4 para t-2 (apenas dias de negociação contábil).
3) Subtrair um retorno do índice de mercado sobre o mesmo período de lookback do retorno pré-anúncio e chamar esse PAR de retorno ajustado ao mercado.
4) Escolha os 18 estoques com o melhor PAR e reduzi-los (com dólares iguais) no mercado fechado de t-1, liquidar no mercado perto de t + 1. Escolha os 18 estoques com o pior PAR, e faça o contrário. Hedge qualquer exposição líquida com um ETF ou futuro do mercado.
2) Além disso, no mesmo mercado fechado, calcula deltaU qual é o número de dias de calendário desde a última alteração da data de anúncio esperada.
3) Se deltaD & lt; 0 e deltaU & lt; 45, compre o estoque no mercado e liquida no mercado do dia seguinte aberto. Se deltaD & gt; 0 e deltaU & gt; = 45, faça o contrário.
Curiosamente, uma versão neutra do mercado desta estratégia (usando a IWV para proteger qualquer exposição líquida) não melhora o índice de Sharpe, mas deprimiu significativamente o CAGR.
Quarta-feira, 28 de setembro de 2016.
Realmente, cuidado com os dados de baixa frequência.
Podemos ver que o problema não é apenas que perdemos dinheiro praticamente em todos os negócios, mas que raramente se desencadeou qualquer comércio. Quando os dados diários de EOD sugerem que um comércio deve ser desencadeado, os dados do BBO da barra de 1 minuto nos dizem que na verdade não houve desvio da média.
* Nota: de acordo com a etf, "O emitente [da DNO] suspendeu temporariamente as criações para este fundo a partir de 22 de março de 2016, pendente de arquivamento de novos papéis com a SEC. Essa ação poderia criar prémios incomuns ou excessivos e um aumento do preço de mercado do fundo em relação ao seu valor justo. Os resgates não são afetados. Troque com cuidado, verifique iNAV vs. preço ". Para uma explicação de "criação" de unidades ETF, veja meu artigo "Coisas que você não quer saber sobre ETFs e ETNs".
Quantiacs recentemente registrado como um CTA e opera um mercado para algoritmos de negociação que qualquer um pode contribuir. Eles também publicaram uma publicação de blog educativa para Python e Matlab backtesters: quantifics / Blog / Intro-to-Algorithmic-Trading-with-Heikin-Ashi. aspx Eu vou estar moderando um painel de discussão sobre "Como os fundos podem alavancar fontes de dados não tradicionais para gerar retornos de investimento? " no Quant World Canada em Toronto, 10 de novembro de 2016.
22 e 29 de outubro, sábados, workshops online Quantitative Momentum Strategies. As estratégias de impulso são para aqueles que desejam beneficiar de eventos de cauda. Discutirei os motivos fundamentais da existência de impulso em vários mercados, bem como estratégias de impulso específicas que mantêm posições de horas a dias.
Comments
Post a Comment